午夜精品久久久久久影视riav,白嫩少妇一级无码,中国精品人妻久久久久,久久精品亚洲无码日韩

國(guó)際期刊發(fā)表DeepSeek大規(guī)模推理模型訓(xùn)練方法 揭示AI背后的科學(xué)

分享到:
分享到:

國(guó)際期刊發(fā)表DeepSeek大規(guī)模推理模型訓(xùn)練方法 揭示AI背后的科學(xué)

2025年09月18日 10:34 來(lái)源:中國(guó)新聞網(wǎng)
大字體
小字體
分享到:

  中新網(wǎng)北京9月18日電 (記者 孫自法)作為一家專(zhuān)注于大語(yǔ)言模型(LLM)和通用人工智能(AGI)技術(shù)的中國(guó)公司,DeepSeek(深度求索)今年早些時(shí)候發(fā)布的開(kāi)源人工智能(AI)模型DeepSeek-R1采用的大規(guī)模推理模型訓(xùn)練方法,頗受關(guān)注。

  北京時(shí)間9月17日夜間,該訓(xùn)練方法在國(guó)際知名學(xué)術(shù)期刊《自然》上線發(fā)表,其揭示AI技術(shù)背后的科學(xué)研究表明,大語(yǔ)言模型的推理能力可通過(guò)純強(qiáng)化學(xué)習(xí)來(lái)提升,從而減少增強(qiáng)性能所需的人類(lèi)輸入工作量。訓(xùn)練出的模型在數(shù)學(xué)、編程競(jìng)賽和STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))領(lǐng)域研究生水平問(wèn)題等任務(wù)上,比傳統(tǒng)訓(xùn)練的大語(yǔ)言模型表現(xiàn)更好。

  論文通訊作者為DeepSeek創(chuàng)始人梁文鋒,他領(lǐng)導(dǎo)的DeepSeek-AI團(tuán)隊(duì)表示,讓AI模型像人類(lèi)一樣進(jìn)行推理一直是難題,雖然大語(yǔ)言模型已顯示出一些推理能力,但訓(xùn)練過(guò)程需要大量計(jì)算資源。通過(guò)人工提示引導(dǎo)可改進(jìn)這類(lèi)模型,促使其生成中間推理步驟,從而大為強(qiáng)化其在復(fù)雜任務(wù)中的表現(xiàn)。不過(guò),這個(gè)方法會(huì)導(dǎo)致計(jì)算成本過(guò)高,并限制其擴(kuò)展?jié)摿Α?/p>

  DeepSeek-AI團(tuán)隊(duì)介紹說(shuō),DeepSeek-R1包含一個(gè)在人類(lèi)監(jiān)督下的深入訓(xùn)練階段,以?xún)?yōu)化推理過(guò)程。該模型使用了強(qiáng)化學(xué)習(xí)而非人類(lèi)示例來(lái)開(kāi)發(fā)推理步驟,從而減少了訓(xùn)練成本和復(fù)雜性。DeepSeek-R1在被展示優(yōu)質(zhì)的問(wèn)題解決案例后,會(huì)獲得一個(gè)模板來(lái)產(chǎn)生推理過(guò)程。這一模型通過(guò)解決問(wèn)題獲得獎(jiǎng)勵(lì),從而強(qiáng)化學(xué)習(xí)效果。

  在評(píng)估AI表現(xiàn)的數(shù)學(xué)基準(zhǔn)測(cè)試中,DeepSeek-R1-Zero和DeepSeek-R1得分分別為77.9%和79.8%。此外,該模型在編程競(jìng)賽及研究生水平的生物學(xué)、物理和化學(xué)問(wèn)題上同樣表現(xiàn)優(yōu)異。

  《自然》同期發(fā)表國(guó)際同行專(zhuān)家的“新聞與觀點(diǎn)”文章指出,當(dāng)前版本的DeepSeek-R1有一些能力限制,希望能在未來(lái)版本中得到改進(jìn)。例如,該模型有時(shí)會(huì)混合語(yǔ)言,目前只針對(duì)中文和英文做了優(yōu)化;它對(duì)提示詞也很敏感,需要精心設(shè)計(jì)的提示詞工程,在某些任務(wù)上沒(méi)有展現(xiàn)出明顯提升,例如軟件工程任務(wù)。

  DeepSeek-AI團(tuán)隊(duì)總結(jié)認(rèn)為,未來(lái)研究可以聚焦優(yōu)化獎(jiǎng)勵(lì)過(guò)程,以確保推理和任務(wù)結(jié)果可靠。(完)

【編輯:鄭云天】
發(fā)表評(píng)論 文明上網(wǎng)理性發(fā)言,請(qǐng)遵守新聞評(píng)論服務(wù)協(xié)議
本網(wǎng)站所刊載信息,不代表中新社和中新網(wǎng)觀點(diǎn)。 刊用本網(wǎng)站稿件,務(wù)經(jīng)書(shū)面授權(quán)。
未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制及建立鏡像,違者將依法追究法律責(zé)任。
Copyright ©1999-2025 chinanews.com. All Rights Reserved

評(píng)論

頂部