韩日午夜在线资源一区二区_成人AV综合在线网站_欧美亚洲日本国产黑白配_大臣们罚皇上带玉势上朝_全彩口工漫画无遮爱丽丝

首都青年網(wǎng) |
  • 手機(jī)客戶端
  • 微信
您的位置:首頁(yè) > 產(chǎn)經(jīng) > 正文
上海研發(fā)的“書生·浦語(yǔ)”大語(yǔ)言模型發(fā)布
來(lái)源: 2023-06-07 17:02:29

上海研發(fā)的“書生·浦語(yǔ)”大語(yǔ)言模型發(fā)布

6月7日,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)、商湯科技聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級(jí)參數(shù)大語(yǔ)言模型“書生·浦語(yǔ)”(InternLM)。

隨著AI大語(yǔ)言模型越來(lái)越多地表現(xiàn)出接近人類的智能,面向人類設(shè)計(jì)的高難度、綜合性考試被越來(lái)越多地引入對(duì)語(yǔ)言模型的智能水平進(jìn)行評(píng)測(cè)。OpenAI在其關(guān)于GPT-4的技術(shù)報(bào)告中就主要通過(guò)各領(lǐng)域的考試對(duì)模型能力進(jìn)行檢驗(yàn)。2023年高考開(kāi)考,中文大語(yǔ)言模型是否能夠在高考中趕超ChatGPT呢?

據(jù)上海人工智能實(shí)驗(yàn)室介紹,“書生·浦語(yǔ)”具有1040億參數(shù),是在包含1.6萬(wàn)億token的多語(yǔ)種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。全面評(píng)測(cè)結(jié)果顯示,“書生·浦語(yǔ)”不僅在知識(shí)掌握、閱讀理解、數(shù)學(xué)推理、多語(yǔ)翻譯等多個(gè)測(cè)試任務(wù)上表現(xiàn)優(yōu)秀,而且具備很強(qiáng)的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項(xiàng)中文考試中取得超越ChatGPT的成績(jī),其中就包括中國(guó)高考各科目的數(shù)據(jù)集(GaoKao)。


(資料圖片)

綜合“大考”:“書生·浦語(yǔ)”多項(xiàng)成績(jī)領(lǐng)先于ChatGPT

“書生·浦語(yǔ)”聯(lián)合團(tuán)隊(duì)選取了20余項(xiàng)評(píng)測(cè)對(duì)其進(jìn)行檢驗(yàn),其中包含全球最具影響力的四個(gè)綜合性考試評(píng)測(cè)集:由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評(píng)測(cè)集MMLU;微軟研究院推出的學(xué)科考試評(píng)測(cè)集AGIEval(含中國(guó)高考、司法考試及美國(guó)SAT、LSAT、GRE 和 GMAT等);由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集C-Eval;以及由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的高考題目評(píng)測(cè)集Gaokao。

實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)對(duì)“書生·浦語(yǔ)”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 進(jìn)行了全面測(cè)試,針對(duì)上述四個(gè)評(píng)測(cè)集的成績(jī)對(duì)比。

研究發(fā)現(xiàn),“書生·浦語(yǔ)”不僅顯著超越了GLM-130B和LLaMA-65B 等學(xué)術(shù)開(kāi)源模型,還在AGIEval、C-Eval、以及Gaokao等多個(gè)綜合性考試中領(lǐng)先于ChatGPT;在以美國(guó)考試為主的MMLU上實(shí)現(xiàn)和 ChatGPT 持平。這些綜合性考試的成績(jī)反映出“書生·浦語(yǔ)”扎實(shí)的知識(shí)掌握程度和優(yōu)秀的綜合能力。

雖然 “書生·浦語(yǔ)”在考試評(píng)測(cè)上取得優(yōu)秀成績(jī),但在測(cè)評(píng)中也可以看到,大語(yǔ)言模型仍然存在不少能力局限性?!皶て终Z(yǔ)” 受限于2K的語(yǔ)境窗口長(zhǎng)度(GPT-4的語(yǔ)境窗口長(zhǎng)度為32K),在長(zhǎng)文理解、復(fù)雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外,在實(shí)際對(duì)話中,大語(yǔ)言模型還普遍存在幻覺(jué)、概念混淆等問(wèn)題;這些局限使得大語(yǔ)言模型在開(kāi)放場(chǎng)景中的使用還有很長(zhǎng)的路要走。

分項(xiàng)評(píng)測(cè):閱讀理解、推理能力表現(xiàn)出色

為了避免“偏科”,研究人員還通過(guò)多個(gè)學(xué)術(shù)評(píng)測(cè)集,對(duì)“書生·浦語(yǔ)”等語(yǔ)言模型的分項(xiàng)能力進(jìn)行了評(píng)測(cè)對(duì)比。結(jié)果顯示,“書生·浦語(yǔ)”不僅在中英文的閱讀理解方面表現(xiàn)突出,并且在數(shù)學(xué)推理、編程能力等評(píng)測(cè)中也取得了較好的成績(jī)。

例如,在知識(shí)問(wèn)答方面,“書生·浦語(yǔ)”在TriviaQA 和 NaturalQuestions 兩項(xiàng)評(píng)測(cè)上得分為69.8和27.6,均超越 LLaMA-65B(得分為68.2和23.8,滿分100分)。

在閱讀理解(英語(yǔ))方面,“書生·浦語(yǔ)”明顯領(lǐng)先于 LLaMA-65B 和 ChatGPT。浦語(yǔ)在初中和高中英語(yǔ)閱讀理解中得分為92.7和88.9,?ChatGPT得分為85.6和81.2,LLaMA-65B則更低。

在中文理解方面,“書生·浦語(yǔ)”的成績(jī)?nèi)娉街饕膬蓚€(gè)中文語(yǔ)言模型ERNIE-260B和GLM-130B。在多語(yǔ)翻譯方面,“書生·浦語(yǔ)”在多語(yǔ)種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。

在編程能力方面,“書生·浦語(yǔ)”在HumanEval 和MBPP這兩項(xiàng)最具代表性的考評(píng)中,分別取得28.1和 41.4的得分(其中經(jīng)過(guò)在代碼領(lǐng)域的微調(diào)后,在HumanEval上的得分可以提升至45.7),明顯領(lǐng)先于 PaLM-540B(得分為 26.2 和 36.8)與LLaMA-65B(得分為 23.7 和 37.7)。

此外,研究人員還對(duì)“書生·浦語(yǔ)”的安全性進(jìn)行評(píng)測(cè),在TruthfulQA(主要評(píng)價(jià)回答的事實(shí)準(zhǔn)確性) 以及 CrowS-Pairs(主要評(píng)價(jià)回答是否含有偏見(jiàn))上,“書生·浦語(yǔ)”均達(dá)到領(lǐng)先水平。

關(guān)鍵詞

圖片新聞
最近更新
Copyright @ 2008-2023 www.879606.com All Rights Reserved 首都青年網(wǎng) 版權(quán)所有
文章采集互聯(lián)網(wǎng),為了傳遞信息,如有出處與本站無(wú)關(guān)。 非本站原創(chuàng),系由網(wǎng)友自助上傳或轉(zhuǎn)載、采編于其它媒體,不代表本站的觀點(diǎn)和和看法,一切責(zé)任由發(fā)布者承擔(dān),與本站無(wú)關(guān)!
版權(quán)文章處理
聯(lián)系方式:QQ  39 60 29 14 2 @qq.com  備案號(hào):皖I(lǐng)CP備2022009963號(hào)-20
孟连| 兴安盟| 红桥区| 安岳县| 东方市| 全椒县| 宝兴县| 陆河县| 同仁县| 延吉市| 土默特左旗| 宽甸| 青铜峡市| 项城市| 阿坝县| 阳新县| 河池市| 高安市| 乌恰县| 醴陵市| 恭城| 柘城县| 望奎县| 米林县| 南宫市| 沂南县| 文安县| 蒙阴县| 普格县| 江都市| 汪清县| 两当县| 垣曲县| 黄平县| 屏南县| 长岭县| 松潘县| 鄯善县| 六盘水市| 青海省| 灵丘县|