(資料圖)
微軟研究人員發(fā)布了一個(gè)新的基準(zhǔn)測試AGIEval,用于評php估基礎(chǔ)模型在人類認(rèn)知任務(wù)中的表現(xiàn),包括高考、公務(wù)員考試、法學(xué)院入學(xué)考試、數(shù)學(xué)競賽和律師資格考試等。
實(shí)驗(yàn)結(jié)果顯示,GPT-4在一些任務(wù)中的表現(xiàn)超過了人類平均水平,但在需要復(fù)雜推理或特定領(lǐng)域知識的任務(wù)中不太熟練。
論文鏈接:https://arxiv.org/pdf/2304.06364編程客棧.pdf
數(shù)據(jù)鏈接:https://gjsithub.com/microsoft/AGIEval
AGIEval數(shù)據(jù)集主要遵循兩個(gè)設(shè)計(jì)原則:強(qiáng)調(diào)人腦級別的認(rèn)知任務(wù)設(shè)計(jì),以與人類認(rèn)知和解決問題密切相關(guān)的任務(wù)為中心。與現(xiàn)實(shí)世界場景的相關(guān)性,通過選擇來自高標(biāo)準(zhǔn)的入學(xué)考試和資格考試的任務(wù),可以確保評估結(jié)果能夠反映個(gè)人在不同領(lǐng)域和背景下經(jīng)常遇到的挑戰(zhàn)的復(fù)雜性和實(shí)用性。
隨著大型基礎(chǔ)模型的能力越來越強(qiáng),如何評估模型在人類認(rèn)知任務(wù)中的表現(xiàn)變得越來越重要。 AGIEval基準(zhǔn)測試可以幫助人們更好地了解模型的泛化能力和局限性。
評估模型在人類認(rèn)知任務(wù)中的表現(xiàn)對于確保模型能夠有效地處理復(fù)雜的、以人為本的任務(wù)至關(guān)android重要。評估推理能力可以確保模型在不同環(huán)境下的可靠性和可信度。