波多野结衣在线网站_性欧美超级视频_欧美日韩一区三区四区_亚洲成人免费视频_亚洲一区二区综合_www.av精品_国产精品国产一区_午夜精品久久久久久久久久蜜桃_免费理论片在线观看播放老_婷婷国产在线综合

首頁(yè) 資訊 國(guó)內(nèi) 聚焦 教育 關(guān)注 熱點(diǎn) 要聞 民生1+1 國(guó)內(nèi)

爆火的“GPT-4 MIT本科數(shù)學(xué)滿分”論文作弊,數(shù)據(jù)集本身有問(wèn)題 全球熱議

來(lái)源:騰訊網(wǎng)    發(fā)布時(shí)間:2023-06-18 14:17:31

機(jī)器之心報(bào)道

編輯:蛋醬


(相關(guān)資料圖)

結(jié)論不應(yīng)該如此被夸大。

這兩天,一篇關(guān)于 GPT-4 滿分通過(guò) MIT EECS 和數(shù)學(xué)本科考試的論文在推特上瘋傳。

論文地址:https://arxiv.org/pdf/2306.08997.pdf

簡(jiǎn)單概括,一個(gè)來(lái)自 MIT 的研究團(tuán)隊(duì)從自己學(xué)校的數(shù)學(xué)、電氣工程和計(jì)算機(jī)科學(xué) (EECS) 專業(yè)的課程問(wèn)題、期中考試和期末考試中,整理出了一個(gè)包含 4550 個(gè)問(wèn)題和解決方案的綜合數(shù)據(jù)集。

然后,研究團(tuán)隊(duì)讓各種大語(yǔ)言模型去完成這個(gè)數(shù)據(jù)集的題目,結(jié)果太嚇人:GPT-3.5 能做對(duì) 1/3,GPT-4 幾乎滿分通過(guò)。

論文作者表示,提升模型表現(xiàn)主要靠「四件套」:Few-shot learning、CoT、Self-critique、Expert。

就像上表中所示,加持 GPT-4 的手法越多,模型的答題正確率就越高。原始的 GPT-4 本來(lái)就能拿到 90% 的正確率得分,一番運(yùn)作之后,甚至直接拿到滿分。

但大部分討論得很激烈的網(wǎng)友可能沒(méi)注意到,這個(gè)分?jǐn)?shù)本身就是用 GPT-4 打的……

三位同樣來(lái)自 MIT 的學(xué)生第一時(shí)間發(fā)現(xiàn)了這篇論文,作為險(xiǎn)些被 GPT-4 趕超的群體,他們想立即領(lǐng)會(huì)一下爆款論文的方法論。

研究了一小時(shí)后,他們對(duì)該論文的方法產(chǎn)生了懷疑。

兩小時(shí)后,他們意識(shí)到:數(shù)據(jù)集本身有問(wèn)題。

盡管原論文的作者宣稱已手動(dòng)審查了發(fā)布的數(shù)據(jù)集質(zhì)量,但三人發(fā)現(xiàn),有明顯的跡象表明,測(cè)試數(shù)據(jù)集的很大一部分被污染了。

也就是說(shuō),模型就像一個(gè)學(xué)生在考試前被告知了答案,這是赤裸裸的「作弊」。

產(chǎn)生質(zhì)疑后,他們立即著手在數(shù)據(jù)集上完成了零樣本 GPT-4 的運(yùn)行,并對(duì)數(shù)據(jù)的前 30% 進(jìn)行了手動(dòng)評(píng)分,結(jié)果與原論文相差甚遠(yuǎn),應(yīng)該說(shuō)是一個(gè)天上、一個(gè)地下。

「作為麻省理工學(xué)院的本科生,至少根據(jù)我們的經(jīng)驗(yàn),這個(gè)測(cè)試集并不能準(zhǔn)確地代表在麻省理工學(xué)院獲得 EECS 學(xué)位所需的理解廣度和深度。」三人在博客中這么寫道。

最新進(jìn)展:零樣本 GPT-4 的準(zhǔn)確率能達(dá)到 62.5% 了,但還是和論文里宣稱的 90% 差很多。

三人還質(zhì)疑了「過(guò)度宣傳」的風(fēng)潮:「這些論文通常在任何合法的同行評(píng)審之前就被上傳到 Arxiv,并在 Twitter 上廣泛分享。在這種情況下,可能會(huì)傳播不良信息,并為未來(lái)的工作樹立一個(gè)糟糕的先例。」

「深度學(xué)習(xí)」斗士 Gary Marcus 也不出意料地聲援了這波質(zhì)疑:

同時(shí),三人也在博客中指出一點(diǎn):《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》論文上列出的幾個(gè)作者都是本科生研究人員,讓這些人對(duì)工作中出現(xiàn)的任何失誤負(fù)責(zé)是不合適的。相反,責(zé)任應(yīng)該在指導(dǎo)作者身上 —— 他們才是被期望確保工作符合其領(lǐng)域內(nèi)公共學(xué)術(shù)標(biāo)準(zhǔn)的人。

接下來(lái)讓我們看下,這篇「爆火」論文都有哪些問(wèn)題。

數(shù)據(jù)集到底有什么問(wèn)題?

首先,從原論文中得知,研究者收集的數(shù)據(jù)集包含獲得 MIT 學(xué)位考試所需的 30 門數(shù)學(xué)和 EECS 課程的 4550 個(gè)問(wèn)題和相應(yīng)的解決方案,涵蓋核心課程和選修課程。

論文中寫道:「在沒(méi)有圖像和有解決方案的問(wèn)題中隨機(jī)選擇了 288 個(gè)問(wèn)題的測(cè)試集。」

這個(gè)數(shù)據(jù)集(不包括用于微調(diào)開源 LLM 的訓(xùn)練集)隨著論文的公開也被發(fā)布到 GitHub 上,同時(shí)發(fā)布的還有用于生成報(bào)告的測(cè)試性能的代碼。然而,作者 Drori 教授在最近的一次提交中已經(jīng)將其刪除。

經(jīng)過(guò)檢查、對(duì)比,三人確信這個(gè)被刪掉的文件代表了論文中分析的測(cè)試集,因?yàn)樵u(píng)估代碼中的所有數(shù)據(jù)的文件路徑都指向它,沒(méi)有提供任何修改其內(nèi)容的代碼,而且它在最初發(fā)布的 GitHub 倉(cāng)庫(kù)中是可用的。此外,該文件滿足了論文中規(guī)定的所有模式要求(行數(shù)等)。這些證據(jù)似乎非常有力地支持了下面的所有主張,

「但我們要承認(rèn),這個(gè)文件有可能被換成了一個(gè)用于測(cè)試的不同文件。如果是這樣的話,我們認(rèn)為證明的責(zé)任在于作者公開發(fā)布這個(gè)數(shù)據(jù)和用它做的所有分析。」

那么,被掩蓋的問(wèn)題究竟是什么呢?三人給出了自己的分析。

無(wú)法解決的問(wèn)題(約占測(cè)試集的 4%)

鑒于原論文表示,任何形式的 GPT-4 都能在測(cè)試集上產(chǎn)生一個(gè)完美的分?jǐn)?shù),三人開始檢查個(gè)別數(shù)據(jù)點(diǎn)。他們很快就發(fā)現(xiàn),根本不可能有滿分,因?yàn)閿?shù)據(jù)集中至少有 10 個(gè)問(wèn)題是無(wú)法用所提供的信息解決的,另外幾個(gè)問(wèn)題在這種情況下根本就不是有效的問(wèn)題。

像這種「有問(wèn)題的問(wèn)題」,至少占據(jù)了測(cè)試集的 4%。

在一個(gè)擴(kuò)展的 excel 文檔里,三人對(duì)已經(jīng)發(fā)現(xiàn)有問(wèn)題的數(shù)據(jù)集例子進(jìn)行了注釋。「紅色」代表用提供的信息無(wú)法解決的問(wèn)題,「黃色」代表一部分不太合理的問(wèn)題。

頁(yè)面地址:https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit?usp=sharing

重復(fù)的問(wèn)題(約占測(cè)試集的 5%)

使用文本相似性檢測(cè),三人發(fā)現(xiàn)有 14 個(gè)問(wèn)題(7 對(duì))在 288 個(gè)問(wèn)題的測(cè)試集中是重復(fù)的,在這些情況下,問(wèn)題串之間的唯一區(qū)別是極小的字符級(jí)噪音,甚至完全相同。

鑒于這些無(wú)法解決的問(wèn)題,GPT-4 能夠通過(guò)任何方式獲得 100% 的準(zhǔn)確率,也是難以置信。要么是在某個(gè)階段出現(xiàn)了答案泄漏到 prompt 中,要么是問(wèn)題沒(méi)有被正確打分。

這些初步的發(fā)現(xiàn)促使他們從少樣本示例開始進(jìn)一步調(diào)查(如果模型在零樣本正確率方面失敗的話),最終發(fā)現(xiàn),既有解題信息的泄露,也有用于對(duì)模型輸出進(jìn)行分級(jí)的方法問(wèn)題。具體情況如下:

少樣本示例中的信息泄露

值得注意的是,原論文中還提到了「少樣本示例」這個(gè)事。

簡(jiǎn)而言之,論文對(duì) OpenAI 嵌入的數(shù)據(jù)集內(nèi)的類似問(wèn)題進(jìn)行余弦相似度搜索,并將這些問(wèn)題和解決方案作為額外的上下文納入模型的 prompt,幫助模型解決問(wèn)題。

這個(gè)方法本身是沒(méi)問(wèn)題的,只要這些示例與有關(guān)問(wèn)題有足夠的差異,且避免暴露不公平的信息。

只是隨機(jī)掃描已發(fā)布的測(cè)試數(shù)據(jù)集時(shí),三人注意到一些奇怪的事情:許多提供給模型的「少樣本示例」與問(wèn)題本身幾乎一字不差。

為了進(jìn)一步了解這一點(diǎn),他們寫了一個(gè)簡(jiǎn)單的腳本,查看了所提供的幾個(gè)示例的問(wèn)題陳述和所列出的問(wèn)題之間的重疊情況,并繪出了直方圖:

許多提供的少樣本與問(wèn)題本身幾乎相同,這意味著模型得到的是問(wèn)題的答案或與問(wèn)題非常相似的問(wèn)題。通常情況下,這來(lái)自于大量的共享背景的多環(huán)節(jié)問(wèn)題的重復(fù)。

他們認(rèn)為,為了正確評(píng)估 GPT 的解題能力,多環(huán)節(jié)問(wèn)題的其他部分應(yīng)該被完全排除在某一問(wèn)題的少樣本示例之外。事實(shí)上,他們發(fā)現(xiàn)這些多環(huán)節(jié)問(wèn)題的解決方案,往往直接提到或給出了模型被要求解決的另一部分問(wèn)題的答案。

不僅如此,在對(duì)這些數(shù)據(jù)的挖掘中,他們還發(fā)現(xiàn)了整個(gè)問(wèn)題被重復(fù)的樣本。比如:

在這兩種情況下,答案是完全相同的。很難說(shuō)不算信息泄漏了。

GPT-4 自動(dòng)打分,有問(wèn)題

此外,三人還在原論文開源的打分機(jī)制中發(fā)現(xiàn)了問(wèn)題:

在代碼中,能看出流程上處理分級(jí)存在嚴(yán)重的問(wèn)題:論文是用 GPT-4 去評(píng)估檢查的,包括 a)原始問(wèn)題,b)解決方案,c)GPT 自己的答案,作為分級(jí) prompt 中的參數(shù)。

在更多的技術(shù)領(lǐng)域,GPT 更有可能出現(xiàn)隱性誤解,這種自動(dòng)評(píng)分更有可能出現(xiàn)「自我欺騙」的結(jié)果。

此外,雖然 prompt 級(jí)聯(lián)是最近許多 GPT 論文中常見的技術(shù),但這里有大量數(shù)據(jù)泄漏的可能性。每一級(jí)不僅提供基于 ground truth 的二元信息,而且還在繼續(xù) prompt,直到達(dá)到正確答案。

盡管這些創(chuàng)建的 prompt 并沒(méi)有看到實(shí)際的答案,但重新 prompt 直到達(dá)到正確答案的形式已經(jīng)足夠了,尤其是在占測(cè)試集 16% 的多選題中,無(wú)限次的嘗試(幾乎)保證了正確答案一定會(huì)出現(xiàn)。

這就好比有人拿著答題紙,告訴正在考試的學(xué)生答得對(duì)不對(duì),一直提示到學(xué)生得到正確答案。

總結(jié)

在博客的最后,三位這樣寫道:

這篇論文道出了最近人工智能領(lǐng)域研究的一個(gè)更大趨勢(shì)。隨著該領(lǐng)域的進(jìn)展越來(lái)越快,新發(fā)現(xiàn)的時(shí)間節(jié)奏似乎在縮短,這往往伴隨著捷徑。一個(gè)特別令人擔(dān)憂的趨勢(shì)是使用像 GPT-4 這樣基于語(yǔ)言的模型來(lái)評(píng)估一個(gè)模型的準(zhǔn)確性的技術(shù)。

雖然是一個(gè)有用的工具,但它的結(jié)論絕不應(yīng)該被夸大,也不應(yīng)該被當(dāng)作 ground truth。最近的工作表明,如果沒(méi)有準(zhǔn)確的 ground truth 信息,GPT-4 評(píng)估器就不能可靠地用于驗(yàn)證。至少,應(yīng)該選擇一個(gè)隨機(jī)的數(shù)據(jù)集子集,將 GPT-4 的性能與人類的評(píng)估進(jìn)行比較。語(yǔ)言模型還不能被當(dāng)作產(chǎn)生 ground truth 的神諭。

此外,在使用數(shù)據(jù)之前,無(wú)論是用于訓(xùn)練、推理、基準(zhǔn)測(cè)試還是其他方面,重新評(píng)估每一個(gè)數(shù)據(jù)點(diǎn)并進(jìn)行基本的檢查是極其重要的。鑒于有關(guān)數(shù)據(jù)集的規(guī)模較小,簡(jiǎn)單的人工驗(yàn)證很容易在工作范圍內(nèi)完成。?

我們的批評(píng)主要是針對(duì)這項(xiàng)研究的方法和嚴(yán)謹(jǐn)性,而不是針對(duì)其內(nèi)容。我們對(duì)大型語(yǔ)言模型實(shí)際解決麻省理工學(xué)院課程的能力沒(méi)有任何意見,只是認(rèn)為本文未能以科學(xué)嚴(yán)謹(jǐn)?shù)姆绞阶C明這一點(diǎn)。

關(guān)鍵詞:

頻道精選

首頁(yè) | 城市快報(bào) | 國(guó)內(nèi)資訊 | 教育播報(bào) | 在線訪談 | 本網(wǎng)原創(chuàng) | 娛樂(lè)看點(diǎn)

Copyright @2008-2018 經(jīng)貿(mào)網(wǎng) 版權(quán)所有 皖I(lǐng)CP備2022009963號(hào)-11
本站點(diǎn)信息未經(jīng)允許不得復(fù)制或鏡像 聯(lián)系郵箱:39 60 29 14 2 @qq.com

国产精品白丝av嫩草影院| 精品久久人人做人人爰| 日本一区二区综合亚洲| 国产aⅴ综合色| 欧美交a欧美精品喷水| 成人免费网站观看| 操喷在线视频| 日韩av一级电影| 欧美在线三区| 精品久久91| 亚洲网站啪啪| 日韩欧美精品中文字幕| 国产黄色片大全| 日本不卡免费高清视频在线| 成人在线免费观看91| 天堂久久一区二区三区| 亚洲经典三级| 成人黄色91| 精品国产亚洲一区二区三区大结局 | 青春草在线免费视频| 性色av一区二区| gogo久久| 精品日韩成人av| 99re热这里只有精品视频| 欧美亚洲色图校园春色| 在线观看二区| 美女的胸无遮挡在线观看| 天使と恶魔の榨精在线播放| 日韩午夜精品电影| 免费观看羞羞视频网站| 欧美色综合久久| 欧美日韩亚洲丝袜制服| 国产理论电影在线观看| 2020国产在线视频| 亚洲淫性视频| 丰满大乳少妇在线观看网站| 高h视频在线观看| www555久久| 成人18视频在线观看| 91亚洲精品| 亚洲天堂中文字幕在线观看| 另类av导航| 欧美日韩精品专区| 综合网在线视频| 国产成人精品免费在线| 欧美日韩a区| 国产a精品视频| 亚洲免费观看高清完整版在线观看熊| 另类成人小视频在线| 亚洲摸摸操操av| 91成人免费在线| 污网站在线看| 香蕉大人久久国产成人av| 国产不卡一二三区| 午夜精品电影| 成人一级片在线观看| 1024成人网| 美女免费免费看网站| 日本成人一区| av小次郎在线| 欧美18一12sex性处hd| 欧美一卡二卡在线| 欧美日韩www| 精品国产1区二区| 激情视频网址| 国产成人无吗| 残酷重口调教一区二区| 91香蕉视频mp4| 亚洲丶国产丶欧美一区二区三区| 国产福利在线看| 亚洲一级大片| 欧美日韩亚洲综合| 黄色亚洲在线| aaa在线观看| 国产精品天美传媒| 芒果视频成人app| 亚洲欧美综合在线精品| 羞羞在线视频| 精品176极品一区| 日韩avvvv在线播放| 亚洲成人动漫在线观看| av电影高清在线观看| 日韩在线视频一区二区三区| 免费欧美日韩国产三级电影| 99视频国产精品| 欧美日韩国产综合一区二区| 在线看三级网站视频| 免费欧美网站| 欧美日韩在线一区| 亚洲小说区图片区都市| www.久久久久爱免| 久久99精品国产| 成人动漫av| 亚洲私拍自拍| 老司机午夜精品视频在线观看| 欧美日韩国产综合视频在线观看 | 欧美日韩在线看| 成年人视频在线看| 91偷拍一区二区三区精品| 国产精品美女久久福利网站| 在线观看入口黄最新永久免费国产| 牛牛精品成人免费视频| 中文字幕av资源一区| 日韩欧美电影在线观看| 99精品网站| 在线亚洲一区观看| 色综合视频一区二区三区日韩| 国产高清在线精品| 人成在线视频| 色综合久久网| 日韩欧美一区视频| 国产精品天堂蜜av在线播放| 不卡电影免费在线播放一区| 亚洲成人观看| 99热这里只有精品8| 91精品国产免费| aaa国产精品| 一区二区日韩av| 欧美成人性网| 91麻豆免费在线观看| 日韩毛片久久久| 欧美96一区二区免费视频| 美日韩在线观看| 香蕉久久网站| 日韩你懂的在线观看| 亚洲涩涩av| 欧美无乱码久久久免费午夜一区| 日本一区影院| 欧美日韩中文在线| 99a精品视频在线观看| 亚洲在线中文字幕| 中文字幕日本一区| 亚洲一区免费在线观看| 亚洲一区二区av| 亚洲第一激情av| eeuss鲁片一区二区三区| 亚洲国产精品综合小说图片区| 亚洲成人一区在线观看| 亚洲啪啪综合av一区二区三区| 久久久人成影片一区二区三区在哪下载| 26uuu成人网一区二区三区| 国产精品久久久久久福利| 国产激情一区二区三区| 国产成人l区| 国产午夜亚洲精品羞羞网站| 蜜桃视频www网站在线观看| 久久人人爽爽爽人久久久| 国产福利片在线观看| 久久午夜老司机| 成人亚洲综合| 五月激情综合网| 国产欧美日韩| 在线免费观看av电影| 激情婷婷久久| 久青草国产在线| 99久久er热在这里只有精品15 | 成人一级毛片| 精品日本一线二线三线不卡| 亚洲精品小说| 天堂中文av| 国产老妇另类xxxxx| 99热99re6国产在线播放| 国产精品麻豆网站| 51vv免费精品视频一区二区| 欧美欧美午夜aⅴ在线观看| 亚洲草久电影| 日韩a在线观看| 91色婷婷久久久久合中文| 福利一区和二区| 欧美视频一区二区三区在线观看| 91精品国产视频| 黄色片在线播放| 国产日产欧美精品一区二区三区| 国产成年精品| 精品精品国产高清一毛片一天堂| 久久精品在线| 不卡专区在线| 色激情天天射综合网| 欧美精品大片| www久久日com| 午夜精品久久久久久| 亚洲欧美综合久久久| 爽爽视频在线观看| 国产日韩影视精品| 自拍视频一区| 青春有你2免费观看完整版在线播放高清 | 羞羞的视频网站| 麻豆精品久久久| 日本成人福利| 色先锋av资源在线| 成熟亚洲日本毛茸茸凸凹| 国产精品99久久免费| 影音av资源| 91免费国产在线| 精品一区亚洲| 97最新国自产拍视频在线完整在线看| 亚洲欧美经典视频| 精品福利电影| 欧美精品总汇| 人善交video高清|