Meta大模型成了“科學造假發動機”,發布3天就在爭議中下架


Meta大模型成了“科學造假發動機”,發布3天就在爭議中下架

文章插圖

Meta大模型成了“科學造假發動機”,發布3天就在爭議中下架

文章插圖
夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI

Meta最新大模型差點成了“科研造假發動機”,剛出3天就在爭議中下架 。
1200億參數語言模型Galactica,在4800萬篇學術論文和各式教科書、百科等數據上訓練而來 。
(與太空堡壘卡拉狄加同名)
其本意是想解決學術界信息過載,幫助研究人員做信息梳理、知識推理和寫作輔助,一度被認為是“科研者的福音”,或者“寫論文的Copilot” 。
Meta大模型成了“科學造假發動機”,發布3天就在爭議中下架

文章插圖



But , 一經開放使用,很快就被網友們發現了大問題 。
它確實能為自己生成的內容引用文獻,但有時這個文獻并不存在,作者卻是真實存在的人 。
Meta大模型成了“科學造假發動機”,發布3天就在爭議中下架

文章插圖



它能生成看起來像模像樣的科普文字,但內容卻是完全錯誤的 。
Meta大模型成了“科學造假發動機”,發布3天就在爭議中下架

文章插圖



△真空中的光速和聲速接近可還行?
著名的Gary·AI悲觀主義者·Marcus也來吐槽,Galactica把他的出生日期、教育經歷和研究領域等信息全搞錯了 。
Meta大模型成了“科學造假發動機”,發布3天就在爭議中下架

文章插圖



對以上種種問題,馬克斯普朗克智能系統研究所所長Michael Black總結道:
這將開啟一個科學深度造假(deep scientific fakes)的時代 。
會出現研究者從未寫過的虛假論文,這些論文隨后會被其他真實的論文引用,簡直亂套了 。

【Meta大模型成了“科學造假發動機”,發布3天就在爭議中下架】雖然他也注意到,Galactica的開發者在每個輸出內容后都加了“內容可能不可靠”的警告 , 但“潘多拉的魔盒一旦開啟,就關不上了” 。
事實上他的擔憂不無道理,AI生成內容的速度要比人類快的多,一旦大量被搜索引擎抓取就有可能出現在前排,甚至被當成正確答案展示在最上面,誤導更多人 。
這樣的爭議持續了兩三天,團隊只好無奈宣布Demo暫時下架,論文和源代碼繼續開放給相關領域研究者 。
Meta大模型成了“科學造假發動機”,發布3天就在爭議中下架

文章插圖



作為Meta首席科學家 , LeCun對這個局面并不滿意 。
與他觀點一致的網友認為 , Galactica是有幫助且有趣的,只是被個別人濫用了 。
Meta大模型成了“科學造假發動機”,發布3天就在爭議中下架

文章插圖



本意是好的
Galactica由Meta AI與Papers with Code合作開發 。
在論文引言部分,團隊寫到:
2022年5月 , arXiv上每天平均新增516篇論文……科學數據的增長速度更是比人們的處理能力快……一個人已經不可能讀完特定研究領域的論文 。
搜索引擎不直接組織信息,維基百科這樣的形式需要人力來維護,研究人員持續為信息過載感到不知所措 。

因此他們提出,語言大模型可以更好的存儲、組合和推理科學知識,并提出一個終極愿景:
神經網絡將成為科學研究的下一代人機界面 , 就從這篇論文開始 。

Meta大模型成了“科學造假發動機”,發布3天就在爭議中下架

文章插圖



本意是好的,而且Galactica的表現也確實不錯 。

相關經驗推薦