91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

AIGC不僅會污染互聯(lián)網(wǎng) 還會嚴(yán)重威脅大模型開發(fā)的未來

商界觀察
2023-06-21

過去幾天有關(guān)“AI污染中文互聯(lián)網(wǎng)環(huán)境”的討論又重新熱鬧起來,這個話題也帶出了另一個AI“終極命題”:如果世界上絕大部分內(nèi)容都依靠AI生成,屆時我們還能使用這些內(nèi)容訓(xùn)練出更“聰明”的AI大模型么?

 

先說結(jié)論:情況將變得非常困難且棘手。在目前為數(shù)不多但頗受認(rèn)可的研究中,這種情況被稱為“遞歸的詛咒”:如果大模型的訓(xùn)練高度依賴AIGC內(nèi)容,將很容易出現(xiàn)“崩潰”的情形。

 

此話怎講?

 

雖然現(xiàn)在互聯(lián)網(wǎng)上能找到的文字大部分都是真人寫的,但不可否認(rèn)的是,目前AIGC內(nèi)容正在以非常快的速度出現(xiàn)在廣告營銷、流量資訊平臺以及各式各樣的數(shù)字載體中。從增量的角度來看,隨著大模型的應(yīng)用在未來半年、一年里開花結(jié)果,AIGC內(nèi)容如潮水一般涌入互聯(lián)網(wǎng)平臺只是時間問題。

 

科技的進(jìn)步從來不是單方面的祝福,往往也會伴隨著詛咒。

 

正如溫室氣體,以及人類向海洋里排放的各種奇奇怪怪物質(zhì),互聯(lián)網(wǎng)的“海洋”也在面臨類似的威脅。

 

牛津大學(xué)、劍橋大學(xué)、倫敦帝國學(xué)院、多倫多大學(xué)等機(jī)構(gòu)的研究人員近期在預(yù)印本平臺上發(fā)表的一篇論文,恰好就是論述這個話題的。

 

研究人員發(fā)現(xiàn),在使用AIGC內(nèi)容訓(xùn)練模型時,會造成模型出現(xiàn)“不可逆的缺陷”,并且這種情況在變分自編碼器、高斯混合模型和大語言模型中都會出現(xiàn)。

 

同樣是內(nèi)容,為何AIGC的內(nèi)容會導(dǎo)致“模型崩潰”呢?

 

研究人員解釋稱:

 

模型崩潰是一種影響學(xué)習(xí)生成模型的退化過程,其中生成的數(shù)據(jù)最終會污染下一代模型的訓(xùn)練集;使用被污染數(shù)據(jù)進(jìn)行訓(xùn)練,會導(dǎo)致模型誤解現(xiàn)實(shí)。這里還有兩種特殊情況:早期模型崩潰和晚期模型崩潰。在早期模型崩潰中,模型開始喪失關(guān)于分布尾部的信息;在晚期模型崩潰中,模型將原始分布的不同模式相互糾纏,并收斂到與原始模型相差甚遠(yuǎn)的分布,通常方差非常小。

 

 

這個過程與災(zāi)難性遺忘的過程不同,因?yàn)槲覀兛紤]的是隨時間推移的多個模型,這些模型不會忘記以前學(xué)習(xí)的數(shù)據(jù),而是開始誤解他們認(rèn)為的真實(shí)。

 

 

考慮到大多數(shù)人可能看不太懂這兩段話,這篇論文的作者之一,牛津大學(xué)的Ilia Shumailov接受媒體采訪時舉了一個AIGC圖片的例子:假設(shè)在訓(xùn)練模型時,使用了100張狗狗的照片,里面有90只狗狗有黃色眼睛,還有10只有綠色眼睛。由于數(shù)據(jù)集中黃眼睛狗狗的數(shù)量占據(jù)絕大多數(shù),那么這樣訓(xùn)練出的模型中,藍(lán)眼睛狗狗實(shí)際的顏色會變得更加綠(黃加藍(lán)=綠)一些。如果有人從互聯(lián)網(wǎng)上抓取這樣生成的圖片,重復(fù)進(jìn)行生成—抓取—訓(xùn)練的過程,將會導(dǎo)致模型識別藍(lán)眼睛狗狗的能力最終消失。這種對信息的喪失或扭曲,就是模型崩潰。

 

引申開來,這也引發(fā)了另一層競爭:先行的GPT模型們,可能會堵住后來者開發(fā)更強(qiáng)大模型的路。或者說,想要“彎道超車”的后來者,需要花在可信賴數(shù)據(jù)上的時間和金錢,將遠(yuǎn)遠(yuǎn)超越領(lǐng)跑的這一批科技巨頭。

 

研究人員總結(jié)稱,訓(xùn)練大語言模型的特質(zhì)預(yù)示著“先行者優(yōu)勢”的存在。這篇論文證明了使用AIGC語料訓(xùn)練會導(dǎo)致分布改變,以及模型崩潰。為了確保模型在長期內(nèi)學(xué)習(xí)持續(xù)進(jìn)行,需要確保非AIGC語料的可及性。但目前為止,如何跟蹤和識別大模型生成內(nèi)容的機(jī)制尚不明確,如果繼續(xù)大規(guī)模地從互聯(lián)網(wǎng)上爬取數(shù)據(jù),訓(xùn)練新版本的大模型將變得原來越困難

 

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com