江曉原:“數(shù)據(jù)挖掘”的雙面性:是天使還是魔鬼?
比特幣收益與制造業(yè)、金屬采礦業(yè)股票收益呈負相關(guān)……
特朗普在推特中使用"with"一詞四天后,中國茶葉分銷商Urban Tea股價下跌……
特朗普推特中"president"的使用與兩天后標準普爾500指數(shù)存在0.43的相關(guān)性……
這些新發(fā)現(xiàn)的"規(guī)律"是否讓你感到震撼與意外?顯然,此類發(fā)現(xiàn)離不開"大數(shù)據(jù)"與"AI算法",尤其是近年備受關(guān)注的"數(shù)據(jù)挖掘"方法。

《不被信任的科學——大數(shù)據(jù)、人工智能與信息欺騙》,[美]加里·史密斯 著,孫強 譯,上??萍冀逃霭嫔?025年出版
經(jīng)濟學家視角下的"數(shù)據(jù)挖掘"
"數(shù)據(jù)挖掘"常被稱作"機器學習"或"知識發(fā)現(xiàn)",這些中文譯名充滿高科技與創(chuàng)新感,無批判意味。通俗而言,它是借助AI算法在海量大數(shù)據(jù)中探尋各類數(shù)據(jù)關(guān)系的過程。
美國經(jīng)濟學家、統(tǒng)計學家加里·史密斯(耶魯大學經(jīng)濟學博士,波莫納學院教授)在《不被信任的科學》中指出,"虛假信息""數(shù)據(jù)歪曲""數(shù)據(jù)挖掘"正嚴重損害科學信譽,其中"數(shù)據(jù)挖掘"是他抨擊的重點。他將挖掘出的數(shù)據(jù)關(guān)系比作"愚人金"——看似黃金實則無價值的銅,認為這些關(guān)系多無意義甚至具有欺騙性。但關(guān)鍵問題在于:如何界定"荒謬"與"合理"的界限?
史密斯對"數(shù)據(jù)挖掘"的定義觸及核心:"在不受理論影響的數(shù)據(jù)中尋找潛在模式,研究人員深入挖掘卻無法預(yù)知結(jié)果。"他對比傳統(tǒng)數(shù)據(jù)處理:"傳統(tǒng)查詢需假設(shè)引導,而大數(shù)據(jù)挖掘能揭示未知關(guān)系。"他引用《連線》文章"大數(shù)據(jù)與理論家的消亡"稱:"算法找模式,假設(shè)從數(shù)據(jù)來,分析師無需再提假設(shè)。"
簡言之,史密斯認為傳統(tǒng)數(shù)據(jù)處理有理論指導與預(yù)期,而"數(shù)據(jù)挖掘"是無方向的"亂挖",其發(fā)現(xiàn)多為無意義的"胡說八道"。
從傳統(tǒng)數(shù)據(jù)處理到"數(shù)據(jù)挖掘"的演變
作為天體物理專業(yè)出身、曾在上海天文臺工作15年的學者,我認為"數(shù)據(jù)挖掘"并非如史密斯所言非黑即白,它與傳統(tǒng)數(shù)據(jù)處理無絕對界限,常是正常科研手段。以天文學"星歷表"為例,其記錄太陽系天體坐標,可視為"大數(shù)據(jù)"。通過算法"挖掘",既能獲取牧野之戰(zhàn)時木星位置等有意義結(jié)果,也可能發(fā)現(xiàn)無關(guān)聯(lián)關(guān)系——關(guān)鍵在于是否有理論支撐與合理預(yù)期。
數(shù)據(jù)處理技術(shù)早于互聯(lián)網(wǎng)與AI存在。史密斯批判的實則是"數(shù)據(jù)挖掘"的濫用。20世紀80年代,星歷表以紙質(zhì)形式存在,人工挖掘難以濫用;90年代數(shù)字光盤普及后,算法挖掘成為可能,但科研人員仍堅守嚴謹性??梢娂夹g(shù)本身中性,濫用源于使用者。
科學信任危機的荒誕圖景
《不被信任的科學》書名易讓人聯(lián)想到科學知識社會學著作,實則不然。史密斯雖未從哲學角度探討,但對大數(shù)據(jù)與AI弊端的批判具有啟發(fā)意義。
書中第一部分討論"虛假信息":以區(qū)塊鏈與比特幣為例,許多人因區(qū)塊鏈的"科學性"盲目相信比特幣價值,而史密斯認為比特幣內(nèi)在價值為零,堪比郁金香泡沫與南海騙局(此為作者觀點,不代表本文立場)。
第二部分揭露"數(shù)據(jù)歪曲":通過錯誤解讀數(shù)據(jù)制造"科學假象"。史密斯仍以比特幣為例,指出數(shù)據(jù)被歪曲以支撐其價值論,批判邏輯具有學理合理性。
最后兩部分,史密斯批判人工智能進展與部分社會學研究。他認為AI業(yè)界夸大成果,還列舉如"女性求助時發(fā)型影響成功率"等他眼中的"荒誕研究"(該例未必真荒誕)。
史密斯以樸素視角指出:科技新成果(互聯(lián)網(wǎng)、大數(shù)據(jù)、AI)正損害科學聲譽,公眾對科學的信任度下降。"科學家創(chuàng)造了大數(shù)據(jù)與分析工具,卻為自己制造了更多尷尬與信譽危機。"這一現(xiàn)象值得深思:技術(shù)本應(yīng)推動科學進步,為何反而引發(fā)信任危機?答案或許在于:當工具被濫用,當無理論支撐的"數(shù)據(jù)挖掘"取代嚴謹科研,科學便可能淪為"數(shù)字游戲"。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



