谷歌AI古籍破譯新突破:錯誤率低至0.56%,媲美人類專家
IT之家11月16日消息,科技媒體golem于11月15日發(fā)布博文,報道稱谷歌通過其AI Studio平臺,正在測試一款尚未命名的AI模型,該模型在破譯難以辨認的歷史手稿方面已接近人類專家的水平。
IT之家援引博文介紹,歷史學家Mark Humphries使用一套專門開發(fā)的基準數(shù)據(jù)集,對該模型的性能進行了系統(tǒng)性測試。結果顯示,在處理五份高難度歷史手稿時,該模型的整體字符錯誤率約為1.7%,且大部分錯誤是標點符號和大小寫方面的,而非單詞本身。

Humphries的評估還指出,如果排除模糊的標點符號和大小寫錯誤,該AI模型的字符錯誤率會大幅降至約0.56%,即每轉寫200個字符才出現(xiàn)一個錯誤。

根據(jù)新發(fā)現(xiàn)的未知Gemini型號轉錄的奧爾巴尼賬簿頁面
如此驚人的準確度,使得該模型的性能足以與從事歷史文獻轉寫的專業(yè)人類工作者相媲美。此次測試的文檔包含了18至19世紀的多種手寫風格,其中有不少字跡潦草、拼寫錯誤和語法不一致的復雜樣本,這進一步體現(xiàn)了該模型的強大能力。
該模型最令人驚喜的是,它不只是能進行簡單的文字轉寫,還展現(xiàn)出了復雜的推理能力。在處理一份18世紀商人的日記時,原文中一條關于購買糖的記錄僅標記了數(shù)字“145”,未注明計量單位。
谷歌的AI模型沒有直接轉寫為“145”,而是輸出了“14磅5盎司”。研究人員發(fā)現(xiàn),AI是通過反向計算賬本中記錄的總價,并結合當時英國的貨幣(磅、先令、便士)與重量單位關系,成功推斷出這一結果的。

盡管初步結果令人振奮,但Humphries也強調了當前評估存在局限性。由于該模型以A/B測試形式零星出現(xiàn),難以進行系統(tǒng)性的大規(guī)模測試,目前僅評估了基準數(shù)據(jù)集中約10%的樣本。

本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

