91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

阿里大模型敢對標(biāo)GPT-3.5?我們讓GPT-4考考它們 還有百度

2023-04-10

瘋了瘋了,大語言模型又迎來一位參賽選手,它便是阿里巴巴版本的 GPT ——通義千問。



說實(shí)話,在大伙們的印象中,AI 可能并不是阿里的第一金字招牌。


但其實(shí),最近幾年阿里攢了不少狠貨,不管是平頭哥的 AI 芯片、阿里云的 AI 云服務(wù),還是達(dá)摩院的 AI 算法,他們還創(chuàng)建了國內(nèi)最大的 AI 模型服務(wù)社區(qū) “ 魔搭 ”。


這么來看,阿里在人工智能領(lǐng)域,其實(shí)還是有不少底子的,甚至可以說是個(gè)有軟有硬的全能選手。


所以在百度之后,阿里成為第二個(gè)拿出大模型的選手,也就不足為奇了。


再加上,一直有消息說阿里曾研發(fā)出世界首個(gè)突破 10 萬億參數(shù)的 AI 大模型。



在阿里 GPT 出現(xiàn)的第一時(shí)間,真想法子整到了通義千問的測試賬號(hào)。


咱廢話也不多說了,為此,我們特邀了兩位“ 差評(píng) AI 友誼賽 ”老朋友 ChatGPT 和文心一言。


接下來就是真正的考驗(yàn)時(shí)刻了!



語義理解方面,我們直接上難度,做一下高考級(jí)別的詩詞鑒賞,選用的是差評(píng)君很喜歡的《 憶秦娥·婁山關(guān) 》。


向下滑動(dòng)▼





通義千問的賞析非常到位,甚至懷疑是不是網(wǎng)上直接扒來的,我們還去網(wǎng)上查了重,在此鄭重道歉!


這里要批評(píng) ChatGPT 3.5 又開始典型的胡編亂造,居然把這首詞說成是王昌齡的《出塞》,而且賞析也是車轱轆話。


文心一言的回答也不錯(cuò),大方向?qū)α?,可惜評(píng)價(jià)有些表面。


我們又試了下喜聞樂見的寫代碼測試。


讓三個(gè) AI 用 js 生成一個(gè)可以隨著每次點(diǎn)擊改變顏色的按鈕,還有些其它的附加條件。





通義千問,寫了一大堆,但最終沒能寫完整個(gè)代碼,我們嘗試讓它繼續(xù)也沒能成功。文心一言的結(jié)果也差不了太多,就實(shí)現(xiàn)了個(gè)按鈕。


但是 ChatGPT 非常優(yōu)雅地實(shí)現(xiàn)了這個(gè)功能。


看來國內(nèi)的不管是通義還是文心,在代碼這塊都遠(yuǎn)遠(yuǎn)遜色于 ChatGPT。


測完了代碼我們又嘗試測了一下 3 個(gè)AI的數(shù)學(xué)能力,用的還是經(jīng)典問題“ 青蛙跳井 ”。


向下滑動(dòng)▼





通義千問直愣愣地掉進(jìn)了我們挖的坑。


ChatGPT 好像識(shí)別了這個(gè)陷阱,但搞混了幾個(gè)數(shù)字,最終還是做錯(cuò)了。


而文心一言,簡潔明了一個(gè)公式就答對了問題。


看到這里,大家估計(jì)對通義也有個(gè)大概的了解了。



其實(shí)作為大語言模型的基本特性,非常重要就是學(xué)習(xí)能力,這也是它和搜索引擎?zhèn)兊谋举|(zhì)區(qū)別。


簡單來說就是“ 你能教、它能懂,并且根據(jù)你教的給你想要的 ”。


所以我們在基本測試之上,還設(shè)置了一個(gè)特殊賽:“925 測試”。


在“ 925 測試 ”里,我們給了一套自定義標(biāo)簽,在這套標(biāo)簽邏輯里:


正面描述的句子會(huì)被標(biāo)記成“ 925 ”,反面描述的句子會(huì)被標(biāo)記成“ 2359 ”,我們試著讓AI們自己理解學(xué)習(xí)這個(gè)邏輯。





通義千問很好地明白了我們的意思,而且還和我們科普了下“ 語碼轉(zhuǎn)換 ”或“ 語碼隱喻 ”。


ChatGPT 也比較輕松就掌握了這種規(guī)律,而且它甚至還試圖從“ 925 ”和“ 2359 ”兩個(gè)數(shù)字里找出我們這么標(biāo)注的原因。


文心一言就很干脆地?cái)[爛,“ 沒學(xué)過,我不會(huì) ”。


為了進(jìn)一步檢測通義千問和 ChatGPT 有沒有真搞懂這個(gè)標(biāo)注方法,我們讓它倆按照學(xué)到的邏輯,給“ 差評(píng)君天天上班渾水摸魚”打標(biāo)記,順便再造一個(gè)類似的句子。


通義千問和 ChatGPT 依舊很好地完成了這個(gè)任務(wù)。




而且,我們還在和通義千問的更多對話里發(fā)現(xiàn),它在一些詞匯的謹(jǐn)慎度上做得相當(dāng)不錯(cuò)。


比如這個(gè)例子里,我們把正面描述定位成“ 丑 ”、負(fù)面描述定義成“ 美 ”。


通義千問能理解這個(gè)邏輯,但在隨后的回答里,它依舊遵循了大模型內(nèi)部關(guān)于“ 美 ”“ 丑 ”的標(biāo)準(zhǔn)進(jìn)行評(píng)判。




我們猜測,通義千問可能是將大模型內(nèi)部數(shù)據(jù)的權(quán)重,有意地設(shè)為高于用戶使用時(shí)的調(diào)教,雖然看起來會(huì)顯得大模型很笨,但在很多場景下,可以避免大量倫理道德方面的問題。


所以總的看起來,阿里巴巴的通義千問效果還不錯(cuò),基本上能和文心打的有來有回,偶爾還能超過 GPT-3.5,算是沒給阿里丟面子。


但就像其它 GPT 們在初版時(shí)都有不少小毛病類似,我們在用通義千問時(shí)也發(fā)現(xiàn)了一些其它小問題。


目前影響使用的主要是兩點(diǎn):


第一個(gè)就是通義千問理解錯(cuò)問題的概率比另外兩家大。


比如“ 張三差點(diǎn)沒上上上上海的車 ”這題。


當(dāng)時(shí)有兩位編輯部同事都測了,我們給的是其中一位直接就明白了的版本,可另一位同事測試時(shí),始終理解成翻譯這句話,怎么掰都掰不回來。



另外一個(gè)問題就是,通義千問的上下文關(guān)聯(lián)邏輯有點(diǎn)奇怪。


比如有次測試時(shí),一開始讓它中譯英,翻譯完后已經(jīng)在聊其他事了,可還沒幾句它好像突然又想到前面我們讓它翻譯,不管你再問什么,它就只傻傻地給你翻譯。


好在阿里的工程師已經(jīng)意識(shí)到相關(guān)的問題,估計(jì)再來幾個(gè)版本,他們就會(huì)修復(fù)這個(gè) bug。



但你以為這就完了?


AI 界的比賽不允許有平局,差評(píng)君分不出高低還不會(huì)請“ 人 ”當(dāng)裁判嗎?



新比賽我們讓目前在 AI 賽道的領(lǐng)頭羊 GPT-4 出面,讓它決定哪些維度最能衡量模型好壞,該怎么出題、怎么打分都讓它來。


簡單說就是讓 GPT-4 當(dāng)出卷人、閱卷人,通義千問和文心一言當(dāng)考生(下文大 G 指 GPT-4, 小通指通義千問,小文指文心一言)。


至于 ChatGPT,由于它作為大 G 的關(guān)系戶,為了保證考試公平公正,直接被紅牌罰出場。


不得不說,大 G 的出題水平還是相當(dāng)高的。


除了測試的第 6 題,憑空捏造了個(gè)“ 人工智能倫理問題的論文 ”外,幾乎找不到什么問題。



下面節(jié)選了幾個(gè)有代表性的問答( 左滑顯示小文 ):





這題是讓小通和小文用三門外語分別描述一天的生活。


小通的回答得到了大 G 相當(dāng)高的評(píng)價(jià):語法準(zhǔn)確、風(fēng)格簡潔、沒有明顯的錯(cuò)誤,很不錯(cuò)。


而小文由于只給了英語版本的回答,直接就被大 G 判了個(gè)離題,其它幾方面的評(píng)價(jià)也稍微落后點(diǎn)小通。





在這題里,大 G 出題:“請針對最近五年的全球經(jīng)濟(jì)形勢進(jìn)行一次簡要分析?!?/p>


看到答案后,大 G 認(rèn)為小通的回答在前三個(gè)方面表現(xiàn)還不錯(cuò),而在分析和預(yù)測能力上,由于小通沒有提供具體的數(shù)據(jù)或預(yù)測,使得分析顯得比較籠統(tǒng)。


而且大 G 還貼心地給了小通建議:“ 需要更新一些過時(shí)的信息和政策 ”。


另一邊,大 G 認(rèn)為小文的回答在時(shí)事認(rèn)識(shí)、經(jīng)濟(jì)知識(shí)和邏輯表達(dá)方面表現(xiàn)一般,而在分析和預(yù)測能力上,由于缺乏對全球經(jīng)濟(jì)形勢波動(dòng)的原因分析,評(píng)價(jià)不高。


同樣,大 G 給出了更新時(shí)效性的建議,還額外讓小文以后要對事件的原因和趨勢更深入分析。





這個(gè)題目是讓兩個(gè)考生試著給初學(xué)者解釋量子力學(xué)的基本概念。


大 G 認(rèn)為小通的回答在科學(xué)知識(shí)方面表現(xiàn)不錯(cuò),但只簡單介紹了幾個(gè)概念,對稍微深入點(diǎn)的概念解釋不夠,而且沒能適應(yīng)不同水平受眾。


而大 G 認(rèn)為小文的回答覆蓋了量子力學(xué)的一些重要概念,但它認(rèn)為關(guān)于意識(shí)的描述和量子力學(xué)的關(guān)系并不緊密,容易誤導(dǎo)讀者。


由于小文的回答不僅涉及了量子力學(xué)的一些基本概念,還進(jìn)行了簡要解釋,大 G 老師挺滿意。和小通類似,這個(gè)回答里的簡要解釋比較初級(jí),所以在適應(yīng)不同受眾表達(dá)上也欠缺了點(diǎn)。





這個(gè)題目本來是“ 用詩歌形式描述一幅名畫 ”,我們直接幫兩個(gè)考生框定了考試范圍:蒙娜麗莎的微笑。


大 G 認(rèn)為小通的創(chuàng)造力、審美力和藝術(shù)欣賞方面都還不錯(cuò),就是文字過于平淡,需要更豐富的詞匯和修辭手法來增強(qiáng)詩歌的表現(xiàn)力。


而大 G 認(rèn)為小文的詩歌水平相當(dāng)不錯(cuò),很好地表現(xiàn)出自己對蒙娜麗莎的深刻理解和欣賞。


最終,9 輪戰(zhàn)罷,小通和小文得分幾乎不相上下。



說實(shí)在的,雖然在經(jīng)過了幾波 GPT 們的沖擊,這次通義千問還是給我?guī)砹瞬簧袤@喜的。


而且,我們簡單用了一段時(shí)間后也發(fā)現(xiàn),目前通義千問的潛力顯然沒有被挖掘完全。


在很多沒有展示的測試?yán)铮x千問在第一次回答里是錯(cuò)誤的,可如果你多嘗試生成兩次,就能奇妙地發(fā)現(xiàn)它是能回答正確的。


我們猜測這是它的權(quán)重并沒有被調(diào)教好,而在關(guān)于正確答案的賦權(quán)上,是個(gè)非常快速就能迭代更新的,一旦不斷迭代量變,很快就能引起質(zhì)變。


所以等后期通義千問開放使用后,大家一定不要吝嗇點(diǎn)贊反對,這能幫助 GPT 們更快地進(jìn)化,更好地服務(wù)大眾。



在 AI 大模型的落地上,阿里似乎有種后發(fā)先至的勢頭。


不少差友們可能已經(jīng)看到了,前幾天,我們已經(jīng)評(píng)測過通義千問輕量版在天貓精靈上的演示應(yīng)用,雖然是一個(gè)定制化輕量版,但可能是因?yàn)槎嗔寺?lián)網(wǎng),兩者使用起來幾乎一樣。


更強(qiáng)的是例如我讓它推薦杭州的美食,它不僅和我認(rèn)真地聊了起來,甚至還真的想要幫我去訂一個(gè)外賣。


這么看起來,我?guī)缀跻呀?jīng)能看見通義千問重塑我們生活的樣子了。


這兩天,通義千問背后的負(fù)責(zé)人,阿里云智能CTO周靖人接受采訪時(shí)說,通義千問模型只是“ 一個(gè)中間態(tài) ”,“不是起點(diǎn)也不是終點(diǎn),是個(gè)既定路線上的節(jié)點(diǎn)?!?/strong>


這想象空間就太大了。


假如再把格局打開一點(diǎn),AI 借助像水電一樣的云計(jì)算,會(huì)不會(huì)把我們想到想不到的行業(yè),都重新升級(jí)一遍呢?


這么看來,前段時(shí)間我們聊過的組織架構(gòu)大調(diào)整,現(xiàn)在想想,怕不就是為了云服務(wù)和 AI 布局?


站在這個(gè)歷史性的時(shí)刻上,雖然我看不清未來到底是什么樣子,但我很期待它的到來。


責(zé)任編輯:上方文Q


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com