第一個(gè)AI是清華團(tuán)隊(duì)領(lǐng)導(dǎo), 問(wèn)世世界各地的agent系統(tǒng)基準(zhǔn)測(cè)試
AI 智能體,或者自主智能代理,不僅僅是賈維斯等科幻電影中的人類超級(jí)助手,更是現(xiàn)實(shí)世界中的人類超級(jí)助手。 AI 該領(lǐng)域的研究熱點(diǎn)。特別是 GPT-4 為代表的 AI 大型模型的出現(xiàn),將 AI 智能體的概念推向了科技的前沿。
斯坦福“虛擬小鎮(zhèn)”之前爆紅,25 個(gè) AI 智能體在虛擬小鎮(zhèn)自由成長(zhǎng),舉辦情人節(jié)派對(duì);英偉達(dá)等提出的具體代理模型 Voyager,還學(xué)會(huì)了《我的世界》中的各種生存能力,闖出了自己的一片天空;另外,能夠獨(dú)立實(shí)現(xiàn)目標(biāo)。 AutoGPT、BabyAGI 和 AgentGPT 等,同時(shí)也引起了公眾的普遍興趣和熱烈討論。
甚至,前特斯拉 AI 總監(jiān)、重歸 OpenAI 的技術(shù)大牛 Andrej Karpathy 根據(jù)一次開(kāi)發(fā)者活動(dòng),每當(dāng)有新的 AI 當(dāng)智能論文出現(xiàn)時(shí),OpenAI 內(nèi)部便會(huì)非常感興趣,并認(rèn)真展開(kāi)討論。。
雖然當(dāng)前 AI 智能體研究異?;鸨?strong>目前 AI 對(duì)行業(yè)缺乏系統(tǒng)化、規(guī)范化的評(píng)價(jià)標(biāo)準(zhǔn)。 LLMs 智能水平作為代理商。
因此,來(lái)自清華大學(xué),俄亥俄州立大學(xué),加州大學(xué)伯克利分校研究小組便提出了第一個(gè)系統(tǒng)的基準(zhǔn)測(cè)試?!狝gentBench,用于評(píng)定 LLMs 在各種現(xiàn)實(shí)世界中,智能體是一種挑戰(zhàn)。 8 各種環(huán)境的表現(xiàn)(如推理和管理能力)。
研究數(shù)據(jù)顯示,頂級(jí)商業(yè)語(yǔ)言模型(例如 GPT-四是在復(fù)雜的環(huán)境中表現(xiàn)出色,在開(kāi)源模型中具有明顯的優(yōu)勢(shì)。。所以,研究小組建議,有必要進(jìn)一步努力改善開(kāi)源。 LLMs 學(xué)習(xí)能力。
有關(guān)研究論文以“AgentBench: Evaluating LLMs as Agents""問(wèn)題,已經(jīng)在預(yù)印本網(wǎng)站上發(fā)布了。 arXiv 上。此外,還發(fā)布了相關(guān)數(shù)據(jù)、環(huán)境和集成評(píng)估包。 GitHub 上。
01 第一次系統(tǒng)基準(zhǔn)測(cè)試
在過(guò)去的研究和實(shí)踐中,基于文本的游戲環(huán)境已經(jīng)被用于語(yǔ)言代理的評(píng)價(jià)。但由于封閉的離散行動(dòng)空間,通常受到限制,其重點(diǎn)主要集中在模型常識(shí)的基本能力上。
最近,一些關(guān)于身體代理的嘗試使用了基于游戲和圖形的用戶界面。(GUI)以及復(fù)雜的多模態(tài)模擬器的室內(nèi)場(chǎng)景。但是,盡管這些模擬器非常復(fù)雜,無(wú)法準(zhǔn)確反映 LLMs 其多模態(tài)特性也給純文本帶來(lái)了實(shí)際用例中的使用情況。 LLMs 快速評(píng)估帶來(lái)障礙。
另外,大多數(shù)代理商的基準(zhǔn)測(cè)試都集中在一個(gè)單一的環(huán)境中,這限制了它在不同的應(yīng)用領(lǐng)域進(jìn)行全面的簡(jiǎn)述。 LLMs 的能力。
在這項(xiàng)工作中,研究小組操作系統(tǒng)(OS)、數(shù)據(jù)庫(kù)(DB)、知識(shí)圖譜(KG)、卡牌對(duì)戰(zhàn)(DCG)、場(chǎng)景猜謎(LTP)、家居(Alfworld)、網(wǎng)上購(gòu)物(WebShop)和網(wǎng)頁(yè)瀏覽(Mind2Web)8 使用不同的環(huán)境任務(wù)時(shí), AgentBench 對(duì) 25 基于不同的語(yǔ)言模型(包括 API 對(duì)模型和開(kāi)源模型進(jìn)行了全面評(píng)估。
測(cè)試數(shù)據(jù)顯示,像 GPT-4 這種頂級(jí)模型可以處理各種現(xiàn)實(shí)世界的任務(wù),大部分開(kāi)源 LLMs 在 AgentBench 以上表現(xiàn)遠(yuǎn)不及以上表現(xiàn)為基礎(chǔ) API 的 LLMs;甚至,最強(qiáng)大的開(kāi)源模型 openchat-13b-v3.2 也和 gpt-3.5-turbo 它們之間存在著顯著的性能差距。
盡管通過(guò)廣泛的對(duì)齊訓(xùn)練,LLMs 不僅能掌握傳統(tǒng) NLP 任務(wù),如問(wèn)題答案、自然語(yǔ)言推理、文本摘要等,也能表現(xiàn)出理解人類意圖和執(zhí)行指令的能力,但它們?cè)?AgentBench 在任務(wù)方面(例如行動(dòng)有效性、長(zhǎng)前后文、多輪一致性和代碼訓(xùn)練)的表現(xiàn)相對(duì)落后。
研究小組說(shuō),未來(lái)還需要更多的工作來(lái)進(jìn)行更嚴(yán)格、更系統(tǒng)的評(píng)估,并提供強(qiáng)大的開(kāi)源工具來(lái)促進(jìn)這種評(píng)估。,如逐步完善 AgentBench,使之更全面、更包容,并建立更系統(tǒng)的系統(tǒng)。 LLMs 評(píng)估系統(tǒng)等。
02 在硅谷,“自主”AI代理競(jìng)賽正席卷硅谷
AI 隨著大型模型的不斷進(jìn)化,新助手誕生了。目前,“自主”AI 代理商的競(jìng)爭(zhēng)激發(fā)了硅谷的熱潮。它不僅吸引了個(gè)人開(kāi)發(fā)者,也吸引了微軟和谷歌等巨頭公司 Alphabet,而且很多創(chuàng)業(yè)公司也積極參與其中。
以初創(chuàng)公司 Inflection AI 舉例來(lái)說(shuō),公司的創(chuàng)始人 Reid Hoffman 和 Mustafa Suleyman 播客表示,他們正在開(kāi)發(fā)一個(gè)個(gè)人助理,可以當(dāng)導(dǎo)師,也可以處理類似于安排航班積分和酒店等任務(wù)的事務(wù)。
MultiOn 企業(yè)開(kāi)發(fā)者 Div Garg 表示,其目標(biāo)是把它發(fā)展成個(gè)體。 AI 與虛擬助手“賈維斯”相似的朋友。她們希望這位代理能與個(gè)人服務(wù)聯(lián)系起來(lái)。
Generally Intelligent CEO Kanjun Qiu 說(shuō):“對(duì)于人來(lái)說(shuō)容易的事情對(duì)于電腦來(lái)說(shuō)還是很難的,如果給老板安排一組重要客戶的會(huì)議。這需要非常復(fù)雜的推理能力,這涉及到獲得每個(gè)人的喜好,解決沖突,同時(shí)在與客戶合作時(shí)保持認(rèn)真細(xì)致。”
Qiu 與其他四位代理開(kāi)發(fā)人員預(yù)測(cè),第一批能夠可靠執(zhí)行多步任務(wù)并具有一定獨(dú)立能力的系統(tǒng)將在一年內(nèi)上市,密切關(guān)注編碼和營(yíng)銷等垂直領(lǐng)域。
微軟 CEO Satya Nadella 曾在接受《金融時(shí)報(bào)》采訪時(shí)表示:“不管是微軟自己的嗎? Cortana,或者亞馬遜 Alexa 、谷歌助理,蘋(píng)果助理 Siri,都不夠聰明,沒(méi)有達(dá)到最初的預(yù)期?!?/p>
拋開(kāi)存在的擔(dān)憂不談,AI 代理商已顯示出巨大的潛力和市場(chǎng)。雖然我們?cè)趯?shí)踐和應(yīng)用中可能會(huì)遇到一些挑戰(zhàn),但隨著時(shí)間的推移,我們有望在不斷的優(yōu)化和優(yōu)化中見(jiàn)證這些挑戰(zhàn),就像歷史上許多創(chuàng)新一樣。 AI 代理商對(duì)人類社會(huì)產(chǎn)生了積極而深刻的影響。
參考鏈接:
https://www.reuters.com/technology/race-towards-autonomous-ai-agents-grips-silicon-valley-2023-07-17/
本文來(lái)自微信微信官方賬號(hào)“學(xué)術(shù)頭條”(ID:SciTouTiao),作者:學(xué)術(shù)頭條,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



