91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

<li id="jfofu"><tbody id="jfofu"><bdo id="jfofu"></bdo></tbody></li>

<label id="jfofu"></label>

<button id="jfofu"><output id="jfofu"></output></button>

<center id="jfofu"></center>

<li id="jfofu"><tbody id="jfofu"></tbody></li>

第一個(gè)AI是清華團(tuán)隊(duì)領(lǐng)導(dǎo)，問(wèn)世世界各地的agent系統(tǒng)基準(zhǔn)測(cè)試

商界觀察

2023-08-09

AI 智能體，或者自主智能代理，不僅僅是賈維斯等科幻電影中的人類超級(jí)助手，更是現(xiàn)實(shí)世界中的人類超級(jí)助手。 AI 該領(lǐng)域的研究熱點(diǎn)。特別是 GPT-4 為代表的 AI 大型模型的出現(xiàn)，將 AI 智能體的概念推向了科技的前沿。

斯坦福“虛擬小鎮(zhèn)”之前爆紅，25 個(gè) AI 智能體在虛擬小鎮(zhèn)自由成長(zhǎng)，舉辦情人節(jié)派對(duì)；英偉達(dá)等提出的具體代理模型 Voyager，還學(xué)會(huì)了《我的世界》中的各種生存能力，闖出了自己的一片天空；另外，能夠獨(dú)立實(shí)現(xiàn)目標(biāo)。 AutoGPT、BabyAGI 和 AgentGPT 等，同時(shí)也引起了公眾的普遍興趣和熱烈討論。

甚至，前特斯拉 AI 總監(jiān)、重歸 OpenAI 的技術(shù)大牛 Andrej Karpathy 根據(jù)一次開(kāi)發(fā)者活動(dòng)，每當(dāng)有新的 AI 當(dāng)智能論文出現(xiàn)時(shí)，OpenAI 內(nèi)部便會(huì)非常感興趣，并認(rèn)真展開(kāi)討論。。

雖然當(dāng)前 AI 智能體研究異?；鸨?strong>目前 AI 對(duì)行業(yè)缺乏系統(tǒng)化、規(guī)范化的評(píng)價(jià)標(biāo)準(zhǔn)。 LLMs 智能水平作為代理商。

因此，來(lái)自清華大學(xué)，俄亥俄州立大學(xué)，加州大學(xué)伯克利分校研究小組便提出了第一個(gè)系統(tǒng)的基準(zhǔn)測(cè)試?！狝gentBench，用于評(píng)定 LLMs 在各種現(xiàn)實(shí)世界中，智能體是一種挑戰(zhàn)。 8 各種環(huán)境的表現(xiàn)(如推理和管理能力)。

研究數(shù)據(jù)顯示，頂級(jí)商業(yè)語(yǔ)言模型(例如 GPT-四是在復(fù)雜的環(huán)境中表現(xiàn)出色，在開(kāi)源模型中具有明顯的優(yōu)勢(shì)。。所以，研究小組建議，有必要進(jìn)一步努力改善開(kāi)源。 LLMs 學(xué)習(xí)能力。

有關(guān)研究論文以“AgentBench: Evaluating LLMs as Agents""問(wèn)題，已經(jīng)在預(yù)印本網(wǎng)站上發(fā)布了。 arXiv 上。此外，還發(fā)布了相關(guān)數(shù)據(jù)、環(huán)境和集成評(píng)估包。 GitHub 上。

01 第一次系統(tǒng)基準(zhǔn)測(cè)試

在過(guò)去的研究和實(shí)踐中，基于文本的游戲環(huán)境已經(jīng)被用于語(yǔ)言代理的評(píng)價(jià)。但由于封閉的離散行動(dòng)空間，通常受到限制，其重點(diǎn)主要集中在模型常識(shí)的基本能力上。

最近，一些關(guān)于身體代理的嘗試使用了基于游戲和圖形的用戶界面。（GUI）以及復(fù)雜的多模態(tài)模擬器的室內(nèi)場(chǎng)景。但是，盡管這些模擬器非常復(fù)雜，無(wú)法準(zhǔn)確反映 LLMs 其多模態(tài)特性也給純文本帶來(lái)了實(shí)際用例中的使用情況。 LLMs 快速評(píng)估帶來(lái)障礙。

另外，大多數(shù)代理商的基準(zhǔn)測(cè)試都集中在一個(gè)單一的環(huán)境中，這限制了它在不同的應(yīng)用領(lǐng)域進(jìn)行全面的簡(jiǎn)述。 LLMs 的能力。

在這項(xiàng)工作中，研究小組操作系統(tǒng)（OS）、數(shù)據(jù)庫(kù)（DB）、知識(shí)圖譜（KG）、卡牌對(duì)戰(zhàn)（DCG）、場(chǎng)景猜謎（LTP）、家居（Alfworld）、網(wǎng)上購(gòu)物（WebShop）和網(wǎng)頁(yè)瀏覽(Mind2Web）8 使用不同的環(huán)境任務(wù)時(shí)， AgentBench 對(duì) 25 基于不同的語(yǔ)言模型(包括 API 對(duì)模型和開(kāi)源模型進(jìn)行了全面評(píng)估。

測(cè)試數(shù)據(jù)顯示，像 GPT-4 這種頂級(jí)模型可以處理各種現(xiàn)實(shí)世界的任務(wù)，大部分開(kāi)源 LLMs 在 AgentBench 以上表現(xiàn)遠(yuǎn)不及以上表現(xiàn)為基礎(chǔ) API 的 LLMs；甚至，最強(qiáng)大的開(kāi)源模型 openchat-13b-v3.2 也和 gpt-3.5-turbo 它們之間存在著顯著的性能差距。

盡管通過(guò)廣泛的對(duì)齊訓(xùn)練，LLMs 不僅能掌握傳統(tǒng) NLP 任務(wù)，如問(wèn)題答案、自然語(yǔ)言推理、文本摘要等，也能表現(xiàn)出理解人類意圖和執(zhí)行指令的能力，但它們?cè)?AgentBench 在任務(wù)方面(例如行動(dòng)有效性、長(zhǎng)前后文、多輪一致性和代碼訓(xùn)練)的表現(xiàn)相對(duì)落后。

研究小組說(shuō)，未來(lái)還需要更多的工作來(lái)進(jìn)行更嚴(yán)格、更系統(tǒng)的評(píng)估，并提供強(qiáng)大的開(kāi)源工具來(lái)促進(jìn)這種評(píng)估。，如逐步完善 AgentBench，使之更全面、更包容，并建立更系統(tǒng)的系統(tǒng)。 LLMs 評(píng)估系統(tǒng)等。

02 在硅谷，“自主”AI代理競(jìng)賽正席卷硅谷

AI 隨著大型模型的不斷進(jìn)化，新助手誕生了。目前，“自主”AI 代理商的競(jìng)爭(zhēng)激發(fā)了硅谷的熱潮。它不僅吸引了個(gè)人開(kāi)發(fā)者，也吸引了微軟和谷歌等巨頭公司 Alphabet，而且很多創(chuàng)業(yè)公司也積極參與其中。

以初創(chuàng)公司 Inflection AI 舉例來(lái)說(shuō)，公司的創(chuàng)始人 Reid Hoffman 和 Mustafa Suleyman 播客表示，他們正在開(kāi)發(fā)一個(gè)個(gè)人助理，可以當(dāng)導(dǎo)師，也可以處理類似于安排航班積分和酒店等任務(wù)的事務(wù)。

MultiOn 企業(yè)開(kāi)發(fā)者 Div Garg 表示，其目標(biāo)是把它發(fā)展成個(gè)體。 AI 與虛擬助手“賈維斯”相似的朋友。她們希望這位代理能與個(gè)人服務(wù)聯(lián)系起來(lái)。

Generally Intelligent CEO Kanjun Qiu 說(shuō):“對(duì)于人來(lái)說(shuō)容易的事情對(duì)于電腦來(lái)說(shuō)還是很難的，如果給老板安排一組重要客戶的會(huì)議。這需要非常復(fù)雜的推理能力，這涉及到獲得每個(gè)人的喜好，解決沖突，同時(shí)在與客戶合作時(shí)保持認(rèn)真細(xì)致。”

Qiu 與其他四位代理開(kāi)發(fā)人員預(yù)測(cè)，第一批能夠可靠執(zhí)行多步任務(wù)并具有一定獨(dú)立能力的系統(tǒng)將在一年內(nèi)上市，密切關(guān)注編碼和營(yíng)銷等垂直領(lǐng)域。

微軟 CEO Satya Nadella 曾在接受《金融時(shí)報(bào)》采訪時(shí)表示：“不管是微軟自己的嗎？ Cortana，或者亞馬遜 Alexa 、谷歌助理，蘋(píng)果助理 Siri，都不夠聰明，沒(méi)有達(dá)到最初的預(yù)期?！?/p>

拋開(kāi)存在的擔(dān)憂不談，AI 代理商已顯示出巨大的潛力和市場(chǎng)。雖然我們?cè)趯?shí)踐和應(yīng)用中可能會(huì)遇到一些挑戰(zhàn)，但隨著時(shí)間的推移，我們有望在不斷的優(yōu)化和優(yōu)化中見(jiàn)證這些挑戰(zhàn)，就像歷史上許多創(chuàng)新一樣。 AI 代理商對(duì)人類社會(huì)產(chǎn)生了積極而深刻的影響。

參考鏈接：

https://www.reuters.com/technology/race-towards-autonomous-ai-agents-grips-silicon-valley-2023-07-17/

本文來(lái)自微信微信官方賬號(hào)“學(xué)術(shù)頭條”（ID：SciTouTiao），作者：學(xué)術(shù)頭條，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

熱搜第一！馬鈔已炒到2000元！網(wǎng)友：給我一套能怎樣…

1盒內(nèi)存條堪比上海1套房？業(yè)內(nèi)：有錢的上億資金囤貨

84歲雙星名人創(chuàng)始人與兒子斷絕關(guān)系！列舉11條理由

hi，你想要的跨年演講金句都在這里了

恒大前總裁夏海鈞上訴被駁回法院：600億港元資產(chǎn)不能轉(zhuǎn)移

項(xiàng)目推薦

康小虎 · 健康小屋

康老板 · 氧療堂

<strike id="6s86c"><source id="6s86c"></source></strike>