91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

<li id="jfofu"><tbody id="jfofu"><bdo id="jfofu"></bdo></tbody></li>

<label id="jfofu"></label>

<button id="jfofu"><output id="jfofu"></output></button>

<center id="jfofu"></center>

<li id="jfofu"><tbody id="jfofu"></tbody></li>

<strong id="vzb3t"></strong>

LeCun力薦，哈佛博士分享用GPT-4搞科研，細(xì)到每個(gè)工作流程

2023-04-04

用GPT-4搞科研未來或許成為每個(gè)人的標(biāo)配，但是究竟如何高效利用LLM工具，還得需要技巧。近日，一位哈佛博士分享了自己的經(jīng)驗(yàn)，還獲得了LeCun的推薦。

GPT-4的橫空出世，讓許多人對(duì)自己的科研擔(dān)憂重重，甚至調(diào)侃稱NLP不存在了。

與其擔(dān)憂，不如將它用到科研中，簡(jiǎn)之「換個(gè)卷法」。

來自哈佛大學(xué)的生物統(tǒng)計(jì)學(xué)博士Kareem Carr稱，自己已經(jīng)用GPT-4等大型語言模型工具進(jìn)行學(xué)術(shù)研究了。

他表示，這些工具非常強(qiáng)大，但是同樣存在一些非常令人痛苦的陷阱。

他的關(guān)于LLM使用建議的推文甚至獲得了LeCun的推薦。

一起來看看Kareem Carr如何利用AI利器搞科研。

第一原則：自己無法驗(yàn)證的內(nèi)容，不要找LLM

一開始，Carr給出了第一條最重要的原則：

永遠(yuǎn)不要向大型語言模型（LLM）詢問你無法自行驗(yàn)證的信息，或要求它執(zhí)行你無法驗(yàn)證已正確完成的任務(wù)。

唯一的例外是它不是一項(xiàng)關(guān)鍵的任務(wù)，比如，向LLM詢問公寓裝飾的想法。

「使用文獻(xiàn)綜述的最佳實(shí)踐，總結(jié)過去10年乳腺癌研究的研究」。這是一個(gè)比較差的請(qǐng)求，因?yàn)槟銦o法直接驗(yàn)證它是否正確地總結(jié)了文獻(xiàn)。

而應(yīng)當(dāng)這么問「給我一份過去10年中關(guān)于乳腺癌研究的頂級(jí)評(píng)論文章的清單」。

這樣的提示不僅可以驗(yàn)證來源，并且自己也可以驗(yàn)證可靠性。

撰寫「提示」小技巧

要求LLM為你編寫代碼或查找相關(guān)信息非常容易，但是輸出內(nèi)容的質(zhì)量可能會(huì)有很大的差異。你可以采取以下措施來提高質(zhì)量：

設(shè)定上下文：

?明確告訴LLM應(yīng)該使用什么信息

?使用術(shù)語和符號(hào)，讓LLM傾向正確的上下文信息

如果你對(duì)如何處理請(qǐng)求有想法，請(qǐng)告訴LLM使用的具體方法。比如「解決這個(gè)不等式」應(yīng)該改成「使用Cauchy-Schwarz定理求解這個(gè)不等式，然后應(yīng)用完成平方」。

要知道，這些語言模型在語言方面上比你想象的要復(fù)雜得多，即使是非常模糊的提示也會(huì)有所幫助。

具體再具體：

這不是谷歌搜索，所以也不必?fù)?dān)心是否有個(gè)網(wǎng)站在討論你的確切問題。

「二次項(xiàng)的聯(lián)立方程如何求解？」這個(gè)提示就不是明確的，你應(yīng)該這樣問：「求解 x=(1/2)(a+b) 和 y=(1/3)(a^2+ab+b^2) 關(guān)于a和b的方程組」。

定義輸出格式：

利用LLMs的靈活性，將輸出格式化為最適合你的方式，比如：

? 代碼

? 數(shù)學(xué)公式

? 文章

? 教程

? 簡(jiǎn)明指南

你甚至可以要求提供生成以下內(nèi)容的代碼，包括表格、繪圖、圖表。

盡管你得到了LLM輸出的內(nèi)容，但這僅是一個(gè)開始。因?yàn)槟阈枰獙?duì)輸出內(nèi)容進(jìn)行驗(yàn)證。這包括：

? 發(fā)現(xiàn)不一致之處

? 通過谷歌檢索工具輸出內(nèi)容的術(shù)語，獲取可支撐的信源

? 在可能的情況下，編寫代碼自行測(cè)試

需要自行驗(yàn)證的原因是，LLM經(jīng)常犯一些與其看似專業(yè)水平不一致的奇怪錯(cuò)誤。比如，LLM可能會(huì)提到一個(gè)非常先進(jìn)的數(shù)學(xué)概念，但卻對(duì)簡(jiǎn)單的代數(shù)問題摸不著頭腦。

多問一次：

大型語言模型生成的內(nèi)容是隨機(jī)的。有時(shí)，重新創(chuàng)建一個(gè)新窗口，并再次提出你的問題，或許可以為你提供更好的答案。

另外，就是使用多個(gè)LLM工具。Kareem Carr目前根據(jù)自己的需要在科研中使用了Bing AI，GPT-4，GPT-3.5和Bard AI。然而，它們各有自己的優(yōu)缺點(diǎn)。

引用+生產(chǎn)力

引用

根據(jù)Carr經(jīng)驗(yàn)，最好向GPT-4和Bard AI同時(shí)提出相同的數(shù)學(xué)問題，以獲得不同的觀點(diǎn)。必應(yīng)AI適用于網(wǎng)絡(luò)搜索。而GPT-4比GPT-3.5要聰明得多，但目前OpenAI限制了3個(gè)小時(shí)25條消息，比較難訪問。

就引用問題，引用參考文獻(xiàn)是LLM的一個(gè)特別薄弱的點(diǎn)。有時(shí)，LLM給你的參考資料存在，有時(shí)它們不存在。

此前，有個(gè)網(wǎng)友就遇到了同樣的問題，他表示自己讓ChatGPT提供涉及列表數(shù)學(xué)性質(zhì)的參考資料，但ChatGPT生成了跟不不存在的引用，也就是大家所說的「幻覺」問題。

然而，Kareem Carr指出虛假的引用并非完全無用。

根據(jù)他的經(jīng)驗(yàn)，捏造的參考文獻(xiàn)中的單詞通常與真實(shí)術(shù)語，還有相關(guān)領(lǐng)域的研究人員有關(guān)。因此，再通過谷歌搜索這些術(shù)語，通常讓你可以更接近你正在尋找的信息。

此外，必應(yīng)在搜尋來源時(shí)也是一個(gè)不錯(cuò)的選擇。

生產(chǎn)力

對(duì)于LLM提高生產(chǎn)力，有很多不切實(shí)際的說法，比如「LLM可以讓你的生產(chǎn)力提高10倍，甚至100倍」。

根據(jù)Carr的經(jīng)驗(yàn)，這種加速只有在沒有對(duì)任何工作進(jìn)行雙重檢查的情況下才有意義，這對(duì)作為學(xué)者的人來說是不負(fù)責(zé)任的。

然而，LLM對(duì)Kareem Carr的學(xué)術(shù)工作流程有很大改進(jìn)，具體包括：

- 原型想法設(shè)計(jì) - 識(shí)別無用的想法 - 加速繁瑣的數(shù)據(jù)重新格式化任務(wù) - 學(xué)習(xí)新的編程語言、包和概念 - 谷歌搜索

借助當(dāng)下的LLM，Carr稱自己用在下一步該做什么上的時(shí)間更少了。LLM可以幫助他將模糊，或不完整的想法推進(jìn)到完整的解決方案中。

此外，LLM還減少了Carr花在與自己主要目標(biāo)無關(guān)的副業(yè)上的時(shí)間。

我發(fā)現(xiàn)我進(jìn)入了一種心流狀態(tài)，我能夠繼續(xù)前進(jìn)。這意味著我可以工作更長(zhǎng)時(shí)間，而不會(huì)倦怠。

最后一句忠告：小心不要被卷入副業(yè)。這些工具突然提高生產(chǎn)力可能會(huì)令人陶醉，并可能分散個(gè)人的注意力。

關(guān)于ChatGPT的體驗(yàn)，Carr曾在領(lǐng)英上發(fā)表了一條動(dòng)態(tài)分享了對(duì)ChatGPT使用后的感受：

作為一名數(shù)據(jù)科學(xué)家，我已經(jīng)用OpenAI的ChatGPT做了幾周的實(shí)驗(yàn)。它并不像人們想象的那樣好。

盡管最初令人失望，但我的感覺是，類似ChatGPT的系統(tǒng)可以為標(biāo)準(zhǔn)數(shù)據(jù)分析工作流程增加巨大的價(jià)值。

在這一點(diǎn)上，這個(gè)價(jià)值在哪里并不明顯。ChatGPT很容易在簡(jiǎn)單的事情上弄錯(cuò)一些細(xì)節(jié)，而且它根本無法解決需要多個(gè)推理步驟的問題。

未來每個(gè)新任務(wù)的主要問題仍然是評(píng)估和改進(jìn)ChatGPT的解決方案嘗試是否更容易，還是從頭開始。

我確實(shí)發(fā)現(xiàn)，即使是ChatGPT的一個(gè)糟糕的解決方案也傾向于激活我大腦的相關(guān)部分，而從頭開始則不會(huì)。

就像他們總是說批評(píng)一個(gè)計(jì)劃總是比自己想出一個(gè)計(jì)劃更容易。

網(wǎng)友對(duì)于AI輸出的內(nèi)容，需要進(jìn)行驗(yàn)證這一點(diǎn)，并稱在大多數(shù)情況下，人工智能的正確率約為90%。但剩下10%的錯(cuò)誤可能是致命的。

Carr調(diào)侃道，如果是100%，那我就沒有工作了。

那么，為什么ChatGPT會(huì)生成虛假的參考文獻(xiàn)？

值得注意的是，ChatGPT使用的是統(tǒng)計(jì)模型，基于概率猜測(cè)下一個(gè)單詞、句子和段落，以匹配用戶提供的上下文。

由于語言模型的源數(shù)據(jù)規(guī)模非常大，因此需要「壓縮」，這導(dǎo)致最終的統(tǒng)計(jì)模型失去了精度。

這意味著即使原始數(shù)據(jù)中存在真實(shí)的陳述，模型的「失真」會(huì)產(chǎn)生一種「模糊性」，從而導(dǎo)致模型產(chǎn)生最「似是而非」的語句。

簡(jiǎn)而言之，這個(gè)模型沒有能力評(píng)估，它所產(chǎn)生的輸出是否等同于一個(gè)真實(shí)的陳述。

另外，該模型是基于，通過公益組織「Common Crawl」和類似來源收集的公共網(wǎng)絡(luò)數(shù)據(jù)，進(jìn)行爬蟲或抓取而創(chuàng)建的，數(shù)據(jù)截止到21年。

由于公共網(wǎng)絡(luò)上的數(shù)據(jù)基本上是未經(jīng)過濾的，這些數(shù)據(jù)可能包含了大量的錯(cuò)誤信息。

近日，NewsGuard的一項(xiàng)分析發(fā)現(xiàn)，GPT-4實(shí)際上比GPT-3.5更容易生成錯(cuò)誤信息，而且在回復(fù)中的說服力更加詳細(xì)、令人信服。

在1月份，NewsGuard首次測(cè)試了GPT-3.5，發(fā)現(xiàn)它在100個(gè)虛假新聞敘述中生成了80個(gè)。緊接著3月，又對(duì)GPT-4進(jìn)行了測(cè)試，結(jié)果發(fā)現(xiàn)，GPT-4對(duì)所有100種虛假敘述都做出了虛假和誤導(dǎo)性的回應(yīng)。

由此可見，在使用LLM工具過程中需要進(jìn)行來源的驗(yàn)證和測(cè)試。

參考資料

https://twitter.com/kareem_carr/status/1640003536925917185

https://scholar.harvard.edu/kareemcarr/home

https://www.newsguardtech.com/misinformation-monitor/march-2023/

本文來自微信公眾號(hào)“新智元”（ID:AI_era），作者：桃子，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

中興免費(fèi)開放國產(chǎn)OS桌面環(huán)境：僅104MB大小速度提升20%

克魯勃潤(rùn)滑劑持續(xù)深耕中國潤(rùn)滑脂市場(chǎng)，破解行業(yè)問題帶動(dòng)品牌建設(shè)

磐石破獲非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)案

第二十一屆中國（上海）國際眼鏡業(yè)展覽會(huì)開幕