編譯:Jiayu,Cage
AIAgent是我們緊密追蹤的范式變化,Langchain的一系列文章對(duì)理解Agent的發(fā)展趨勢(shì)很有幫助。在本篇編譯中,第一部分是Langchain團(tuán)隊(duì)發(fā)布的StateofAIAgent報(bào)告。他們采訪了1,300多位從業(yè)者,包含開發(fā)者、產(chǎn)品經(jīng)理、公司高管,揭示了Agent在今年的現(xiàn)狀和落地瓶頸:九成公司都對(duì)AIAgent有計(jì)劃和需求,但Agent能力的局限讓用戶只能在少數(shù)流程和場(chǎng)景中落地。比起成本和latency,大家更在乎Agent能力的提升,和對(duì)其行為的可觀測(cè)和可控性。
第二部分我們編譯了LangChain官網(wǎng)的IntheLoop系列文章中對(duì)AIAgent關(guān)鍵要素的分析:規(guī)劃能力、UI/UX交互創(chuàng)新和記憶機(jī)制。文中分析了5種LLM-native產(chǎn)品的交互方式,類比了3種人類的復(fù)雜記憶機(jī)制,對(duì)理解AIAgent,對(duì)理解這些關(guān)鍵要素有所啟發(fā)。在這一部分我們還加入了一些有代表性的Agent公司casestudy,如ReflectionAI創(chuàng)始人的訪談,來(lái)展望接下來(lái)2025年AIAgent的關(guān)鍵突破口。
在這個(gè)分析框架下,我們期待2025年AIAgent應(yīng)用開始涌現(xiàn),步入人機(jī)協(xié)作的新范式。對(duì)于AIAgent的規(guī)劃能力,以o3為首的模型正在展現(xiàn)出很強(qiáng)的反思和推理能力,模型公司的進(jìn)展正在從reasoner逼近到Agent階段。隨著推理能力持續(xù)提升,Agent的“最后一公里”會(huì)是產(chǎn)品交互和記憶機(jī)制,這更可能是創(chuàng)業(yè)公司突破的機(jī)會(huì)。關(guān)于交互,我們一直期待AI時(shí)代的“GUI時(shí)刻“;關(guān)于記憶,我們相信Context會(huì)成為Agent落地的關(guān)鍵詞,個(gè)人層面的context個(gè)性化、企業(yè)層面的context統(tǒng)一都會(huì)讓Agent的產(chǎn)品體驗(yàn)得到大幅提升。
01. Agent使用趨勢(shì):
每個(gè)公司都在計(jì)劃部署Agent
Agent領(lǐng)域的競(jìng)爭(zhēng)正在變激烈。在過去一年中,許多Agent框架變得普及:例如使用ReAct結(jié)合LLM進(jìn)行推理和行動(dòng)、使用multi-agent框架進(jìn)行編排,或者是使用類似LangGraph這樣更可控的框架。
關(guān)于Agent的討論并不全是Twitter上的炒作。大約51%的受訪者目前正在生產(chǎn)中使用Agent。根據(jù)Langchain按公司規(guī)模的數(shù)據(jù),100-2000員工的中型公司在Agent投入生產(chǎn)方面最為積極,比例達(dá)到63%。
此外,78%的受訪者有在近期內(nèi)將采用將Agent投入生產(chǎn)的計(jì)劃。很明顯,大家對(duì)AIAgent有很強(qiáng)烈的興趣,但實(shí)際要做好一個(gè)production-ready的Agent對(duì)許多人來(lái)說仍然是一個(gè)難題。
監(jiān)控:Agent應(yīng)用需要可觀測(cè)和可控性
隨著Agent實(shí)現(xiàn)功能變得更加強(qiáng)大,就需要管理和監(jiān)控Agent的方法。追蹤和可觀測(cè)性工具位列必備清單之首,幫助開發(fā)人員了解Agent的行為和性能。很多公司還使用guardrail(防護(hù)控制)以防止Agent偏離軌道。
將Agent投入生產(chǎn)的障礙和挑戰(zhàn)
保證LLM 的高質(zhì)量performance 很難,回答需要有高準(zhǔn)確性,還要符合正確的風(fēng)格。這是Agent開發(fā)使用者們最關(guān)心的問題——比成本、安全等其他因素的重要性高出兩倍多。
LLMAgent是概率式的內(nèi)容輸出,意味著較強(qiáng)的不可預(yù)測(cè)性。這引入了更多的錯(cuò)誤可能性,使得團(tuán)隊(duì)難以確保其Agent始終如一地提供準(zhǔn)確、符合上下文的回應(yīng)。
其他新興主題
在開放性問題中,大家對(duì)AIAgent展示出的這些能力有很多稱贊:
管理多步驟任務(wù):AIAgent能夠進(jìn)行更深入的推理和上下文管理,使它們能夠處理更復(fù)雜的任務(wù);
自動(dòng)化重復(fù)性任務(wù):AIAgent繼續(xù)被視為處理自動(dòng)化任務(wù)的關(guān)鍵,這可以為用戶解放時(shí)間,讓他們?nèi)ソ鉀Q更有創(chuàng)造性的問題;
任務(wù)規(guī)劃和協(xié)作:更好的任務(wù)規(guī)劃確保正確的Agent在正確的時(shí)間處理正確的問題,特別是在Multi-agent系統(tǒng)中;
類似人類的推理:與傳統(tǒng)LLM不同,AIAgent可以追溯其決策,包括根據(jù)新信息回顧并修改過去的決策。
此外大家還有兩個(gè)最期待的進(jìn)展:
對(duì)開源AIAgent的期待:人們對(duì)開源AIAgent的興趣明顯,許多人提到集體智慧可以加速Agent的創(chuàng)新;
對(duì)更強(qiáng)大的模型的期待:許多人正在期待由更大、更強(qiáng)大的模型驅(qū)動(dòng)的AIAgent的下一次飛躍—在那時(shí),Agent能夠以更高的效率和自主性處理更復(fù)雜的任務(wù)。
問答中很多人也提到了Agent開發(fā)時(shí)最大的挑戰(zhàn):如何理解Agent的行為。一些工程師提到他們?cè)谙蚬緎takeholder解釋AIAgent的能力和行為時(shí)會(huì)遇到困難。部分時(shí)候可視化插件可以幫助解釋Agent的行為,但在更多情況下LLM仍然是一個(gè)黑箱。額外的可解釋性負(fù)擔(dān)留給了工程團(tuán)隊(duì)。
02.AIAgent中的核心要素
什么是Agentic系統(tǒng)
在StateofAIAgent報(bào)告發(fā)布之前,Langchain團(tuán)隊(duì)已經(jīng)在Agent領(lǐng)域?qū)懥俗约旱腖angraph框架,并通過IntheLoop博客討論了很多AIAgent中的關(guān)鍵組件,接下來(lái)就是我們對(duì)其中關(guān)鍵內(nèi)容的編譯。
首先每個(gè)人對(duì)AIAgent的定義都略有不同,LangChain創(chuàng)始人HarrisonChase給出的定義如下:
AIAgent是一個(gè)用LLM來(lái)做程序的控制流決策的系統(tǒng)。
AnAIagentisasystemthatusesanLLMtodecidethecontrolflowofanapplication.
對(duì)其實(shí)現(xiàn)方式,文章中引入了Cognitivearchitecture(認(rèn)知架構(gòu))的概念,認(rèn)知架構(gòu)是指Agent如何進(jìn)行思考、系統(tǒng)如何去編排代碼/promptLLM:
Cognitive:Agent使用LLM來(lái)語(yǔ)義推理該如何編排代碼/PromptLLM;
Architecture:這些Agent系統(tǒng)仍然涉及大量類似于傳統(tǒng)系統(tǒng)架構(gòu)的工程。
下面這張圖展示了不同層次Cognitivearchitecture的例子:
CaseStudy:
ReflectionAI創(chuàng)始人 Laskin 對(duì)Agent未來(lái)的愿景
在紅杉資本對(duì)ReflectionAI創(chuàng)始人MishaLaskin的訪談中,Misha提到他正在開始實(shí)現(xiàn)他的愿景:即通過將RL的SearchCapability與LLM相結(jié)合,在他的新公司ReflectionAI中構(gòu)建最佳的Agent模型。他和聯(lián)合創(chuàng)始人IoannisAntonoglou(AlphaGo、AlphaZero、GeminiRLHF負(fù)責(zé)人)正在訓(xùn)練為AgenticWorkflows設(shè)計(jì)的模型,訪談中的主要觀點(diǎn)如下:
深度是AIAgent中缺失的部分。雖然當(dāng)前的語(yǔ)言模型在廣度方面表現(xiàn)出色,但它們?nèi)狈煽客瓿扇蝿?wù)所需的深度。Laskin認(rèn)為,解決“深度問題”對(duì)于創(chuàng)建真正有能力的AIAgent至關(guān)重要,這里的能力是指:Agent可以通過多個(gè)步驟規(guī)劃和執(zhí)行復(fù)雜的任務(wù);
將Learn和Search相結(jié)合是實(shí)現(xiàn)超人性能的關(guān)鍵。借鑒AlphaGo的成功,Laskin強(qiáng)調(diào)AI中最深刻的理念是Learn(依靠LLM)和Search(找到最優(yōu)路徑)的結(jié)合。這種方法對(duì)于創(chuàng)建在復(fù)雜任務(wù)中可以勝過人類的Agent至關(guān)重要;
Post-training和Rewardmodeling帶來(lái)了重大挑戰(zhàn)。與具有明確獎(jiǎng)勵(lì)的游戲不同,現(xiàn)實(shí)世界的任務(wù)通常缺乏真實(shí)獎(jiǎng)勵(lì)。開發(fā)可靠的rewardmodel,是創(chuàng)建可靠的AIAgent的關(guān)鍵挑戰(zhàn)
UniversalAgents可能比我們想象的更接近。Laskin估計(jì),我們可能只用三年時(shí)間就可以實(shí)現(xiàn)“digitalAGI”,即同時(shí)具有廣度和深度的AI系統(tǒng)。這一加速的時(shí)間表凸顯了在能力發(fā)展的同時(shí)解決安全性和可靠性問題的緊迫性
通往UniversalAgents的道路需要一種的方法。ReflectionAI專注于擴(kuò)展Agent功能,從一些特定的環(huán)境開始,如瀏覽器、coding和計(jì)算機(jī)操作系統(tǒng)。他們的目標(biāo)是開發(fā)UniversalAgents,使其不局限于特定任務(wù)。
UI/UX交互
在未來(lái)幾年,人機(jī)交互會(huì)成為research的一個(gè)關(guān)鍵領(lǐng)域:Agent系統(tǒng)與過去的傳統(tǒng)計(jì)算機(jī)系統(tǒng)不同,因?yàn)檠舆t、不可靠性和自然語(yǔ)言界面帶來(lái)了新的挑戰(zhàn)。因此,與這些Agent應(yīng)用程序交互的新UI/UX范式將出現(xiàn)。Agent系統(tǒng)仍處于早期階段,但已經(jīng)出現(xiàn)多種新興的UX范式。下面分別進(jìn)行討論:
1.對(duì)話式交互(ChatUI)
聊天一般分為兩種:流式聊天(streamingchat)、非流式聊天(non-streamingChat)。
流式聊天是目前最常見的UX。它是一個(gè)Chatbot,以聊天格式將其思想和行為流回——ChatGPT是最受歡迎的例子。這種交互模式看起來(lái)很簡(jiǎn)單,但也有不錯(cuò)的效果,因?yàn)椋浩湟,可以使用自然語(yǔ)言與LLM進(jìn)行對(duì)話,這意味著客戶和LLM沒有任何障礙;其二,LLM可能需要一段時(shí)間才能工作,流式處理使用戶能夠準(zhǔn)確了解后臺(tái)發(fā)生的事情;其三,LLM常常會(huì)出錯(cuò),Chat提供了一個(gè)很好的界面來(lái)自然地糾正和指導(dǎo)它,大家已經(jīng)非常習(xí)慣于在聊天中進(jìn)行后續(xù)對(duì)話和迭代討論事情。
但流式聊天也有其缺點(diǎn)。首先,流式聊天是一種相對(duì)較新的用戶體驗(yàn),因此我們現(xiàn)有的聊天平臺(tái)(iMessage、FacebookMessenger、Slack等)沒有這種方式;其次,對(duì)于運(yùn)行時(shí)間較長(zhǎng)的任務(wù)來(lái)說,這有點(diǎn)尷尬—用戶只是要坐在那里看著Agent工作嗎;第三,流式聊天通常需要由人類觸發(fā),這意味著還需要大量humanintheloop。
非流式聊天的最大區(qū)別在于響應(yīng)是分批返回的,LLM在后臺(tái)工作,用戶并不急于讓LLM立刻回答,這意味著它可能更容易集成到現(xiàn)有的工作流程中。人們已經(jīng)習(xí)慣了給人類發(fā)短信——為什么他們不能適應(yīng)用AI發(fā)短信呢?非流式聊天將使得與更復(fù)雜的Agent系統(tǒng)交互變得更加容易—這些系統(tǒng)通常需要一段時(shí)間,如果期望即時(shí)響應(yīng),這可能會(huì)令人沮喪。非流式聊天通常會(huì)消除這種期望,從而更輕松地執(zhí)行更復(fù)雜的事情。
這兩種聊天方式有以下優(yōu)缺點(diǎn):
3.電子表格(SpreadsheetUX)
4.生成式UI(GenerativeUI)
“生成式UI”有兩種不同的實(shí)現(xiàn)方式。
一種方式是由模型自行生成需要的的原始組件。這類似于Websim等產(chǎn)品。在后臺(tái),Agent主要編寫原始HTML,使其能夠完全控制顯示的內(nèi)容。但是這種方法允許生成的webapp質(zhì)量有很高的不確定性,因此最終結(jié)果可能看起來(lái)波動(dòng)較大。
5.協(xié)作式UX(CollaborativeUX)
當(dāng)Agent和人類一起工作時(shí)會(huì)發(fā)生什么?想想GoogleDocs,客戶可以在其中與團(tuán)隊(duì)成員協(xié)作編寫或編輯文檔,但倘如協(xié)作者之一是Agent呢?
GeoffreyLitt和Ink&Switch合作的Patchwork項(xiàng)目是人類-Agent合作的一個(gè)很好的例子。(譯者注:這可能是最近penAICanvas產(chǎn)品更新的靈感來(lái)源)。
1.程序記憶(ProceduralMemory):有關(guān)如何執(zhí)行任務(wù)的長(zhǎng)期記憶,類似于大腦的核心指令集
人類的程序記憶:記住如何騎自行車。
Agent的程序記憶:CoALA論文將程序記憶描述為L(zhǎng)LM權(quán)重和Agent代碼的組合,它們從根本上決定了Agent的工作方式。
在實(shí)踐中,Langchain團(tuán)隊(duì)還沒有看到任何Agent系統(tǒng)會(huì)自動(dòng)更新其LLM或重寫其代碼,但是確實(shí)存在一些Agent更新其systemprompt的例子。
2.語(yǔ)義記憶(SemanticMemory):長(zhǎng)期知識(shí)儲(chǔ)備
人類的語(yǔ)義記憶:它由信息片段組成,例如在學(xué)校學(xué)到的事實(shí)、概念以及它們之間的關(guān)系。
Agent的語(yǔ)義記憶:CoALA論文將語(yǔ)義記憶描述為事實(shí)存儲(chǔ)庫(kù)。
在實(shí)踐中上,常常是通過使用LLM從Agent的對(duì)話或交互中提取信息來(lái)實(shí)現(xiàn)的。此信息的確切存儲(chǔ)方式通常是特定于應(yīng)用程序的。然后這些信息在將來(lái)的對(duì)話中檢索并插入到SystemPrompt中以影響Agent的響應(yīng)。
3.情景記憶(EpisodicMemory):回憶特定的過去事件
人類的情景記憶:當(dāng)一個(gè)人回憶起過去經(jīng)歷的特定事件(或“情節(jié)”)時(shí)。
Agent中的情景記憶:CoALA論文將情景記憶定義為存儲(chǔ)Agent過去動(dòng)作的序列。
這主要用于讓Agent按預(yù)期執(zhí)行動(dòng)作。在實(shí)踐中,情景記憶的更新通過Few-ShotsPrompt的方法實(shí)現(xiàn)。如果相關(guān)更新的Few-ShotsPrompt足夠多,那么接下來(lái)的更新就通過DynamicFew-ShotsPrompt來(lái)完成。
如果一開始就有指導(dǎo)Agent正確完成操作的辦法,后面面對(duì)同樣的問題就可以直接使用這種辦法;相反,如果不存在正確的操作方式,或者如果Agent不斷做新的事情,那么語(yǔ)義記憶就會(huì)更重要,反而在前面的例子中,語(yǔ)義記憶不會(huì)有太大幫助。
除了考慮要在Agent中更新的記憶類型外,開發(fā)人員還要考慮如何更新Agent的記憶:
更新Agent記憶的第一種方法是“inthehotpath”。在這種情況下,Agent系統(tǒng)會(huì)在響應(yīng)之前記住事實(shí)(通常通過工具調(diào)用),ChatGPT采取這種方法更新其記憶;
更新Agent記憶的另一種方法是“inthebackground”。在這種情況下,后臺(tái)進(jìn)程會(huì)在會(huì)話之后運(yùn)行以更新記憶。
比較這兩種方法,“inthehotpath”方法的缺點(diǎn)是在傳遞任何響應(yīng)之前會(huì)有一些延遲,它還需要將memorylogic與agentlogic相結(jié)合。
但是,“inthebackground”可以避免這些問題-不會(huì)增加延遲,并且memorylogic保持獨(dú)立。但是“inthebackground”也有其自身的缺點(diǎn):記憶不會(huì)立即更新,并且需要額外的logic來(lái)確定何時(shí)啟動(dòng)后臺(tái)進(jìn)程。
更新記憶的另一種方法涉及用戶反饋,這與情景記憶特別相關(guān)。例如,如果用戶對(duì)某次交互標(biāo)評(píng)分較高(PostiveFeedback),Agent可以保存該反饋以備將來(lái)調(diào)用。
基于以上編譯內(nèi)容,我們期待規(guī)劃、交互、記憶三個(gè)組件的同時(shí)進(jìn)步,會(huì)讓我們?cè)?025年看到更多可用的AIAgent,進(jìn)入人機(jī)協(xié)同工作的新時(shí)代。
免責(zé)聲明:Agent 最全 Playbook:場(chǎng)景、記憶和交互創(chuàng)新文章轉(zhuǎn)發(fā)自互聯(lián)網(wǎng),版權(quán)歸其所有。
文章內(nèi)容不代表本站立場(chǎng)和任何投資暗示。加密貨幣市場(chǎng)極其波動(dòng),風(fēng)險(xiǎn)很高,可能不適合所有投資者。在投資加密貨幣之前,請(qǐng)確保自己充分了解市場(chǎng)和投資的風(fēng)險(xiǎn),并考慮自己的財(cái)務(wù)狀況和風(fēng)險(xiǎn)承受能力。此外,請(qǐng)遵循您所在國(guó)家的法律法規(guī),以及遵守交易所和錢包提供商的規(guī)定。對(duì)于任何因使用加密貨幣所造成的投資損失或其他損失,本站不承擔(dān)任何責(zé)任。
Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM