實(shí)用,太實(shí)用了!這才是OpenAI Agent該有的樣子。
就在剛剛,OpenAI最新發(fā)布來(lái)了,ChatGPT Agent正式對(duì)外亮相。
這是一個(gè)把“想”和“干”統(tǒng)一了的智能體,之前深度研究的思考和分析能力,Operator的操作執(zhí)行能力,在ChatGPT Agent實(shí)現(xiàn)了統(tǒng)一。
而且ChatGPT Agent還可以接管你的整個(gè)電腦——這幾乎就是全新的操作系統(tǒng)了。
能做什么?
工作場(chǎng)景里,安排和改期會(huì)議、生成PPT、制定出差和外出議程、自動(dòng)提交報(bào)銷……幾乎就是大廠高管才能配置的助理的核心工作。
生活場(chǎng)景下,你個(gè)人的旅游行程規(guī)劃設(shè)計(jì)、重大活動(dòng)如婚禮晚宴安排……一些定期需要手動(dòng)更新的認(rèn)證證明……差不多也是董事長(zhǎng)CEO們個(gè)人秘書實(shí)現(xiàn)的能力。
但現(xiàn)在,ChatGPT Agent一夜之間人人都可擁有。OpenAI還專門配備了專用模型,創(chuàng)造了全新的SOTA,刷新了模型能力新紀(jì)錄。
之前,通用Agent們只敢自稱“實(shí)習(xí)生”,但OpenAI在自研底層模型能力的底氣下,幾乎就把“實(shí)習(xí)生”變成了“大秘書”。之前一個(gè)創(chuàng)業(yè)賽道,分分鐘變成了大廠產(chǎn)品里的一個(gè)功能按鈕。
這也是ChatGPT Agent注定不會(huì)讓所有人都開(kāi)心的地方。
此前不論是在“想”還是“做”上做產(chǎn)品功能創(chuàng)新的Agent創(chuàng)業(yè)者,今夜難眠,又要被重新審視核心壁壘和競(jìng)爭(zhēng)力了。
總之,把Operator和深度研究實(shí)現(xiàn)“二合一”的ChatGPT Agent,不止于1+1。
ChatGPT Agent詳解:All in ONE
這次新發(fā)布,名字簡(jiǎn)單直接:ChatGPT Agent。
入口沒(méi)有變——還是在原來(lái)頁(yè)面「工具」下拉激活「智能體模式」即可。只是ChatGPT已經(jīng)不再是以前的ChatGPT了,而是具備“Agent”能力的ChatGPT了。
具體如何做的?
就是將以往Operator的「網(wǎng)站交互」能力,DeepResearch這種「整合高質(zhì)量信息」的能力,以及ChatGPT的對(duì)話能力等等,全部All in One,形成一個(gè)統(tǒng)一的智能體系統(tǒng)。
這樣一來(lái),能做的那就多了去了。
僅單一模型就可以主動(dòng)與網(wǎng)站互動(dòng)、篩選并獲取最高效的結(jié)果。
比如它可以制作公司吉祥物漫畫風(fēng)貼紙,然后再訂購(gòu)500張并送到某個(gè)地址。
先整合搜索-再推理創(chuàng)作-再執(zhí)行任務(wù),一氣呵成~
以往的瀏覽網(wǎng)頁(yè)、制定行程、制作文檔等各方面的體驗(yàn),都實(shí)現(xiàn)了升維。
比如生成表格吧,它可以在這基礎(chǔ)上保持原有格式的同時(shí),用新的財(cái)務(wù)數(shù)據(jù)來(lái)隨時(shí)更新表格。
不過(guò)這里有個(gè)華點(diǎn),仔細(xì)看這個(gè)過(guò)程,它不是通過(guò)打開(kāi)PPT插入文本框,而是編寫代碼生成一個(gè)看起來(lái)很像的表格。(Doge)
此外,你還可以設(shè)置固定時(shí)間執(zhí)行,比如每周一生成周報(bào)啥的。
還有像規(guī)劃并預(yù)訂旅行行程,可以具體到某個(gè)環(huán)節(jié)的設(shè)計(jì)和預(yù)訂,或者幫你尋找專業(yè)人士并安排預(yù)約。
他們強(qiáng)調(diào),整個(gè)過(guò)程人類始終都掌握控制權(quán),不僅可隨時(shí)中斷操作、接管瀏覽器或停止任務(wù),它在執(zhí)行重要操作前也會(huì)征得你的許可。
即日起,Pro、Plus 和Team版用戶就可以感受到這種工作與生活的體驗(yàn)全面升維。
Pro版用戶每月可執(zhí)行近乎無(wú)限的任務(wù),其他付費(fèi)用戶每月可執(zhí)行 50 次任務(wù),額外使用量可通過(guò)靈活的積分額度選項(xiàng)獲取。
而企業(yè)版和教育版的用戶將在7月獲得使用權(quán)限。
免費(fèi)等等黨可以再蹲蹲,萬(wàn)一什么時(shí)候就有了呢。
不過(guò)需要明確的是,ChatGPT Agent也算不上全新的模型,而是與OpenAI o3 還是屬于一個(gè)家族。
這個(gè)模型經(jīng)過(guò)了專門的訓(xùn)練,能夠在執(zhí)行任務(wù)時(shí)會(huì)動(dòng)態(tài)學(xué)習(xí),通過(guò)優(yōu)化速度、準(zhǔn)確性和效率來(lái)調(diào)整其工作方式——
每個(gè)步驟中識(shí)別并運(yùn)用最適合的工具,通過(guò)評(píng)估結(jié)果而非固守固定方法來(lái)優(yōu)化流程。
他們也還配備了所有可用的網(wǎng)絡(luò)工具:通過(guò)圖形用戶界面與網(wǎng)絡(luò)交互的可視化瀏覽器、用于簡(jiǎn)單推理型網(wǎng)絡(luò)查詢的文本瀏覽器,以及直接API訪問(wèn)權(quán)限。
有了不同的訪問(wèn)和交互路徑,保證ChatGPT能夠在推理與執(zhí)行之間流程轉(zhuǎn)換。
比如它可以快速通過(guò) API 獲取財(cái)務(wù)數(shù)據(jù)或體育賽事比分,同時(shí)也能與主要面向人類設(shè)計(jì)的網(wǎng)頁(yè)進(jìn)行視覺(jué)交互。
ChatGPT Agent在專門優(yōu)化之后,相比于以往幾個(gè)模型,網(wǎng)頁(yè)瀏覽、執(zhí)行現(xiàn)實(shí)世界任務(wù)能力方面實(shí)現(xiàn)了SOTA。
比如在「人類最后的考試」中,一舉取得了41.6分。該測(cè)試集是出了名的超難,剛推出時(shí)無(wú)模型得分能超過(guò)10分。
在 DSBench? 測(cè)試中,該測(cè)試旨在評(píng)估智能體在涵蓋數(shù)據(jù)分析和建模等現(xiàn)實(shí)數(shù)據(jù)科學(xué)任務(wù)中的表現(xiàn),ChatGPT 智能體顯著超越了之前的最先進(jìn)模型。
尤其在數(shù)據(jù)分析任務(wù)中,其表現(xiàn)明顯優(yōu)于人類水平。
還有在SpreadsheetBench,同樣實(shí)現(xiàn)了SOTA。
這個(gè)評(píng)測(cè)主要是是來(lái)評(píng)估模型處理真實(shí)場(chǎng)景中的電子表格編輯任務(wù)的表現(xiàn)。
結(jié)果ChatGPT Agent相比于GPT-4o提升了超過(guò)一倍。當(dāng)具備直接編輯電子表格的能力時(shí),ChatGPT Agent 的得分進(jìn)一步提升至45.5%。
不過(guò)在最后,他們也強(qiáng)調(diào)了這個(gè)模型也存在一定的風(fēng)險(xiǎn)。他們自己的“防范框架”將其定義為具有“放大現(xiàn)有嚴(yán)重危害途徑”能力的模型。
雖然目前還沒(méi)有直接證明,但他們已經(jīng)有了些額外的安全措施,比如有個(gè)實(shí)時(shí)監(jiān)視器,在每次回答前會(huì)判斷這個(gè)問(wèn)題有沒(méi)有風(fēng)險(xiǎn),比如生物相關(guān),是否會(huì)給人類帶來(lái)威脅;還有那種高風(fēng)險(xiǎn)的金融投資啊、敏感法律任務(wù)等等,都會(huì)主動(dòng)拒絕。并且為了防止濫用,還禁用了記憶功能。
怎么看ChatGPT Agent帶來(lái)的變革?
毫無(wú)疑問(wèn),ChatGPT Agent帶來(lái)的變革,可能要比OpenAI之前的Agent試水要大得多深遠(yuǎn)得多。
Agent算是一個(gè)曾經(jīng)科幻的概念,《鋼鐵俠》中的賈維斯,就是對(duì)Agent的“終極幻想”。
但AI Agent的推進(jìn),似乎又才剛剛開(kāi)始。
在基礎(chǔ)大模型能力不斷強(qiáng)大之后,Agent開(kāi)始被視為大模型應(yīng)用的核心產(chǎn)品,Agent也成為了今年最熱創(chuàng)新和創(chuàng)業(yè)賽道。
如果把視野拓展到企業(yè)級(jí)、工業(yè)級(jí)應(yīng)用里,Agent的創(chuàng)新和發(fā)展就更早了。
AI客服實(shí)際就是最隱秘但又實(shí)際發(fā)展最快速的應(yīng)用,而且?guī)?lái)的價(jià)值替代非常明顯——現(xiàn)在找人工客服已經(jīng)是相當(dāng)困難了。
在AI客服之外,AI編程、AI繪圖、AI PPT等垂直專用能力,也都在狂飆突進(jìn)…
但更值得關(guān)注的是通用Agent的推進(jìn),即AI可以真正像人一樣,接管你的上網(wǎng)甚至電腦。
OpenAI在這個(gè)方向推進(jìn)上算是慢的。早在去年10月,Claude的母公司Anthropic就推出了名為“Computer Use”的工具,能夠像人類一樣使用電腦,“代表”用戶完成任務(wù)。
如果只是“想”的層面,具體到撰寫分析研究報(bào)告的Agent就更多了,海外有OpenAI、Google 和 Perplexity,國(guó)內(nèi)則有秘塔、Kimi等等。
在手機(jī)端,華為、小米、OPPO、vivo和榮耀等等在內(nèi)的公司,都在試水Agent,讓AI自動(dòng)幫你完成訂咖啡、接推銷電話——雖然那邊也是AI打的,以及更多之前需要人自己“想”和“干”才能完成的工作。
而這就是趨勢(shì):一個(gè)全新的由AI貫穿始終的操作系統(tǒng)或者全新產(chǎn)品形態(tài),正在洶涌而至。
如果保守來(lái)看,Agent會(huì)率先重塑如今互聯(lián)網(wǎng)相關(guān)的一切,重塑我們互聯(lián)網(wǎng)實(shí)現(xiàn)的對(duì)工作和生活的塑造。
PC時(shí)代的互聯(lián)網(wǎng)核心塑造是“網(wǎng)站”,智能手機(jī)時(shí)代是“APP”,到了AI時(shí)代就是“Agent”。
PC互聯(lián)網(wǎng)時(shí)代是千人一面,門戶網(wǎng)站是其代表。
移動(dòng)互聯(lián)網(wǎng)時(shí)代可以千人千面,推薦算法下誕生了抖音Tiktok這樣的全新超級(jí)應(yīng)用。
那么Agent互聯(lián)網(wǎng)在呢?會(huì)有怎樣全新的應(yīng)用?又有誰(shuí)會(huì)站上浪潮之巔?
問(wèn)題還沒(méi)有答案,但問(wèn)題的答案,已經(jīng)在被深度研究、自動(dòng)執(zhí)行了。