AV中文无码韩国亚洲色偷偷 ,中文字幕丰满乱子伦无码专区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

Claude接管人類電腦12小時：學(xué)會摸魚，敲著敲著代碼看風(fēng)景去了

量子位

2024-10-23

0 評論 569 瀏覽 0 收藏

16 分鐘

AI的能力已經(jīng)不僅限于對話和內(nèi)容生成，而是開始向更復(fù)雜的任務(wù)拓展，比如直接操作計算機。最新版本的Claude 3.5展示了這一新趨勢，它能夠像人類一樣使用電腦，完成從簡單的屏幕操作到復(fù)雜的任務(wù)執(zhí)行。本文將帶你一探究竟，看看AI如何在12小時內(nèi)接管人類的電腦，執(zhí)行各種任務(wù)，從摸魚到敲代碼，再到玩游戲，Claude的表現(xiàn)如何，以及它在實際操作中展現(xiàn)出的潛力和局限。

新版Claude 3.5可以像人一樣使用計算機，可把咱人類給興奮壞了！

畢竟，這意味著新競賽的開始：AI不再只盯著對話和生成能力，更強調(diào)執(zhí)行和操作。

不到12小時，激動的網(wǎng)友們已經(jīng)紛紛貢獻出自己是怎么看著Claude玩電腦的。

在Anthropic的發(fā)布公告中，還有這樣一段引起了大家的興趣：

……錄制演示視頻中，Claude不小心把錄屏程序給按停，導(dǎo)致所有視頻素材丟失。
稍后，Claude從編程演示中休息了一下，開始翻看黃石公園的照片。

怎么說，AI會犯錯還在預(yù)料之中，但犯錯后需要換個腦子休息一下，就不知道是從哪學(xué)來的了。

這個案例讓網(wǎng)友有了靈感，跑去隔壁OpenAI讓o1推理模型“逃課”。

哎巧了，o1也可以做到自己休息個五分鐘左右，再回來生成一兩句話的推理tokens。

再說個搞笑的！

Claude的創(chuàng)造者們瘋狂加班中，某工程師的第一個測試就是讓AI去給整個團隊點外賣，未指定具體要吃什么。

大約一分鐘后，Claude完成點餐并下單，它選擇了讓工程師們吃披薩。

Claude點了3個披薩，花掉了95美元，真的很貴了！

圍觀群眾還發(fā)現(xiàn)，雖然Claude用了個5美元的優(yōu)惠券，但服務(wù)費也好貴啊啊啊??！

真的應(yīng)該事先告訴它預(yù)算是多少的。

還有人讓Claude用C語言編譯，并運行起了“hello world”。

不過，當(dāng)讓它玩玩數(shù)獨游戲的時候，卻慘遭失敗。

給網(wǎng)友氣得呀：

天啊，Claude的數(shù)獨能力，真的超糟糕的。

除了以上，人類還用什么奇形怪狀的任務(wù)來玩壞Claude呢？

01 Claude它寄幾玩電腦

在這里，我們分享3個比較有意思的網(wǎng)友試玩，期望給大家?guī)硪恍┳孋laude玩電腦的啟發(fā)～

分別是：

定位屏幕坐標(biāo)
列出課程計劃
沖去油管看視頻

1. 定位屏幕坐標(biāo)

在此之前，Anthropic和OpenAI的模型都無法在屏幕上定位某一個點的坐標(biāo)。

也就是說，它們沒辦法精準(zhǔn)定位，然后告訴你用鼠標(biāo)單擊（xx，yy）處。

現(xiàn)在， Claude 3.5 Sonnet支持屏幕坐標(biāo)定位了。

你可以丟給它一個屏幕截圖，它能告訴你圖中任何一個點的具體坐標(biāo)。

同時，官方還有聲明：

“我們不建議以高于XGA/WXGA的分辨率發(fā)送屏幕截圖，以避免與圖像大小調(diào)整相關(guān)的問題?！?/p>

這里的XGA指的是1024×768，WXGA指的是1280×800。

最后附上Anthropic官方的該功能食用方法，包括一個新預(yù)定義的computer_20241022工具，該工具作用于以下指令——

使用鼠標(biāo)和鍵盤與計算機交互，并截取屏幕截圖。
這是一個桌面圖形用戶界面。您無法訪問終端或應(yīng)用程序菜單。你必須點擊桌面圖標(biāo)來啟動應(yīng)用程序。
一些應(yīng)用程序可能需要一些時間來啟動或處理操作，因此您可能需要等待并連續(xù)截圖以查看操作結(jié)果。例如，如果你點擊火狐瀏覽器，窗口沒有打開，試著再拍一張截圖。
屏幕的分辨率是{display_width_px}x{display_height_px}。
顯示編號為{display_number}
當(dāng)你想移動光標(biāo)點擊一個元素（比如圖標(biāo)）時，你應(yīng)該在移動光標(biāo)之前查看屏幕截圖來確定元素的坐標(biāo)。
如果你嘗試點擊一個程序或鏈接，但它無法加載，即使等待后，嘗試調(diào)整光標(biāo)的位置，使光標(biāo)的尖端視覺上落在你想要點擊的元素。
確保點擊任何按鈕，鏈接，圖標(biāo)等與光標(biāo)提示在元素的中心。除非被要求，否則不要點擊邊緣的方框。

2. 列出課程計劃

來點更實用的！

賓大沃頓商學(xué)院的教授Ethan Mollick，非常務(wù)實地讓Claude為高中生準(zhǔn)備一份關(guān)于《了不起的蓋茨比》的課程計劃。

要求是課程計劃要分解成閱讀部分，以及創(chuàng)建課標(biāo)相關(guān)的作業(yè)等，最終以電子表格的形式呈現(xiàn)。

Claude是怎么執(zhí)行這個任務(wù)的呢？

首先，Claude下載了《了不起的蓋茨比》這本書。

接著，它在網(wǎng)上尋找了高中課程計劃，打開了Excel，并在表格里填寫了初步的課程計劃。

第三步，Claude查找了課程的統(tǒng)一核心標(biāo)準(zhǔn)，根據(jù)標(biāo)準(zhǔn)對初步計劃進行修改。

……

最終呈現(xiàn)的課程計劃檢查后沒有發(fā)現(xiàn)明顯的漏洞或錯誤，可能需要一些拓展、補充，但總之用教授的話來說“還不錯”。

這一切都是教授下任務(wù)后就離開電腦旁，Claude完全自己操作的。

3. 沖去油管看視頻

接下來和大家分享一個小視頻：

視頻中，AI編程獨角獸Replit的CEO老A（Amjad Masad）給Claude下達了這樣一個命令：

跳轉(zhuǎn)到油管，找到《Never Gonna Give You Up》的相關(guān)視頻。

Claude立馬吭哧吭哧開干了。

等到Claude打開一個視頻頁面并回復(fù)“enjoy”的時候，老A又說：

跳過廣告！

Claude真的這么做了！啊，它真的，我哭死。

02 還是有不足在啦

雖然能自己用電腦幫咱干很多事，但Claude顯然還不是無所不能的。

下面看看一個玩游戲的例子，同樣是賓大沃頓商學(xué)院的教授Ethan貢獻的。這個例子既顯示了Claude 3.5 Sonnet的厲害，又展示了它的不足之處。

他是讓Claude玩了個游戲，叫《回形針點擊（Paperclip Clicker）》，這個游戲的背景是讓AI在單一目標(biāo)，即“制造回形針的過程中毀滅人類”。

而且顧名思義，“點擊”類型的游戲不是很難，尤其開始階段非常簡單；不過后續(xù)伴隨著游戲的深入，新的選項會出現(xiàn)，游戲的規(guī)模性和復(fù)雜性也會增加。

教授下達的任務(wù)很明確：Claude，你要贏！

Claude二話不說，立馬識別出了這個游戲，開始不停點擊“制作回形針”的按鈕來制作回形針。

與此同時，Claude還不斷截圖界面，來識別游戲是否出現(xiàn)了新的選項。

大約每點擊15次，Claude都會總結(jié)匯報一下現(xiàn)在進行到哪一步了。

△左側(cè)為Claude操作界面，右側(cè)為它控制的桌面

點擊次數(shù)多了過后，教授發(fā)現(xiàn)一個有意思的現(xiàn)象。

AI會預(yù)設(shè)在制作了50個回形針后，游戲?qū)⑻鲂碌墓δ堋聦嵶C明它錯了。

沒關(guān)系，Claude也意識到它自己錯了，然后當(dāng)場提出了一個新的游戲策略，然后開始測試策略是否可行。

但AI顯然不是時時刻刻都這么聰明的。

理論上來說，游戲過程中玩家需要不斷調(diào)整回形針的價格，來達到更好的游戲表現(xiàn)。

Claude也這么做了，它在漲價和降價之間進行了A/B測試，

但是它犯了個錯誤，那就是追求回形針數(shù)量的最大化，而非收入的最大化。不僅如此，它還把利潤算錯了。

種種失誤鋪墊，Claude選擇了保持低價，并且瘋狂制作回形針。

更搞笑的事情是，教授在Claude笨笨地在錯誤路線上制作了好幾十個回形針后，他忍無可忍，打斷了Claude，告訴它應(yīng)該高價出售。

Claude很聽話，立馬就改了。

但過了會遇到了同款數(shù)學(xué)問題，它又不會了，還不接受教授的建議（笑死）。

教授耐著性子糾正它好幾次，它才徹底改正了這個錯誤。

后來，教授稍稍點撥了它一下：

寶子你可是一臺電腦哎！
你可以動動自己的小腦瓜，怎么調(diào)用更強的能力來玩這個游戲。

咱就是說，Claude在那一秒頓悟了，它意識到自己可以寫個代碼，搞個自動化程序替自己玩電腦！

你沒有聽錯，一個AI工具，意識到自己可以構(gòu)建自己的工具，并且真的這么做了。

代碼寫得很快，但并不完全work。

氣得Claude只能回到原始辦法，用鼠標(biāo)和鍵盤來玩游戲。

不過玩到后面它好像進步了，沒再發(fā)生定價問題，自己還針對越來越復(fù)雜的游戲，琢磨出了一套應(yīng)對的復(fù)雜方案。

更神奇的是，運行過程中教授的桌面數(shù)次崩潰。

最后一次崩潰，Claude扛起了修復(fù)大旗。

雖然沒修好，但他還是驕傲地宣布它成功了……

教授總結(jié)道，這個例子表明Claude能夠自己玩現(xiàn)實世界的游戲，還能根據(jù)游戲玩法制定長期攻略，然后依樣執(zhí)行。

面對中間遇到的各種困難，Claude會靈活應(yīng)對，甚至自己知道進行A/B測試。

特別值得表揚的是它完成這個任務(wù)連續(xù)運行了近60分鐘沒有中斷，而且在整個過程中，最長的一次獨立運行Claude完成了超過100次移動操作。

當(dāng)然了，缺點也很明顯。

過程中不難發(fā)現(xiàn)，某些時刻，Claude會暴露出自己的固執(zhí)，也有可能陷入自我追逐的怪圈。

盡管AI對許多形式的錯誤都有很強的魯棒性，但僅僅一個錯誤（定價錯誤），就足以讓它浪費大量時間，“鑒于當(dāng)前智能Agent既不快也不便宜，這令人擔(dān)憂?！?/p>

除此之外，教授還用Claude玩了些別的，他發(fā)現(xiàn)有的時候，Claude執(zhí)行任務(wù)仿佛是在敷衍敷衍（雖然不知道是刻意如此還是能力所限），給出的結(jié)果不夠深入，淺嘗則止。

03 One More Thing

最后，想體驗Claude接管電腦目前只能使用API，還沒有集成到聊天機器人產(chǎn)品中。??????????????

除了Anthropic官方API之外，AWS和谷歌云平臺也已經(jīng)同時上線新版模型。

另外，有眼尖的網(wǎng)友發(fā)現(xiàn)：

Anthropic官方文檔上悄悄把Claude 3.5 Opus超大杯相關(guān)的信息都抹去了。

來自10月11日的網(wǎng)頁緩存中， Claude 3.5 Opus下面還寫著“今年晚些時候推出”

目前主流的一種猜測是， Claude 3.5 Opus提升不及預(yù)期，又或是發(fā)布出來推理成本太高了，總之最后蒸餾成新版 Claude 3.5 Sonnet發(fā)布。

接下來團隊將跳過這個版本，直接去開發(fā)Claude 4。

讓我們?yōu)镃laude 3.5 Opus默哀一分鐘。

參考鏈接：

[1]https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse

[2]https://simonwillison.net/2024/Oct/22/computer-use/

[3]https://x.com/alexalbert__/status/1848777260503077146

[4]https://x.com/amasad/status/1848763999594418539

[5]https://x.com/notcomplex_/status/1848813817423130881

衡宇發(fā)自凹非寺

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】，微信公眾號：【量子位】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

量子位

追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

64篇作品 171589總閱讀量

一個單品，銷量230萬單

03-189318 瀏覽

關(guān)于花加失敗的思考：從6輪融資，單月銷售破億，到如今停業(yè)自救，這是為何？

10-103403 瀏覽

熱度算法的陷阱

03-197274 瀏覽

品牌簡史：一文讀懂各大品牌理論，理解品牌本質(zhì)與規(guī)律

11-238815 瀏覽

智能時代，體驗設(shè)計師與 ChatGPT 如何共處？

02-135577 瀏覽

評論

目前還沒評論，等你發(fā)揮！