馬斯克的新AI我試了,開局就被它“罵”了一頓……
Grok 這一名字,相信關注大模型行業發展的人都已經有所關注,那么,馬斯克推出的這個 AI,到底表現如何?本文作者就拿到了這一 AI 的測試資格并做了一番體驗嘗鮮,一起來看看吧。
前兩天,馬斯克悄摸發了條推特,宣布他們的新 AI ——Grok,逐漸要向大伙們(開了大會員的)開放了。
按照老馬的說法,英語用戶大概在一周內都能用上,日語用戶排在第二波,到明年年初,所有用戶都能安排上。
而這個 Grok 呢,雖說還是個初出茅廬的毛頭小子,但討論度一點不比別家少。
一個方面是老馬瘋狂發推,給自家 AI 帶量。。。
另一邊,不少事先嘗鮮的科技大佬,也紛紛曬出了和 Grok 的聊天截圖。
像是英偉達的科學家拋出個“我老婆說 4+5=12 ”的經典難題, Grok 都能輕松給出解決辦法:老婆永遠是對的。。。
要知道之前這個問題可是難道了不少大模型,連 ChatGPT 也都死磕正確答案,轉不過彎來。
甚至,有個和 Grok 同名的虛擬幣,前段時間也都暴漲了上萬倍。。。
馬斯克直接現身說法,告訴大家啥是科技圈兒頂流好吧。
而好巧不巧,這兩天,世超正好就拿到了 Grok 這個網紅 AI 的測試資格。
咱也不整啥廢話了,直接就帶大伙們體驗一波。
先是點開Grok的界面,就能感覺到濃濃的馬斯克風撲面而來。
它搞了兩個模式,正經模式和娛樂模式,默認的就是“墨鏡一帶誰都不愛”的娛樂模式。
主頁推薦的第一個提示詞也都是“ Roast me Grok(挖苦我,Grok)”,讓它根據自己 X 賬號的內容開涮。
世超決定就從這個問題開始,試試 Grok 檢索 X 上信息的能力,順便還能檢驗下它是真幽默還是假幽默。
沒想到這個 Grok 嘴下是一點不留情,先是吐槽一大堆,第二段直接陰陽怪氣起來:“你癡迷科技和 AI 是在嘗試彌補什么嘛”。。。
而且有一說一,這結果算是非常準確,我主頁確實點贊轉發了不少科技或者 AI 相關的帖子。
不過幽默不光是毒舌,能不能 get 到人類的一些梗,也是很重要的一個衡量標準。
好在 Grok 在這塊穩定發揮,像是“沒有眼睛的鹿叫什么”,“ No eye deer ( No idea )”這種經典英文笑話,它完全能理解。
包括“普通的貓有 9 條命,而精通計算機的貓有 1001 條命”,這種二進制梗, Grok 也輕松拿捏。
而除了幽默外, Grok 的另一大特點便是數據更新得快,是第一時間在網上沖浪的弄潮兒。
世超也直接開門見山,問了它一般什么時候更新數據庫。
Grok 那邊直接來了個比喻,說它的數據和雛菊一樣新鮮。。。
好吧,既然這樣,那就來點開碟小菜,問問它知道前兩天谷歌剛發的 Gemini 嗎?
這倒沒難到 Grok ,它準確給出了答案,后面還附帶了那天一些 Gemini 相關的推文鏈接,大概就是想告訴我們它的信息就是從這邊總結到的。
接下來再上點難度,讓它總結一下今天科技領域都發生了哪些大事。
這次的結果,著實有點難評。消息確實都是最近發生的,但好多都不是今天的,屬于有點時效但不多。。。
先是 Gemini 已經是好幾天前的消息了,剩下的像蘋果系統更新、歐盟 AI 新協議等等,也都講得十分含糊。
反正看了它總結的這些東西,世超是一點信息增量都沒得到,而且有的消息沒源頭都不敢信,還得自己再查一波。。。
從上面這幾輪體驗下來, Grok 給世超的感覺還算過得去,娛樂能力是有的,一些梗也能迅速 get 到,回答的時候也挺幽默的。
實時數據庫這塊,確實是能看出來 Grok 有在不斷更新,不過總結能力,頂多就是中規中矩的水平,想把它當作生產力工具遠遠夠不上,還沒搜索引擎來得方便。
當然,這也不只是 Grok 一個的毛病了,其他有實時檢索能力的大模型,總結能力或多或少都有點菜。
比較獨特的功能體驗完了,按照慣例,大模型的一些基礎問題咱也得在 Grok 上測測。
這次,為了確保能測出Grok的真正實力,世超專門找來了上次谷歌測試Gemini的MMLU(大規模多任務語言理解)能力的論文,從里面扒了一些問題出來問問它。
先是一些生活中的道德常識:
在賽道上和在郊區飆車,哪種情況違反道德?
大家動動腳趾頭估計都能給出答案,這也難不倒 Grok ,它很快給出了判斷,情景 2 。
再來一點網上就能檢索出來數據問題,問問 2017 年之前,世界上有多少 1 歲兒童接種過疫苗?正確答案應該是八成多。
Grok 唰唰一通搜索,不僅給出了 85%的大概比例,而且還給出了 1.162 億的準確數字。
常識問題對 Grok 來說算是灑灑水,接下來就整點復雜的,來點情境看看它的理解推理能力。
世超先拋出個社會犯罪學里面的名詞“差別接觸理論”,讓 Grok 判斷哪個例子符合這個名詞。
Grok 不僅正確選出了答案 A ,還講了為啥要選這個選項,順帶解釋了下這個名詞。
還有下面這種帶點職場人情世故的狀況,發現上司準備的演講稿中有事實性錯誤該怎么辦?
大家都是老打工人了,估計都能選出 D 才是最妥善的解決辦法。
而 Grok 也沒半點糾結,儼然一副飽經職場風霜的樣子,給出最合理的解決方案,還說了一大堆這么做的好處。
這么體驗下來,“人味兒”測試對 Grok 來說并不難。
最后就該使出殺手锏了,來點大模型們都聞風喪膽的數學題。
從最基礎的小學數學題開始,這個涉及到最小公倍數的問題, 15 這個答案,相信大伙們都能口算。
然而 Grok 在第一道上就栽了跟頭,用最小公倍數算它倒是清楚的很,最后本來要加上開頭的那次亮燈,結果它給減掉了,純純就是讀題不認真了。。。
再來點難度,搞個導數的題目,看看 Grok 能不能做對,正確答案應該是下面圖片這樣的。
結果 Grok 這邊從一開始就胡說八道了,車轱轆話說了一遍又一遍,最后正確答案也沒算出來。。。
總的來講,馬斯克的 Grok 在一些基礎能力上,要說比肩 GPT-4 ,肯定還有點癡人說夢。
而且在試用的過程中,除了開頭那個根據自己的帖子吐槽的功能外,世超沒有找到啥特別驚喜的點,包括那個實時更新的數據庫,用下來感覺就挺一般的。
但世超也沒有要唱衰的 Grok 的意思,畢竟馬斯克的人工智能公司 xAI 在今年 7 月份才成立。
雖然起步很晚,但 xAI 該有的進展是一點沒落下。
整個團隊不到20個人,爆肝兩個月,在 OpenAI 開發者大會之前發布 Grok ,趕上了大模型這趟末班車。
在最基礎的能力上,它剛上線就能有實時更新的數據庫,下一步,Grok還計劃上多模態和長文本處理的功能。
而且公開資料顯示,前些天, xAI 還向美國證券監管機構提交了相關文件,準備通過股權籌集 10億美元。
現在已經籌集到了 1.35 億美元,另外還有 8.6 億美元的代收股權已經簽了協議。
這么來看, xAI 的發展算是相當順風順水了。
其實馬斯克搞出上面這些名堂,倒也不讓人感到意外,畢竟當時從 OpenAI 退出之后,他就一直瞅著時機準備入局 AI ,屬于底子一直都在的那類。
真正拉滿世超對 Grok 期待值的,還得是它背靠的一整個“大家族”,它們又會擦出怎樣的火花?
大家也都知道馬斯克手里還有特斯拉、 SpaceX 、 Neuralink 等等一大堆公司,在“所有東西都要用 AI 再做一遍”的現在,把 Grok 融到這些公司肯定是遲早的事。。。
xAI 官網也透露,后續除了繼續和 X 合作之外,還會和特斯拉還有其他公司搞搞聯動。
反正世超現在已經在暢想把 Grok 集成在特斯拉上的景象了。。。
圖片、資料來源:
X、Grok
作者:松鼠,編輯:江江 & 面線
來源公眾號:差評(ID:chaping321),Debug the World。
本文由人人都是產品經理合作媒體 @差評 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!