夜夜高潮天天爽欧美,亚洲精品gv天堂无码男同,日本免费一区二区三区最新

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

馬斯克新作！Grok-1.5V多模態模型震撼發布：數字與物理世界完美融合

新智元

2024-04-15

1 評論 748 瀏覽 0 收藏

16 分鐘

馬斯克xAI的多模態模型Grok-1.5V橫空出世了！不僅多項基準測試超越GPT-4V，而且看懂梗圖寫Python代碼也都不在話下。并且，為了評估模型對于真實世界的空間理解，xAI此次還推出了新基準RealWorldQA。

馬斯克的第一代多模態模型Grok-1.5V，終于來了！

Grok 1.5V，號稱是能連接數字世界和物理世界。

除了文本功能，它還能處理文檔、圖標、屏幕截圖和照片之類的各種視覺信息。

很快，所有早期測試者和所有Grok用戶就能用上Grok 1.5V了。

英偉達高級科學家Jim Fan發現了Grok-1.5V的「最大亮點」：在他看來，Grok-1.5V最令人感興趣的，就是解決自動駕駛邊緣案例的潛力。

如果使用語言進行「思維鏈」，幫助汽車分解復雜場景，用規則和反事實進行推理，解釋其決策，Grok-1.5V就能將像素->動作映射提升為像素->語言->動作。

由此，特斯拉FSD V13就很有可能會理解語言Token！

特斯拉的優勢是，具有高度成熟的數據管線，因此，就不難用高質量的人類解釋痕跡來標記大量邊緣案例，在多模態FSD推理上，微調Grok的表現就很有可能會遠勝于GPT-4V和Gemini。

你可能會說，以前Wayve的LINGO-1不是也有類似的想法么？但別忘了，特斯拉正在旋轉的，是一個無與倫比的數據飛輪，規模遠超以前。

馬斯克也適時地出現在了留言區，進一步解釋道——

有兩種數據源可以無限擴展，合成數據和真實世界視頻。前者存在一個真偽的問題，而后者則不存在。

有網友表示，好家伙，這聽起來是通往AGI最可行的路徑了！具有顯式語言推理的多模態模型，始終如一地推斷世界模型。

一、模型能力

在xAI的官網上，對于Grok-1.5V是這樣介紹的。

它可以和GPT-4V、Claude 3 Sonnet、Claude 3 Opus等這些最頂尖的多模態模型對打。

無論是多學科推理，還是文檔理解、科學圖表、表格、截圖和照片等多個領域，Grok-1.5V都和它們有的一拼。

尤其令人驚喜的，是它在理解物理世界時表現出的卓越能力。

在RealWorldQA基準測試中，沒有思維鏈提示、零樣本設置的情況下，用以下數據集對Grok進行評估，可以看到Grok的表現比同類模型更好。

下面7個具有代表性的例子，更說明了Grok 1.5V在不同場景中的良好表現。

1. 根據圖表編寫代碼

下圖給出了一個簡單的猜謎游戲的流程圖，Grok可以根據流程圖具體內容，使用python代碼實現該流程。

用戶：

你能把它翻譯成Python代碼嗎？

Grok：

當然！這張流程圖描述了一個簡單的猜謎游戲，其中計算機生成一個隨機數，而用戶需要猜出它是什么。下面是表示流程圖中邏輯的Python代碼：

import random

def guess_number(): # Generate a random number between 1 and 10

target = random.randint(1, 10)

while True:

guess = int(input(“Guess a number between 1 and 10: “))

if guess == target:

print(“You won!”)

break

else:

print(“Wrong guess, try again!”)

if __name__ == “__main__”:

guess_number()

這段代碼將運行流程圖中描述的猜謎游戲。在用戶猜出正確數字之前，系統會一直提示用戶輸入猜測的數字。

2. 計算卡路里

根據食品的營養配料表，Grok可以知道該食品一份份量是3片、含有60卡路里的熱量，由此計算出，用戶給出5片該食品的卡路里總數是100。

用戶：

5片含有多少卡路里？

Grok：

如果一份包含3片，總熱量為60卡路里，那么5片的熱量大約是100卡路里。

首先，確定每片的熱量：60卡路里÷3片=20卡路里/片。

接著，將每片的熱量乘以片數：20卡路里x5片=100卡路里。

3. 從繪畫到睡前故事

Grok可以根據畫作的內容，講述一個簡短的睡前故事。

比如下面這個隨筆涂鴉：

用戶：

這是我兒子畫的，你能根據他的畫講一個睡前小故事嗎？

Grok：

很久很久以前，在一個充滿冒險與奇跡的土地上，生活著一個勇敢的小男孩，名叫Timmy。他與家人住在一個溫暖的小屋里，最喜歡的事情就是探索周圍的世界。

在一個陽光明媚的日子里，Timmy決定去附近的森林探險。他準備了自己最愛的零食、一只指南針和一本信賴的筆記本，用來記錄他即將見到的所有奇妙事物。

深入森林后，Timmy發現了一條在陽光照耀下閃閃發光的神奇河流。河流的迷人景致讓他決定做一只小紙船，把它放在水面上，作為對森林精靈的一份特別的問候。

Timmy小心翼翼地折好紙船，并在上面畫了一個笑臉，寄托了他對森林精靈的喜愛和祝福。隨后，他輕輕地把紙船放在河流中，目送它隨水漂流而去。

夕陽西下，Timmy知道該回家了。他回想起在森林中度過的這一天，知道這段美好的記憶將永遠伴隨著他。

回到家，Timmy向家人講述了他的冒險，家人聽后都感到非常高興，并相信他未來定會經歷更多精彩的冒險。

于是，帶著滿心的愛與夢想，Timmy慢慢進入了夢鄉，期待在他的想象世界里探索新的冒險。

4. 看懂梗圖

下面這張梗圖，左邊是初創公司，右邊是大公司，講的是什么意思呢？

小編第一眼是沒看懂?？赐闓rok的解釋，才恍然大悟。

用戶：

我不是很理解這幅圖，請解釋一下。

Grok：

這幅圖幽默地展示了初創企業和大公司在工作方式上的差異。

在左側的「初創企業」里，一群人齊心協力挖掘一個深洞，每個人都在積極地參與。

而在右側的「大公司」里，只有一人在挖洞，其他人只是在旁邊看著。

這幅圖的幽默之處在于夸大了兩種組織形態的不同。

初創企業通常會讓每個人都直接參與到核心任務中，而大公司則可能因為其龐大的結構和官僚體制，使得團隊成員無法接觸到項目的每一個細節。

5. 將表格轉換為CSV

Grok可以將表格內容轉換成CSV格式。

用戶：

請將這個表轉換為CSV格式。

Grok：

圖像中的表格可以轉換成CSV格式，如下所示：

medal,name,sport,event,date

21 gold,El Amin Chentouf,Athletics,Men’s marathon – T13,11 September

31 gold,Mohamed Amguoun,Athletics,Men’s 400m – T13,15 September

41 gold,Azeddine Nouiri,Athletics,Men’s shot put – T34,15 September

52 silver,Mahdi Afri,Athletics,Men’s 400m – T12,9 September

62 silver,El Amin Chentouf,Athletics,Men’s 5000m – T13,15 September

73 bronze,Mahdi Afri,Athletics,Men’s 200m – T12,17 September

83 bronze,Mohamed Lahna,Paratriathlon,Men’s PT2,10 September

請注意，CSV格式不支持樣式或格式化，因此信息以純文本格式顯示。

6. 地板上的腐爛木頭，都能給出建議

地板上的木材腐爛了怎么辦？

照片拍給Grok，它可以幫我們判斷腐爛情況，還能給出合理的處理建議。

用戶：

我地板上的螺絲周圍出現了這些洞。是腐爛了嗎？我應該更換木板嗎？

Grok：

這些木板似乎已經開始腐爛。從螺絲周圍出現的孔洞可以看出，這是木材腐爛的典型跡象。

為了確保地板的安全并延長使用的壽命，建議你更換那些已經受損的木板。這樣做可以避免地板進一步的損害，并保持其結構的穩固。

如果你不知道如何更換木板，可以尋求專業地板建造商或承包商的幫助。他們會對損害的程度進行評估，并為你提供關于地板維護的專業建議。

7. 解決編碼問題

編碼問題，Grok-1.5V也是不在話下。

用戶：

你能寫出解決這個問題的Python代碼嗎？

Grok：

def find_triplets(nums):

result = []

nums.sort()

for i in range(len(nums) – 2):

if i > 0 and nums[i] == nums[i – 1]:

continue

target = -nums[i]

left = i + 1

right = len(nums) – 1

while left < right:

if nums[left] + nums[right] == target:

result.append([-target, nums[left], nums[right]])

left += 1

right -= 1

while left < right and nums[left] == nums[left – 1]:

left += 1

while left < right and nums[right] == nums[right + 1]:

right -= 1

elif nums[left] + nums[right] < target:

left += 1

else:

right -= 1

return result