一本色道无码道dvd在线观看,99久久精品国产成人综合,欧美人妻AⅤ中文字幕

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

GPT-4o首發體驗：迄今為止最像「人」的AI終于出現了！

雷科技

2024-05-17

0 評論 2184 瀏覽 2 收藏

12 分鐘

GPT-4o發布之后，許多人都不禁開始上手體驗，在這篇文章里，作者就分享了自己的體驗和感受，并做了一定的分析和點評，一起來看。

趕在 Google I/O 大會之前，5 月 14 日凌晨，OpenAI 發布了一個新模型——GPT-4o。

對，不是搜索，不是 GPT-5，而是 GPT-4 系列的一款全新多模態大模型。按照 OpenAI CTO 米拉·穆拉蒂（Muri Murati）的說法，GPT-4o——「o」代表了 omni（意為「全能的」）——能夠接受文本、音頻和圖像任意組合的輸入與輸出。

而新的 GPT-4o 模型響應更快、處理更快、效率更高，也讓人機交互在一定程度上發生了質的變化。

事實上，在不到 30 分鐘的發布會中，最為人津津樂道的不是 GPT-4o 這個模型自身，而是在 GPT-4o 的支撐下，ChatGPT 的交互體驗。不僅是人機語音對話體驗更接近人與人之間的實時對話，視覺識別能力的進步也讓 AI 更能基于現實世界進行語音交互。

簡而言之就是更自然的人機交互。這很容易讓人想起《她（Her）》中的 AI 虛擬助手，包括 OpenAI CEO 山姆·奧爾特曼（Sam Altman）：

圖/ X

但對很多人來說，更重要的可能是免費用戶也能使用 GPT-4o（不包括新的語音模式），官方說將在接下來幾周正式推出。當然，ChatGPT Plus 付費用戶顯然還是有「特權」的，從今天開始就可以提前試用 GPT-4o 模型。

圖/ ChatGPT

不過 OpenAI 演示中的桌面應用還未上線，ChatGPT 移動端 APP（包括 Android 與 iOS）也還沒更新到發布會演示的版本?？傊?，ChatGPT Plus 用戶暫時還體驗不到的 ChatGPT（GPT-4o）新的語音模式。

圖/ X

所以在某種程度上，目前 ChatGPT Plus 用戶享受到的 GPT-4o 基本是未來幾周 ChatGPT 免費版用戶的體驗。

但 GPT-4o 的實際表現如何？值不值得免費版用戶重新開始使用 ChatGPT？說到底還是需要實際的上手體驗。同時，通過目前基于文本和圖像的對話，我們或許也能窺見新 ChatGPT（GPT-4o）的能力。

一、從一張圖片中看出《原神》，GPT-4o 更懂圖像了

GPT-4o 模型的所有升級，其實都可以總結為原生多模態能力的全面提升，不僅是文本、音頻和圖像任意組合的輸入、輸出，同時各自的理解能力也有明顯的進步。

尤其是圖像理解。

在這張圖片中，有被部分遮擋的書本，還有一臺正在運行游戲的手機，GPT-4o 不僅能準確識別書本上文字，根據知識庫或者聯網正確地識別出完整的書名，最讓人驚艷的是能直接看出手機正在運行的游戲——《原神》。

圖/ ChatGPT

坦白講，熟悉《原神》這款游戲的玩家大概都能一眼看出本體，但僅憑這張圖片，很多沒玩過游戲、不了解游戲角色的人基本都認不出《原神》。

當小雷詢問 ta 怎么看出是《原神》時，GPT-4o 的回答也符合邏輯：無非就是畫面內容、游戲界面以及視覺風格。

圖/ ChatGPT

但同樣的圖片和問題，但我詢問通義千問（阿里旗下）和 GPT-4，它們給出回答卻很難令人滿意。

類似的，在看了馬斯克剛發的梗圖之后，GPT-4o 也能較為準確地理解其中的笑點和諷刺之處。

圖/ ChatGPT

而在移動端 ChatGPT APP 上，通過一張非常局部的拍攝照片，GPT-4o 對場景的描述也算準確，并且也大致推理住宅區或者辦公樓等范圍。

圖/ ChatGPT

以上這些例子，其實都能在一定程度上說明 GPT-4o 在圖像理解方面的進步。需要一提的是，根據 OpenAI 新的政策，幾周后免費版 ChatGPT 用戶也支持直接拍照或者上傳圖片給 GPT-4o。

此外，免費版用戶在使用 GPT-4o 時，還能使用通過上傳文件幫助總結、撰寫和分析。不過從文件個數和大小上，ChatGPT 可能還是不如 Kimi 或者其他國內 AI 聊天機器人大膽，限制明顯。

當然優點還是有，畢竟 GPT-4o 有著 GPT-4 的頂級「智能」。

二、新模式還沒來，但語音體驗已經上了一個臺階

但比起圖像理解能力，在小雷看來，這次 GPT-4o 最重要的能力升級還得是語音。

雖然新的語音模式還沒實裝，很多演示中的體驗都沒辦法感受，但打開現有的語音模式聊幾句，就能發現 GPT-4o 的語音體驗已經有明顯的升級。

其一，不僅音色音調非常接近正常人的聲音，更關鍵的是 AI 也能熟練掌握各種語氣詞，比如「嗯」「啊」等，對話中也會有一定的抑揚頓挫。與此相對的，能明顯感受到，GPT-4o 下語音模式的回應更接近普遍意義上的「有感情」。

相比 Siri 等語音助手理所當然有大幅的進步，甚至比起目前一堆的生成式 AI 語音聊天，GPT-4o 下語音也顯得更加保真和自然。

其二，過去在語音模式的對話中，說完話往往需要較長的時間才能讓 ChatGPT 意識到我說完了，然后開始上傳、處理和輸出回答，以至于很多時候我會選擇手動控制。但在 GPT-4o 下，ChatGPT 能夠更靈敏地意識到我說完了并開始處理，基本就少了很多手動干涉。

目前還是舊的語音模式和界面，圖/ ChatGPT

不過缺點也有，有些小雷估計正式推出時也很難有明顯的改善，比如一直在討論的「幻覺」問題，并沒有感受到明顯的改善；但有些可能將在推出發生質的改變，比如對話的延遲。

從目前版本的體驗來看，就算在聊天模式下網絡連接一切正常，語音模式一開始連接就會花費不短的時間，甚至是連接失敗。但即使連接上了，對話延遲還是很高，經常是我說完了要等待數秒才能等到語音回應。

實際上，舊的語音模式其實是先將用戶的語音通過 OpenAI 的 Whisper 模型轉錄成文本，再通過 GPT-3.5/GPT-4 進行處理和輸出，最后再通過文本轉語音模型將文本轉錄為語音。這么一通下來，也就不難理解之前 ChatGPT 語音回答之慢、語音交互體驗之差的的原因了。

同時，這也是新的語音模式讓人期待的核心原因。按照 OpenAI 的說法，GPT-4o 則是跨文本、視覺和音頻端到端訓練的新模型，在新的語音模式下所有輸入和輸出都由同一個神經網絡處理。甚至不只是文本和語音，新的語音模式還能基于手機攝像頭的實時畫面進行對話。

新的語音模式和界面，圖/ OpenAI

簡單來說，原來 ChatGPT 回應你的語音必須要依序經過三個「腦」（模型）的處理和輸出。而在即將到來的新模式下，ChatGPT 只要經過一個同時支持文本、語音乃至圖像的「大腦」（模型），效率提升也就自然可以想象了。

至于到底能不能實現 OpenAI 演示中的超低延遲回應，還是要等未來幾周新模式的實裝，屆時小雷也會在第一時間進行體驗。

寫在最后

誠然，在 GPT-4 發布以來的一年里，全球大模型還在瘋狂涌現和迭代，與 GPT-4 之間的差距也在不斷拉小，甚至一度超越（Claude 3 Opus）。但從權威基準測試、對戰 PK 排行榜以及大量用戶的反饋來看，GPT-4 依然是全球最頂級的大模型之一。

更重要的是，技術塑造能力，產品塑造體驗。GPT-4o 再次證明了 OpenAI 依然在技術和產品上的絕對實力，而 GPT-4o 對于語音交互體驗的迭代，恐怕還會再次消滅一批 AI 語聊、AI 語音助手方向的創業公司。

但另一方面，我們也再次看到了人機語音交互發生質變的希望。

編輯：冬日果醬；來源：雷科技AI硬件組

來源公眾號：雷科技（ID：leitech），聚焦科技與生活。

本文由人人都是產品經理合作媒體 @雷科技授權發布。未經許可，禁止轉載。

題圖來自Unsplash，基于CC0協議

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

雷科技

專注AI硬科技

147篇作品 607751總閱讀量

JTBD在產品體驗設計中的應用

09-145287 瀏覽

經驗丨競品分析的5大維度解析

07-1714118 瀏覽

DeepMind的新研究：人類最后的自留地失守了？

12-122529 瀏覽

大廠開始“去高P”

07-144020 瀏覽

廣告歸因：用戶究竟是從哪兒來的？

10-275410 瀏覽

評論

目前還沒評論，等你發揮！

GPT-4o首發體驗：迄今為止最像「人」的AI終于出現了！

一、從一張圖片中看出《原神》，GPT-4o 更懂圖像了

二、新模式還沒來，但語音體驗已經上了一個臺階

寫在最后

GPT-4o首發體驗：迄今為止最像「人」的AI終于出現了！

一、從一張圖片中看出《原神》，GPT-4o 更懂圖像了

二、新模式還沒來，但語音體驗已經上了一個臺階