国产一区二区三区小说,亚洲精品乱码久久久久久蜜桃

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

OpenAI發布新模型GPT-4o：對所有人免費、更易用、更強

知危

2024-05-14

0 評論 667 瀏覽 1 收藏

11 分鐘

今天凌晨，OpenAI發布會召開，其中最重磅、最核心的是GPT-4o 這個新模型。具體能力如何？一起來看看吧。

今天凌晨 1 點（太平洋時間 5 月 13 日上午 10 點），OpenAI 的 CTO Mira Murati 在三十分鐘不到的時間里，用一場短的春季發布會，給了大伙們秀了一波 OpenAI 的新肌肉。

說實話，看得還有點讓人意猶未盡，因為這 AI ，好像成精了。

這場發布會主要有四個部分，分別是桌面端 App 的更新、 WebUI 的更新、GPT-4o 模型的發布、實時 AI 助手的功能演示。

而其中最重磅、最核心的，無疑就是 GPT-4o 這個新模型。

根據 Mira Murati 的說法，OpenAI 的愿景是 AI 的便利能福澤所有人類，所以新的 GPT-4o 模型會向大伙們免費開放使用，付費用戶呢，則在使用次數上比免費用戶多 5 倍。（官方指出，當使用次數達到上限時，免費用戶會被強制退回到 GPT-3.5 版本。這應該是出于成本考量。）

而相比于上一代的 GPT-4 Turbo，GPT-4o API 的速度快了 2 倍、費用便宜了 50%、速率限制上，也比前者高了 5 倍。

當然，如果只是這些性能上的“ 略微提升 ”，那就對不起 OpenAI 在 AI 領域話事人的地位了。

實際上，根據 OpenAI 官網的介紹，GPT-4o 中的 “ o ” ，代表的是 “ omni ”，也就是 “ 全能 ” 的意思。它成功地把文本、視覺、音頻全部打通了，這意味著 GPT-4o 可以接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像的任意組合輸出。

這對多模態大模型來說，是一個重大改變。

拿此前 ChatGPT 的語音模式為例，它要用到三個獨立模型組成的管道，一個模型負責將音頻轉錄為文本，第二個模型是 GPT-4 ，它負責接收文本并輸出文本，第三個模型則將該文本轉換回音頻。

這個過程意味最中間的主角 GPT-4 收到的信息其實是二手的 —— 它無法直接觀察音調、多個說話者或背景噪音，也無法輸出笑聲、歌唱或表達情感等等。

而在最新的 GPT-4o 模型中，所有輸入和輸出，都由同一神經網絡處理，也就是說，新的 GPT-4o 是一個原生的多模態模型，而非之前的組合模型，它解決了上述的所有缺點。

總之，在各型數據，特別是視覺和音頻理解上，GPT-4o 相比于市面上的其他大模型，又來了一波遙遙領先。

在發布會上，他們也簡單演示了一下基于 GPT-4o 的最新 AI 助手，只能說是相當震撼。

一個是 AI 助手建議 OpenAI 的工作人員別緊張，演講前可以做個深呼吸。OpenAI 的員工則故意呼吸得很大聲，讓 AI 助手對其深呼吸做出評價，AI 助手直接損了他一句 “ 你不是吸塵器 ”。。。

很明顯，新模型能聽出發言人呼吸聲的輕重，并且會富有情感的適時開玩笑。

另外，工作人員一邊要求 AI 助手講個故事，一邊不斷要求 AI 變化音色、語調、情感等等。AI 則像《喜劇之王》中的周星馳一樣，完美應對 “ 導演 ” 的每個需求。

同樣，AI 助手的視覺能力，也在演示現場驚艷了不少人。無論在是現場通過視頻，一步步指導工作人員解方程，還是通過攝像頭，觀察人的表情猜其心情，AI 助手幾乎都完美勝任。

在發布會中，他們還展示了 AI 助手的實時翻譯功能，在演示中 AI 意大利語和英文完美切換，基本感受不到任何時延。

知危編輯部上傳了發布會的完整視頻，搭配了機翻字幕，各位可以看看視頻演示效果，在驚艷的效果面前，我們的文字形容是十分蒼白的，請從視頻第 9:15 分開始觀看演示。（時間倉促，機翻字幕沒有進行精校，導致英文字母有部分位置重疊、有一段意大利語機器識別為亂碼，但基本不影響對視頻的理解，給您帶來的體驗不夠完美，抱歉）

知危編輯部認為本次發布會的另外一大亮點，則是基于 GPT-4o 的桌面端 App，在發布會的現場演示中，用戶使用 ChatGPT 時，不再需要面對這文本對話框做輸入。

你可以給 OpenAI 的桌面 App 分享屏幕，讓 AI 直接線上幫你解釋代碼、分析圖表，并且能通過語音與你實時溝通。只能說老羅的 TNT 生不逢時，在當時確實缺少了大模型的賦能。

不過，知危編輯部覺得最可怕的是，按照 OpenAI 官網的說法：他們只是淺嘗輒止地探索了一番，做了些演示，連他們自己也沒完全搞清楚這個模型具體能做什么樣的事兒、上限在哪里。

例如簡單生成圖片，還有圖片的風格化，GPT-4o 似乎完全不在話下。

你也可以通過詳細的描述，讓 AI 做出相應的設計圖片。

通過幾個簡單描述和輸入，就輸出 3D 圖形，GPT-4o 似乎也能勝任。

甚至，它還能直接按照要求，輸出相應的聲音。

以下是生成的聲音，可以點擊播放↓按照 OpenAI 的說法，GPT-4o 的文本和圖像功能，今天開始就會在 ChatGPT 中推出，并給出了入口鏈接。而音頻功能，則需要經過幾周乃至幾個月的安全評估，才會正式開放。

不過，截至發稿前，知危編輯部所有擁有的 ChatGPT 賬號中，通過官方入口進入后依舊只有 GPT-3.5 和 GPT-4 兩個選項，不知是否是后臺還沒將功能上線完畢，所以我們暫未能給您帶來實測體驗。

各位可以稍安勿躁，或許過幾個小時，GPT-4o 就會上線完畢，我們就可以進一步體驗了。到這里，我們對 GPT-4o 的快速介紹已經完畢，相對于 “ 免費 ” 和 “ 更強 ”，我們認為這次更新最重要的是 “ 易用 ” 性。

我們認為，最好用的工具，應該讓你并不會感覺到它的存在。過去，手機和電腦固然大大的提高了我們工作生活的效率，但它們依然有一定的門檻，依然需要你想辦法去 “ 高效的輸入 ”。而這次，GPT-4o 真正的讓人與機器的交流變得絲滑，用語音和視頻這種最原始、簡單的方式，使你你能獲得你想要的信息、做成你想要完成的事。

或許，我們可以把這稱之為 “ 大模型的 OS 化 ”，忘掉 Windows、MacOS、iOS 或是 Android 吧，在未來，我們可能將不會接觸操作系統，我們唯一需要的，就是對一臺機器說話。

最后，我們放一個 GPT-4o 通過視頻給兩個玩石頭剪子布的工作人員當裁判的視頻，看了之后，你就明白什么是 “ Only OpenAI Can Do ” 了

本文由人人都是產品經理作者【汪仔2083】，微信公眾號：【知?！?，原創/授權發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協議。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App