OpenAI英偉達Hugging Face同期推出小模型，AI開卷新方向？

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

OpenAI英偉達Hugging Face同期推出小模型，AI開卷新方向？

遠山下

2024-07-25

0 評論 687 瀏覽 0 收藏

10 分鐘

隨著人工智能技術的飛速發展，小型化、高效能的AI模型正逐漸成為新的趨勢。HuggingFace、OpenAI、Mistral AI三家先鋒公司聯手英偉達推出小型語言模型（SLM），標志著人工智能行業的重大轉變。這些小模型以更低的價格和更高的效率為更廣泛的設備和應用程序帶來強大的語言處理能力。

過去一周，人工智能領域的三家先鋒公司HuggingFace、OpenAI、Mistral AI聯手英偉達相繼推出小型語言模型（SLM），新發布的三款小模型SmolLM、GPT-4omini和Mistral Nemo都有一個共同目標：以更低的價格，為更廣泛的設備和應用程序帶來強大的語言處理能力，預示著人工智能行業的重大轉變。

01 小模型什么樣？能做到什么？

小模型相比于大模型，價格更低、效率提升、更環保、可訪問性更高，但無法在所有任務中與大模型的原始功能相匹配。近期推出的三個小模型能力如何呢？分別來看看。

1. SmolLM：直接在移動設備上運行

Hugging Face的 SmolLM 可能是三者中最激進的。SmolLM 被設計用于直接在移動設備上運行，有三種大?。?.35 億、3.6 億和 17 億參數。該系列將 AI 處理推向邊緣，解決了數據隱私和延遲的關鍵問題。

SmolLM 的影響遠遠超出了單純的效率提升。通過將 AI 功能直接引入邊緣設備，它為新一代應用程序鋪平了道路，讓這些應用程序以最小的延遲和最大的隱私運行。這可能會從根本上改變移動計算的格局，以前由于連接問題或隱私限制而不能實現的復雜的AI驅動功能，因為SmolLM成為可能。

2. GPT-4omini：超高性價比的高能力小模型

OpenAI的GPT-4omini主打一個高性價比，被很多評論認為是市場上最具成本效益的小模型。

GPT-4o Mini 的輸入價格僅為每百萬token 15 美分，輸出價格為每百萬token 60 美分。GPT-4omini的定價比GPT-3.5 Turbo便宜60%以上，也比其它小模型更便宜，如谷歌的谷歌的Gemini 1.5 Flash（0.35美元/ 0.70美元）和Anthropic的Claude 3 Haiku（0.25美元/ 1.25美元），大大降低了AI集成的財務障礙。

不僅是節省成本，GPT-4o mini 非常聰明。它在數學、編碼和多模態推理方面優于其他小型模型。在 MMLU 基準測試（通用智能）上，它的得分為 82%，超過了 GPT-3.5 和一些更大的模型。

GPT-4omini小模型可以處理一個巨大的 128K 令牌上下文窗口并輸出 16k 令牌，開辟了大量新的可能性。像 Ramp 和 Superhuman 這樣的公司已經在實際任務中使用它取得了巨大成功。

此外，它是多模態的，就像它更大的兄弟 GPT-4o 一樣，支持文本和視覺輸入，還有更多內容即將推出。

安全也得到了照顧。OpenAI 已經融入了“指令層次結構”等新技術，以保持模型的安全性并抵御越獄。

但GPT-4omini無法在手機或游戲機等移動設備上運行，它必須像 OpenAI 的所有其他模型一樣在云中的服務器上運行。

3. Mistral-NeMo：瞄準大規模云模型和超緊湊移動 AI 之間的中間地帶

Nvidia 和 Mistral AI 合作推出Mistral NeMo，這是一個 120 億參數模型，具有令人印象深刻的 128,000 個token上下文窗口，意味著與窗口較小的模型相比，它可以讀取和處理更長的文本塊。

例如，具有小上下文窗口的模型，可能難以準確總結冗長的新聞文章，因為它一次只能處理幾個句子。然而，Mistral NeMo 可能會將整篇文章作為一個整體來理解，從而得出更連貫和準確的總結。

Mistral Nemo 在 Apache 2.0 許可下發布，以臺式計算機為目標，將自己定位為大規模云模型和超緊湊移動 AI 之間的中間地帶。

多語言能力同樣讓人印象深刻。Mistral NeMo 不僅限于一種語言;它在包含 100 多種語言的海量數據集上進行訓練，在英語、法語、德語、西班牙語、意大利語、葡萄牙語、中文、日語、韓語、阿拉伯語和印地語方面特別出色，能在語言之間進行翻譯、構建可以與世界各地用戶交談的聊天機器人，以及分析多種語言的文檔以提取全球見解。

例如跨國企業可以使用 Mistral NeMo 來分析來自不同國家/地區的客戶評論，即使這些評論是用不同的語言編寫的，以全面了解全球的客戶反饋。

此外，Mistral NeMo 使用一種名為 Tekken 的新分詞器，該分詞器專為速度和效率而設計。Mistral NeMo 使用 FP8 推理，FP8 是一種低精度數字格式，與傳統格式相比，它需要更少的內存和處理能力，這使得 Mistral NeMo 能夠在更廣泛的設備上運行得更快，單個英偉達L40S就能跑起來Mistral NeMo。