雷軍:小米研發大模型的方向是輕量化和本地部署

0 評論 3051 瀏覽 4 收藏 16 分鐘

在之前的年度演講中,雷軍提到今年4月,小米正式組建AI大模型團隊。而且小愛同學正式升級生成式大模型,已經開始測試,小米高管最新表態很快會實現端側AI模型能力。這篇文章來自小米創始人雷軍公眾號的分享,詳細解釋了小米大模型的臺前幕后,希望能對大家了解小米大模型有所幫助。

在上周的年度演講上,我宣布了小米科技戰略升級:深耕底層技術、長期持續投入、軟硬深度融合,AI全面賦能,即(軟件×硬件)??。同時,也給大家介紹了小米的科技理念:選擇對人類文明有長期價值的技術領域,堅持長期持續投入。

AI是未來的生產力,也是小米決定長期持續投入的底層賽道之一。我們在很早就開始組建AI團隊,相關團隊成員已經超過3000人。這些年的持續投入,為我們的自動駕駛、機器人等業務都取得了非常優秀的成果。

今年,我們迎來了一次重大的技術革命——AI大模型技術,在4月份,我們組建了AI大模型團隊,并快速在小愛同學上落地應用。

我們做大模型的思路可能和很多公司不太一樣,我們選擇主力突破的是輕量化和本地部署。

為什么呢?

首先,大模型需要海量數據,所以很容易涉及到隱私問題,還需要巨大算力,用起來成本也很高。接著,我們是一家手機公司,怎么把自己的優勢利用起來?我們想的是,它能不能輕量化?能不能本地部署,在手機端就能用上大模型?

沿著這個思路,我們團隊進展非常順利,小米自研大模型在近日的權威中文評測榜單C-EVAL和CMMLU中,取得同參數量級第一的好成績;小米自研手機端側大模型初步跑通,部分場景效果媲美云端。真的特別特別厲害。

很多人還想了解小米大模型研發的更多信息,今天,就和大家好好聊聊。

一、解碼大模型

ChatGPT出現以來,大模型優異的理解能力和生成能力令人驚艷,關于其用途的探索也越來越多。目前看來,很多傳統的自然語言處理任務都可以用它來完成,比如搜索、翻譯、問答、摘要、信息抽取和分類以及寫作等。在日常生活中,所有基于對話的服務,如客服、教育、咨詢、導游等,以ChatGPT為代表的大模型都有一定的用武之地。

大模型指參數數量巨大、層次結構復雜的機器學習模型。這些模型通常具有十億到千億甚至萬億個參數,通過大量的數據進行訓練,提供更高的理解和生成能力。

在我們看來,大模型不僅是指模型參數多、尺寸大,更重要的是代表了一種新的訓練范式。我們將其總結為:大數據、大任務、大參數。

  • 大數據:指需要用海量的數據去訓練,讓模型從中自動挖掘出所需的信息。通常采用自監督或者無監督學習方式,無需人工標注就可以提煉規律、學習知識,從而提升模型的眼界。
  • 大任務:指學習的目標足夠復雜、覆蓋面廣。這樣才能“強迫”模型按照模塊化、高類聚、低耦合的方式組織知識點,實現舉一反三的泛化能力。
  • 大參數:指模型的知識容量。大模型的參數規模越大,模型的表達能力和學習能力也就越強。

在這個范式中,我們認為大數據和大任務是不可或缺的。如果沒有大數據,模型不可能學到豐富的常識;如果沒有大任務,知識點和技能點不可能在模型中有機高效地組織起來。

二、布局人工智能,全力突破大模型

1. 以AI為基石,沉淀技術積累

我們基于未來的思考與理解,選擇對人類文明有長期價值的戰略方向,并堅持長期持續的投入。我們已經布局了12個技術領域,99個細分賽道,未來五年(2022-2026)至少投入1000億以上的研發經費!

AI是未來的生產力,也是小米長期持續投入的底層賽道。小米很早就對人工智能進行布局,2016年小米AI實驗室成立,并組建了第一支視覺AI團隊,今年4月成立專職大模型團隊,歷經7年6次擴展,小米人工智能團隊已經有3000多人,逐步建立了視覺、語音、聲學、知識圖譜、NLP、機器學習、多模態等AI技術能力。

成為浪潮之上的角逐者,必須有對技術的沉淀和積累。作為小米AI技術的“試驗田”和“彈藥庫”,小米AI實驗室會研發中長期的前沿技術,圍繞小米業務做儲備,在集團需要的時候輸出“彈藥”。小米對AI的深刻認識與掌握的技術能力,也有效地賦能了手機、機器人等各個業務板塊。

大模型是未來科技的發展趨勢,更是下一個人工智能的高地。2021年開始,小米就對大模型的方向特別關注,并開展了對話大模型的預研工作。在閑聊對話場景下,依托于月活超過1.15億的智能語音助理小愛同學,小米研發了參數規模為28億的對話模型,達到了當時同等參數規模下業界的較高水平。這為小米積累了多卡分布式訓練的經驗,為后續開展大規模語言模型訓練奠定了基礎。

2. 小米大模型:輕量化、本地部署

小米擁有品類眾多的設備,是全球規模領先的消費級物聯網平臺。設備多樣,使用場景也各不相同,一個大模型難以兼顧。如果把一部分大模型能力下放到端側,不僅能更好地保護用戶隱私、而且有機會在本地實現千人千面的個性化定制。

軟硬結合,生態連結,這是大模型技術與小米生態結合的最優方案,讓用戶既可以擁有數據安全,又可以擁有大模型的先進生產力。因此,“輕量化、本地部署”是小米大模型技術的主力突破方向。

目前,我們自研的13億參數的端側模型已經在手機端跑通,部分場景效果媲美60億模型在云端的運算結果。與早些時候市場上放出的手機端大模型的方案相比,小米會調整模型結構和參數大小,適配各種芯片在內存和算力上的特點,致力于達到功耗、推理速度和生成效果的最佳平衡。

三、布局人工智能,全力突破大模型

1. 自有數據更懂小米

數據上,我們自己挖掘整理的訓練數據占比達到了80%,其中小米自有的產品和業務數據量達到3TB。因此我們的大模型最懂小米的產品,最懂小米的業務。

2. 效率和效果的最佳平衡

結構上,我們根據對Transformer結構的理解,融合了自身的實踐經驗進行改良;并且充分考慮設備端芯片的特色要求,合理設置模型的寬度和深度,致力于達到效率和效果的最佳均衡。

3. 更多策略更少浪費

訓練策略上,采用小米提出的ScaledAdam優化器和Eden學習率調度器,顯著提升收斂速度的同時減少了優化器中顯存的浪費。由于模型的知識容量有限,需要更精巧地安排訓練數據的順序,使得模型盡可能多地掌握知識點和技能,減少參數的浪費,以此實現“輕量化”。

4. 為用戶隱私安全保駕護航

模型部署到端側后,信息不用上傳到云端,所有計算都在本地進行,可以從根本上保證用戶隱私不被泄露。即使在端云結合的服務框架下,隱私信息會存儲在端側,涉及它們的計算也盡可能在端側完成。即使偶爾需要使用云端的能力,信息也會經過處理和加密。

四、仰望技術星空,腳踏體驗實地

截至2023年8月10日,小米自研的大規模預訓練語言模型MiLM-6B,參數規模為64億,在權威中文評測榜單C-EVAL和CMMLU中位列同等參數規模大模型第一。

在C-Eval評估中,MiLM-6B 的平均分為60.2,總榜單排名第10、同參數量級排名第1。

“C-Eval”是由上海交通大學、清華大學、愛丁堡大學共同構建的一個針對基礎模型的綜合中文評估套件。它由 13948 道多項選擇題組成,涵蓋 52 個不同學科和四個難度級別,覆蓋人文、社科、理工,及其他專業四個大方向,用以幫助中文社區研發大模型。

在CMMLU評估中,MiLM-6B在Five-shot和Zero-shot 測試中的平均分分別為57.17和60.37,均位列中文向模型第1。

“CMMLU”是一個綜合性的中文大模型評估基準,涵蓋了從基礎學科到高級專業水平的67個主題,涉及自然科學、社會科學、人文、以及常識等,專門用于評估語言模型在中文語境下的知識和推理能力。

通過打榜,驗證了我們對特定垂域進行定向增強的技術能夠達到怎樣的效果,這也是用輕量化模型進行業務定制的必備能力。雖然小米大模型取得了優異的成績,但我們不會把榜單排名與用戶體驗畫上等號。好成績的背后,更重要的還是打磨技術、沉淀方法論,將它們運用到產品,提升用戶體驗才是我們的終極目標。

科技應著眼于解決問題,以需求與應用為落點。小米大模型采用“輕量化、本地部署”的方案,能夠更好地解決多場景、個性化的用戶需求。一方面,大模型本地運行無需擔心“弱網、無網”情況,且響應速度快,使用穩定;另一方面,在提供更加個性化服務的同時,也能夠更好地保護用戶隱私,讓技術真正改善用戶體驗,讓成績真正落地有效。

五、始終堅持小米愿景,始終堅持技術為本鐵律

小米作為一家科技公司,將始終堅持我們的愿景、價值觀:讓所有人都能享受科技帶來的美好生活,同時始終堅持技術為本的鐵律,持續加大研發投入。2023年,小米研發投入預計會超過200億。

此外,截至目前,我們的全球專利數已超過32000+件。質量也非常高,在《全球5G標準必要專利及標準提案研究報告(2023)》中,首次進入全球前十,可以說,在榜的企業,小米是最年輕的,速度最快的!

小米還很年輕,但是在技術投入與技術積累上,已經走在前列,取得了巨大的進展。時代在不斷變化,小米也在不斷成長,這一次小米科技戰略升級,代表著我們不僅要對現在的生活有貢獻,也要對人類未來的生活進步發展有貢獻,構建我們的核心競爭力,成為一家真正偉大的科技公司。

未來,小米將擴大模型規模,不斷探索端云結合、多模態融合的大模型解決方案,與小愛同學、MIUI、IoT、機器人、汽車等業務結合,提升小愛同學的理解能力與智能家居指令的識別能力等,給予用戶更加個性化的智能體驗,按照我們的思路,走出不一樣的道路。

謝謝所有用戶的支持!

作者:雷軍,微信公眾號:雷軍

本文轉載于@雷軍 公眾號

題圖來自Pixabay,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!