蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替,Siri華麗變身
蘋果公司終于揭開了其人工智能技術的神秘面紗,Apple Intelligence在iOS 18.1 Beta版中首次亮相,給開發(fā)者們帶來了一系列令人激動的新功能。Siri的華麗變身、文本生成功能的增強,以及蘋果自研大模型的出色表現(xiàn),都預示著人工智能在移動設備上的新紀元。
它來了它來了,蘋果的Apple Intelligence終于與果粉見面了!
隨著iOS 18.1 Beta版的上線,注冊開發(fā)者從即日起就能體驗到蘋果AI的部分功能。
最明顯的一處就是Siri的全面換新,變身成了Apple Intelligence & Siri。
另一項重磅更新就是寫作功能了,它可以幫忙潤色推特評論,三下五除二就能把高級表達方式安排起來。
甚至dirty words也能分分鐘變得儒雅隨和:
開啟Apple Intelligence后,蘋果自研的端側大模型就會被下載到設備當中。
根據(jù)手快的網(wǎng)友體驗反饋,不像其他家的AI那樣動不動就是拒絕服務。
與此同時,蘋果自家大模型的報告也已出爐,披露了大量技術細節(jié)。
報告顯示,在指令遵循、文本總結等任務上,蘋果云端大模型取得了超過GPT-4的成績。
蘋果基礎大模型團隊負責人龐若鳴(Ruoming Pang)也表示,其模型與一些同類最佳模型相比具有競爭力。
龐若鳴是普林斯頓計算機博士,本碩分別畢業(yè)于上海交大和南加州大學,于2021年加入蘋果,此前在谷歌擔任了15年的工程師。
Apple Intelligence的主要對話功能,正是由他率領的團隊研發(fā)的模型提供支持。
這次他還強調(diào),這些基礎模型“并不是聊天機器人”,而是支持廣泛的功能,包括摘要、寫作幫助、工具使用和代碼。
另外,蘋果也研發(fā)了許多自研算法,為提高模型表現(xiàn)提供了加持,具體信息也在報告中被披露。
還有細心的網(wǎng)友從中發(fā)現(xiàn)了華點——
蘋果大模型的訓練用的是谷歌TPU集群,英偉達含量竟然為零。
二、Siri升級,但ChatGPT暫未接入
要想體驗到蘋果的Apple Intelligence,需要滿足的條件有不少。
首先,搭載它的iOS 18.1 Beta版目前是99美金一年的注冊開發(fā)者限定,所以普通用戶還得等等。
還有就是之前說過的,只支持M系和A17 Pro芯片,也就是說iPhone中只有部分地區(qū)的15 Pro和15 Pro Max能用。
除了硬件和身份要求,系統(tǒng)設置也需要修改,要將地區(qū)設置為美國,且設備和Siri的語言都要改成英語。
滿足了所有這些要求之后,就可以……加入等待隊列了。
此次上線的Apple Intelligence是部分功能,主要圍繞文本生成、Siri和相冊這幾個模塊。
先說文本生成,作為蘋果AI的重要組成部分,該功能的視適用范圍不局限于蘋果官方應用。
只要使用標準輸入文本系統(tǒng),在第三方應用程序當中也能利用該功能進行文本總結、校對和重寫。
另外結合iOS 18 Beta的語音備忘錄中已經(jīng)上線的音頻轉(zhuǎn)錄功能,文本生成系統(tǒng)還可以為錄音生成摘要。
第二個比較重要的更新就是Siri了。
界面上,新版Siri不再是一個圓形圖標,在運行時會有環(huán)繞屏幕的彩色光不斷閃動。
而且還給不想語音對話的用戶提供了文本對話方式,雙擊屏幕底部即可調(diào)出鍵盤,與Siri打字交流。
內(nèi)容方面,新版Siri將能夠解答與蘋果產(chǎn)品相關的問題,幫助用戶進行故障排除。
另外,新的Siri還可以夠理解從一個查詢到下一個查詢的上下文,例如要求Siri創(chuàng)建日歷事件,然后請求創(chuàng)建提醒,而無需重述正在談論的內(nèi)容。
不過,之前介紹的屏幕感知功能,并未包含在此次Siri 的更新當中。
相冊的更新則讓用戶可以用自然語言搜索特定照片,甚至是視頻當中的具體時刻。
以上就是本次開發(fā)者測試版本中有關AI的大致內(nèi)容,需要指出的是,這只是之前發(fā)布會上所展示的功能中的一部分,還有很多沒有上線。
特別地,之前提到過的ChatGPT集成,此次更新也暫未接入。解密蘋果大模型
蘋果已經(jīng)說過,ChatGPT在蘋果AI中不是必選項,主要功能是由自家的大模型驅(qū)動。
而關于這個模型,蘋果也在上線的同時發(fā)布了全面的技術報告。
模型的名字簡單粗暴,就叫蘋果基礎模型(Apple Foundation Model,簡稱AFM),有端側(on-device)和云側(server)兩個版本。
端側模型的參數(shù)量在3B左右,云側則未具體透露,只說是比端側更大,二者都有32k的上下文窗口。
三、訓練過程英偉達含量為0
模型的訓練通過自家基于JAX的AXLearn框架進行,并采用了張量并行、流水并行等策略。
硬件則采用的是谷歌TPU,其中云側用了8192顆TPUv4芯片,端側用了2048顆TPUv5p芯片,總之英偉達含量為0。
數(shù)據(jù)則主要來源于通過Applebot爬取的網(wǎng)頁,以及有公共許可的代碼和數(shù)學數(shù)據(jù)集。
值得一提的是,蘋果選用的數(shù)據(jù)集中無一使用GPL,都是MIT、Apache、CC0這些開放程度更高的開源協(xié)議。
流程上,AFM的預訓練過程共分三個階段——核心訓練、繼續(xù)訓練和上下文延長。
在核心訓練階段中,云側版本的數(shù)據(jù)量有6.3T tokens,窗口長度為4096,端側版本則是在此基礎之上蒸餾得到。
繼續(xù)訓練時,低質(zhì)量數(shù)據(jù)的權重會被降低,并使用數(shù)學、代碼以及獲得授權的高質(zhì)量數(shù)據(jù),對模型能力進行提升。
該過程使用了1T tokens的數(shù)據(jù),窗口長度也從4096變成了8192。
到了下一階段,窗口長度被進一步擴充到32k,涉及長序列文本和合成數(shù)據(jù),總量為100B tokens。獨創(chuàng)強化學習新算法
AFM的后訓練則包括指導監(jiān)督微調(diào)(SFT)、人類反饋強化學習(RLHF)等工作。
其中SFT階段使用了合成數(shù)據(jù)與人類標注數(shù)據(jù),合成數(shù)據(jù)主要關于數(shù)學、工具使用和代碼。
而在RLHF階段,蘋果自創(chuàng)了iTeC和MDLOO兩種強化學習算法。
iTeC全稱Iterative Teaching Committee,可譯作“迭代教學委員會”,是一種用于強化學習后訓練的算法,旨在通過多輪迭代優(yōu)化模型的性能。
其核心思想是結合不同的偏好優(yōu)化算法,包括拒絕采樣、直接偏好優(yōu)化(DPO),使得模型能夠從多種優(yōu)化策略中受益,從而提高其對特定任務的適應性和性能。
在每次迭代中,iTeC會從最新的模型中選擇一組表現(xiàn)最好的模型,形成一個“模型委員會”。這些模型是經(jīng)過SFT、RS、DPO/IPO和RL等不同訓練方法得到的。
通過收集人類對模型響應的偏好反饋,iTeC不斷更新其獎勵模型,并用于訓練新的模型集合。
每收集一批人類偏好數(shù)據(jù)后,iTeC會刷新其獎勵模型,并訓練新的模型集合,以此循環(huán)進行多輪迭代,逐步提升模型性能。
MDLOO則是一種在線強化學習算法,特別設計用于優(yōu)化模型的響應質(zhì)量。
作為在線算法,它能在模型訓練過程中實時解碼響應,并應用RL算法來最大化獎勵。
也就是說,這種方法使得模型能夠在訓練過程中不斷學習和調(diào)整其策略,以生成更符合人類偏好的響應。
具體實現(xiàn)上,它結合了留一法(Leave-One-Out,LOO)優(yōu)勢估計器和鏡像下降策略優(yōu)化(MDPO),以實現(xiàn)更穩(wěn)定和有效的策略更新。端側混合精度量化
為了讓端側模型更高效運行,同時避免占用過多內(nèi)存資源,蘋果對AFM的端側版本進行了量化操作。
具體來說,蘋果采用了混合精度的量化方式,針對不同環(huán)節(jié)采用了不同的量化精度。
蘋果采用的方式被稱為“調(diào)色板”策略,在調(diào)色板量化中,權重不是每個單獨量化,而是將它們分組,并讓組內(nèi)的權重共享相同的量化常數(shù)。
對于投影權重,每16列/行共享相同的量化常數(shù),并且使用K-means算法進行4位量化。
針對嵌入層,由于是輸入和輸出共享的,采用了8位整數(shù)進行每通道量化,另外還有某些重要性相對較低的層被進一步壓縮到2位量化。
為了恢復量化后損失的性能,以保持模型的輸出質(zhì)量和準確性,蘋果還引入了準確性恢復適配器(Accuracy-Recovery Adapters)。
該適配器是小型的神經(jīng)網(wǎng)絡模塊,可以插入到預訓練模型的特定層中,在量化模型的基礎上進行訓練,通過微調(diào)來學習如何補償量化帶來的影響。部分任務超越GPT-4
應用了一系列優(yōu)化技術之后,也到了驗收模型表現(xiàn)的時候了。
在這過程中,蘋果采用了人類評估與自動化評估相結合的策略。
先說人工評估,評估人員設計了涵蓋分析推理、頭腦風暴、聊天機器人等方面的多類問題,并讓模型生成相應。
同時,問題也會被提給用于對比的其他模型,然后由評估人員評判哪個模型的輸出更好。
結果,無論是云側還是端側模型,都有至少60%的概率不輸給Llama 3、GPT-4等對比模型。
其余的測試主要利用數(shù)據(jù)集實現(xiàn)。
在指令遵循能力上,蘋果進行了IFEval測試,結果在指令和prompt兩個層次上,云側AFM都超過了GPT-4,成為了新的SOTA。
端側模型的表現(xiàn),也超過了Llama 3-8B、Mistral-7B等近似規(guī)模的模型。
在AlpacaEval當中,端側和云側AFM也都取得了第二名的成績。
再看具體任務上的表現(xiàn),AFM在寫作類Benchmark當中的總結任務上取得了SOTA,撰寫任務上也與第一名接近。
數(shù)學上,蘋果用GSM8K和MATH兩個數(shù)據(jù)集進行了評估。
結果端側模型在GSM8K上不敵Llama 3-8B和微軟的Phi 3 mini,云側被GPT-4和Llama 3-70B超越,但優(yōu)于GPT-3.5。
MATH上的成績相對高些,端側版領先了同規(guī)模模型,云側版也超越了Llama 3-70B。
性能之外,安全性也十分重要,蘋果通過人工方式對AFM抵御對抗性攻擊的能力進行了評估。
結果顯示,AFM在面對對抗性提示時,實現(xiàn)的違反率顯著低于其他開源和商業(yè)模型。
以上就是蘋果大模型技術報告中一些值得關注的內(nèi)容,更多詳情可參閱報告原文。One More Thing
雖然Apple Intelligence已經(jīng)提供給開發(fā)者進行測試,但彭博社爆料說,正式版可能會延遲上線。
的確,按照蘋果此前的版本發(fā)布規(guī)律,18.1的版本號也意味著,這些功能不會隨著9月的新機發(fā)布一同上線。
對此分析師Gene Munster建議,蘋果應該考慮推遲iPhone 16的發(fā)布日期,以與Apple Intelligence保持一致。
至于庫克會不會考慮這個建議,就拭目以待了。
報告地址:
https://machinelearning.apple.com/research/apple-intelligence-foundation-language-models
參考鏈接:
[1]https://x.com/reach_vb/status/1818014366555586611
[2]https://www.cnbc.com/2024/07/29/apple-releases-apple-intelligence-its-long-awaited-ai-features.html
[3]https://www.tomsguide.com/phones/iphones/ios-181-developer-beta-is-live-with-apple-intelligence-heres-all-the-new-iphone-ai-features
[4]https://www.businessinsider.com/apple-intelligence-delay-wont-hurt-new-iphone-sales-analysts-2024-7
克雷西 發(fā)自 凹非寺量子位
本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號:【量子位】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
可能還是和我想的不太一樣,畢竟它回你還是那一套算法,最后破防的也只有你人類