【AI系統(tǒng)設(shè)計(jì)目標(biāo)】揭秘AI系統(tǒng)設(shè)計(jì)的未來藍(lán)圖

0 評論 226 瀏覽 0 收藏 9 分鐘

在人工智能的宏偉藍(lán)圖中,AI系統(tǒng)的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)強(qiáng)大、靈活且高效的框架,以支撐深度學(xué)習(xí)的復(fù)雜需求和挑戰(zhàn)。這不僅是技術(shù)的進(jìn)步,更是對未來智能世界的一次大膽設(shè)想。讓我們揭開AI系統(tǒng)設(shè)計(jì)目標(biāo)的神秘面紗,探索它們?nèi)绾嗡茉煳覀兊臄?shù)字未來。

深度學(xué)習(xí)系統(tǒng)的設(shè)計(jì)目標(biāo)可以總結(jié)為以下幾個(gè)部分。

一、高效編程語言、開發(fā)框架和工具鏈

設(shè)計(jì)更具表達(dá)能力和簡潔的神經(jīng)網(wǎng)絡(luò)計(jì)算原語以及高級編程語言。讓用戶能夠提升 AI 應(yīng)用程序的開發(fā)效率,屏蔽底層硬件計(jì)算的細(xì)節(jié),更靈活的原語支持。當(dāng)前神經(jīng)網(wǎng)絡(luò)模型除了特定領(lǐng)域模型的算子和流程可以復(fù)用(如大語言模型 Transformer 架構(gòu)在自然語言處理 NLP 領(lǐng)域被廣泛作為基礎(chǔ)結(jié)構(gòu)),其新結(jié)構(gòu)新算子的設(shè)計(jì)與開發(fā)仍遵循試錯(cuò)(Trial And Error)的方式進(jìn)行。那么如何靈活表達(dá)新的計(jì)算算子,算子間的組合以及融合形式,屏蔽經(jīng)典熟知的算子與基礎(chǔ)模型,是算法工程師所需要語言、庫與 AI 開發(fā)框架層所提供的功能支持。

更直觀的編輯、調(diào)試和實(shí)驗(yàn)工具。讓用戶可以完整的進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的開發(fā)、測試、調(diào)整診斷與修復(fù)和優(yōu)化程序,提升所開發(fā) AI 應(yīng)用程序的性能與魯棒性。訓(xùn)練過程不是一蹴而就,其中伴隨著損失函數(shù) LOSS 曲線不收斂、Loss 值出現(xiàn) NaN 無效值、內(nèi)存溢出等算法問題與算法設(shè)計(jì)缺陷(Bug)。AI 工具鏈與 AI 系統(tǒng)本身如何在設(shè)計(jì)之初就考慮到這點(diǎn),提供良好的可觀測性、可調(diào)試性、允許用戶注冊自定義擴(kuò)展等支持,是需要工具鏈與 AI 系統(tǒng)的設(shè)計(jì)者,所需要在 AI 系統(tǒng)的設(shè)計(jì)之初就需要提上日程的,否則之后更多是縫縫補(bǔ)補(bǔ)造成不好的開發(fā)體驗(yàn)與不能滿足的需求,對用戶來說就像使用一個(gè)黑盒且單片的工具。

支持 AI 生命周期中的各個(gè)環(huán)節(jié):數(shù)據(jù)處理、模型開發(fā)與訓(xùn)練、模型壓縮與推理、安全和隱私保護(hù)等。不僅能構(gòu)建 AI 模型,能夠支持全生命周期的 AI 程序開發(fā),并在 AI 系統(tǒng)內(nèi)對全生命周期進(jìn)行分析與優(yōu)化。當(dāng)前的 AI 工程化場景,已經(jīng)不是靈感一現(xiàn)和單一的優(yōu)化就能迅速取得領(lǐng)先優(yōu)勢,更多的是能否有完善的 AI 基礎(chǔ)設(shè)施,快速復(fù)現(xiàn)開源社區(qū)工作,批量驗(yàn)證新的想法進(jìn)行試錯(cuò),所以一套好的完善的全流程的生命周期管理能夠大幅度提升 AI 算法層面的生產(chǎn)力。

二、AI 任務(wù)系統(tǒng)級支持

除了對深度學(xué)習(xí)訓(xùn)練與推理的支持,還能支持強(qiáng)化學(xué)習(xí)、自動(dòng)化機(jī)器學(xué)習(xí)等新的訓(xùn)練范式。例如,需要不斷和環(huán)境或模擬器交互以獲取新數(shù)據(jù)的強(qiáng)化學(xué)習(xí)方式,批量大規(guī)模提交搜索空間的自動(dòng)化機(jī)器學(xué)習(xí)方式等,這些新的范式造成對之前單一支持單模型之外,在多模型層面,訓(xùn)練與推理任務(wù)層面產(chǎn)生了新的系統(tǒng)抽象與資源,作業(yè)管理需求。

提供更強(qiáng)大和可擴(kuò)展的計(jì)算能力

讓用戶的 AI 程序可擴(kuò)展并部署于可以并行計(jì)算的節(jié)點(diǎn)或者集群,應(yīng)對大數(shù)據(jù)和大模型的挑戰(zhàn)。因?yàn)楫?dāng)前 AI 模型不斷通過大模型,多模態(tài)大模型以產(chǎn)生更好的算法效果,促使 AI 系統(tǒng)需要支持更大的模型、更多模態(tài)的輸入。同時(shí)由于企業(yè) IT 基礎(chǔ)設(shè)施不斷完善,能夠不斷沉淀新的數(shù)據(jù),也會(huì)伴隨著大數(shù)據(jù)而衍生的問題。大模型與大數(shù)據(jù)促使存儲(chǔ)與計(jì)算層面的系統(tǒng),在摩爾定律失效的大背景下,迫切需要通過并行與分布式計(jì)算的方式,擴(kuò)展算力與存儲(chǔ)的支持。

自動(dòng)編譯優(yōu)化算法

1)對計(jì)算圖自動(dòng)推導(dǎo):盡可能的通過符號執(zhí)行或即時(shí)編譯 JIT 技術(shù),獲取更多的計(jì)算圖信息,讓 AI 開發(fā)框架或者 AI 編譯器自動(dòng)執(zhí)行定制化的計(jì)算優(yōu)化。

2)根據(jù)不同體系結(jié)構(gòu)自動(dòng)并行化:面對部署場景的多樣化體系結(jié)構(gòu),訓(xùn)練階段異構(gòu)硬件的趨勢,AI 開發(fā)框架讓用戶透明的進(jìn)行任務(wù)配置和并行化,以期以最為優(yōu)化的方式在 AI 集群配置下,并行化、減少 I/O、充分利用通信帶寬,逼近硬件提供的極限性能上限。

云原生自動(dòng)分布式化

自動(dòng)分布式并行擴(kuò)展到多個(gè)計(jì)算節(jié)點(diǎn),面對云與集群場景,自動(dòng)將 AI 任務(wù)擴(kuò)展與部署,進(jìn)而支撐分布式計(jì)算、彈性計(jì)算,讓用戶按需使用資源,也是云原生背景下,AI 系統(tǒng)所需要考慮和支持的。

3、探索并解決新挑戰(zhàn)下系統(tǒng)設(shè)計(jì)、實(shí)現(xiàn)和演化

在 AI 系統(tǒng)中會(huì)隨著 AI 算法的發(fā)展,出現(xiàn)了對動(dòng)態(tài)圖、動(dòng)態(tài) Shape 的支持需求,利用網(wǎng)絡(luò)模型結(jié)構(gòu)的稀疏性進(jìn)行壓縮加速優(yōu)化,為了提升訓(xùn)練指標(biāo) TTA 實(shí)現(xiàn)混合精度訓(xùn)練與部署,還有混合訓(xùn)練范式(如強(qiáng)化學(xué)習(xí))、多任務(wù)(如自動(dòng)化機(jī)器學(xué)習(xí))等特性支持。

提供在更大規(guī)模的企業(yè)級環(huán)境的部署需求。如云環(huán)境多租環(huán)境的訓(xùn)練部署需求:面對多組織,多研究員和工程師共享集群資源,以及大家迫切使用 GPU 資源的日益增長的需求,如何提供公平、穩(wěn)定、高效的多租環(huán)境也是平臺(tái)系統(tǒng)需要首先考慮的。

跨平臺(tái)的推理部署需求。面對割裂的邊緣側(cè)硬件與軟件棧,如何讓模型訓(xùn)練一次,跨平臺(tái)部署到不同軟硬件平臺(tái),也是推理場景需要解決的重要問題。

最后是安全與隱私的需求。由于網(wǎng)絡(luò)模型類似傳統(tǒng)程序的功能,接受輸入,處理后產(chǎn)生輸出,但是相比傳統(tǒng)程序,其解釋性差,造成更容易產(chǎn)生安全問題,容易被攻擊。同時(shí)模型本身的重要信息為權(quán)重,我們也要注意模型本身的隱私保護(hù)。同時(shí)如果是企業(yè)級環(huán)境或公有云環(huán)境,會(huì)有更高的安全和隱私保護(hù)要求。

了解完 AI 系統(tǒng)設(shè)計(jì)的宏觀目標(biāo),可以進(jìn)一步了解,當(dāng)前在人工智能的大生態(tài)環(huán)境中 AI 系統(tǒng)的技術(shù)棧是如何構(gòu)成的,整個(gè)技術(shù)棧中 AI 系統(tǒng)的各=處于哪個(gè)抽象層次,互相之間的關(guān)系是什么。

AI系統(tǒng)的設(shè)計(jì)目標(biāo)不僅是技術(shù)規(guī)格的集合,它們是通往智能時(shí)代的關(guān)鍵路徑。隨著這些目標(biāo)的實(shí)現(xiàn),我們將能夠解鎖新的創(chuàng)新潛力,提高生產(chǎn)效率,并保護(hù)我們的數(shù)據(jù)安全。這是一個(gè)充滿挑戰(zhàn)的旅程,但也是一次充滿希望的探險(xiǎn)。讓我們期待AI系統(tǒng)如何繼續(xù)推動(dòng)技術(shù)的邊界,為我們的世界帶來更加智能和互聯(lián)的未來。

本文由 @章魚AI小丸子 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!