中文字幕av免费专区,国产呦系列久久精品

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

云原生是大模型“降本增效”的解藥嗎？

科技云報到

2024-02-20

0 評論 429 瀏覽 1 收藏

11 分鐘

云原生技術(shù)的自動化部署和管理、彈性伸縮等功能，可以很大程度上幫助大模型實現(xiàn)降本增效。那么，這個過程是如何實現(xiàn)的？有哪些挑戰(zhàn)還存在著？一起來看看本文的分享。

在過去一兩年里，以GPT和Diffusion model為代表的大語言模型和生成式AI，將人們對AI的期待推向了一個新高峰，并吸引了千行百業(yè)嘗試在業(yè)務(wù)中利用大模型。

國內(nèi)各家大廠在大模型領(lǐng)域展開了激烈的軍備競賽，如：文心大模型、通義千問、混元大模型、盤古大模型等等，這些超大規(guī)模的模型訓練參數(shù)都在千億以上，有的甚至超過萬億級。

即便訓練一次千億參數(shù)量模型的成本可能就高達數(shù)百萬美元，但大廠們依然拼盡全力，除此之外也有很多行業(yè)企業(yè)希望擁有自己的專屬大模型。

對于企業(yè)來說，要想在大模型的競爭中勝出，就必須充分利用算力，并且構(gòu)建高效穩(wěn)定的服務(wù)運行環(huán)境，這就對IT基礎(chǔ)設(shè)施能力提出了更高的要求。

而云原生正是比拼的重要一環(huán)。云原生技術(shù)的自動化部署和管理、彈性伸縮等功能，能夠有效提高大模型應(yīng)用效率并降低成本。

據(jù)Gartner預測，2023年70%的AI應(yīng)用會基于容器和Serverless技術(shù)開發(fā)。在實際生產(chǎn)中，越來越多的AI業(yè)務(wù)，比如自動駕駛、NLP等，也正在轉(zhuǎn)向容器化部署。

那么，云原生是如何幫助大模型降本增效，在這個過程中又遇到了哪些挑戰(zhàn)？

一、云原生成為大模型的標配

近年來，容器和Kubernetes已經(jīng)成為越來越多AI應(yīng)用首選的運行環(huán)境和平臺。

一方面，Kubernetes幫助用戶標準化異構(gòu)資源和運行時環(huán)境、簡化運維流程；另一方面，AI這種重度依賴GPU的場景可以利用K8s的彈性優(yōu)勢節(jié)省資源成本。

隨著大模型浪潮的到來，以云原生環(huán)境運行AI應(yīng)用正在變成一種事實標準。

1. 彈性伸縮與資源管理

大模型訓練往往需要大量的計算資源，而云原生環(huán)境通過容器化和編排工具可以實現(xiàn)資源的彈性調(diào)度與自動擴縮容。

這意味著在大模型訓練過程中可以迅速獲取所需資源，并在任務(wù)完成后釋放資源，降低閑置成本。

2. 分布式計算支持

云原生架構(gòu)天然支持分布式系統(tǒng)，大模型訓練過程中的并行計算需求可以通過云上的分布式集群輕松實現(xiàn)，從而加速模型收斂速度。

3. 微服務(wù)架構(gòu)與模塊化設(shè)計

大模型推理服務(wù)可以被分解為多個微服務(wù)，比如預處理服務(wù)、模型加載服務(wù)和后處理服務(wù)等，這些服務(wù)能夠在云原生環(huán)境中獨立部署、升級和擴展，提高系統(tǒng)的可維護性和迭代效率。

4. 持續(xù)集成/持續(xù)部署（CI/CD）

云原生理念強調(diào)快速迭代和自動化運維，借助CI/CD流程，大模型的研發(fā)團隊能夠以更高效的方式構(gòu)建、測試和部署模型版本，確保模型更新的敏捷性。

5. 存儲與數(shù)據(jù)處理

云原生提供了多種數(shù)據(jù)持久化和臨時存儲解決方案，有助于解決大模型所需的大量數(shù)據(jù)讀取和寫入問題。

同時，利用云上大數(shù)據(jù)處理和流式計算能力可以對大規(guī)模數(shù)據(jù)進行有效預處理和后處理。

6. 可觀測性和故障恢復

在云原生環(huán)境下，監(jiān)控、日志和追蹤功能完善，使得大模型服務(wù)的狀態(tài)更加透明，遇到問題時能更快地定位和修復，保證服務(wù)高可用性。

總體而言，云原生架構(gòu)的諸多優(yōu)勢契合了大模型在計算密集、數(shù)據(jù)驅(qū)動、迭代頻繁等方面的需求，能夠為大模型帶來成本、性能、效率等多方面的價值，因而成為大模型發(fā)展的標配。

二、大模型對云原生能力提出新挑戰(zhàn)

盡管云原生對于大模型有著天然的優(yōu)勢，但是面對LLM、AIGC這樣的新領(lǐng)域，依然對云原生能力提出了更多挑戰(zhàn)。

在訓練階段，大模型對計算、存儲、網(wǎng)絡(luò)等基礎(chǔ)架構(gòu)的要求都更高。

規(guī)模上，要訓練出具有廣泛知識和專業(yè)領(lǐng)域理解及推理能力的大語言模型，往往需要高達萬卡級別的GPU集群和PB級的數(shù)據(jù)存儲以及TB級的數(shù)據(jù)吞吐。

此外，高性能網(wǎng)絡(luò)也將達到單機800Gbps甚至3.2Tbps的RDMA互聯(lián)。

性能方面，隨著模型體積和參數(shù)量的增長，單張顯卡已無法承載完整的模型。因此需要使用多張顯卡進行分布式訓練，并采用各種混合并行策略進行加速。

這些策略包括數(shù)據(jù)并行、模型并行、流水線并行以及針對語言模型的序列并行等，以及各種復雜的組合策略。

在推理階段，大模型需要提供高效且穩(wěn)定的推理服務(wù)，這需要不斷優(yōu)化其性能，并確保服務(wù)質(zhì)量（QoS）得到保證。

在此基礎(chǔ)上，最重要的目標是提高資源效率和工程效率。一方面，持續(xù)提高資源利用效率，并通過彈性擴展資源規(guī)模，以應(yīng)對突發(fā)的計算需求。

另一方面，要最優(yōu)化算法人員的工作效率，提高模型迭代速度和質(zhì)量。

由此可見，大模型對云原生技術(shù)提出了新的能力要求：

一是，統(tǒng)一管理異構(gòu)資源，提升資源利用率。

從異構(gòu)資源管理的角度，對IaaS云服務(wù)或者IDC內(nèi)的各種異構(gòu)計算（如 CPU，GPU，NPU，VPU，F(xiàn)PGA，ASIC）、存儲（OSS，NAS， CPFS，HDFS）、網(wǎng)絡(luò)（TCP， RDMA）資源進行抽象，統(tǒng)一管理、運維和分配，通過彈性和軟硬協(xié)同優(yōu)化，持續(xù)提升資源利用率。

在運維過程中，需要多維度的異構(gòu)資源可觀測性，包括監(jiān)控、健康檢查、告警、自愈等自動化運維能力。

對于寶貴的計算資源，如GPU和NPU等加速器，需要通過各種調(diào)度、隔離和共享的方法，最大限度地提高其利用率。

在此過程中，還需要持續(xù)利用云資源的彈性特征，持續(xù)提高資源的交付和使用效率。

二是，通過統(tǒng)一工作流和調(diào)度，實現(xiàn) AI、大數(shù)據(jù)等多類復雜任務(wù)的高效管理。

對于大規(guī)模分布式AI任務(wù)，需要提供豐富的任務(wù)調(diào)度策略，如Gang scheduling、Capacity scheduling、Topology aware scheduling、優(yōu)先級隊列等，并使用工作流或數(shù)據(jù)流的方式串聯(lián)起整個任務(wù)流水線。

同時，需兼容Tensorflow，Pytorch，Horovod，ONNX，Spark，F(xiàn)link等各種計算引擎和運行時，統(tǒng)一運行各類異構(gòu)工作負載流程，統(tǒng)一管理作業(yè)生命周期，統(tǒng)一調(diào)度任務(wù)工作流，保證任務(wù)規(guī)模和性能。

一方面不斷提升運行任務(wù)的性價比，另一方面持續(xù)改善開發(fā)運維體驗和工程效率。

此外，在計算框架與算法層面適配資源彈性能力，提供彈性訓練和彈性推理服務(wù)，優(yōu)化任務(wù)整體運行成本。

除了計算任務(wù)優(yōu)化，還應(yīng)關(guān)注數(shù)據(jù)使用效率的優(yōu)化。為此，需要統(tǒng)一的數(shù)據(jù)集管理、模型管理和訪問性能優(yōu)化等功能，并通過標準API和開放式架構(gòu)使其易于被業(yè)務(wù)應(yīng)用程序集成。

對于大模型還有一個主要能力，就是能夠在分鐘級內(nèi)準備好開發(fā)環(huán)境和集群測試環(huán)境，幫助算法工程師開始執(zhí)行深度學習任務(wù)。

把端到端的 AI 生產(chǎn)過程通過相同的編程模型、運維方式進行交付。