企業(yè)如何搭建并使用人工智能?

1 評論 2771 瀏覽 11 收藏 15 分鐘

AI人工智能技術(shù)的發(fā)展吸引了許多人涌入,相關(guān)技術(shù)的進(jìn)步也為企業(yè)的發(fā)展帶來了許多新的機遇。那么如果企業(yè)想搭建人工智能技術(shù)、培育模型,可以怎么操作?本篇文章里,作者對企業(yè)如何搭建并使用人工智能一事進(jìn)行了解讀,一起來看。

前言

人工智能無疑是繼Web3、元宇宙之后最火的方向,吸引了大量資本的涌入。盡管許多人對于人工智能是否會取代人類感到擔(dān)憂,但是了解之后,我們會發(fā)現(xiàn)每一次科技創(chuàng)新和工業(yè)革命都會帶來新的職業(yè)機會。人工智能的出現(xiàn)雖然會取代部分重復(fù)性勞動,但同時也會釋放更多的思考空間,提高執(zhí)行效率和思考能力。然而,它永遠(yuǎn)無法完全取代人類!

一、為什么企業(yè)需要人工智能

在企業(yè)中引入人工智能技術(shù),可以有效提升員工內(nèi)部的運作效率。通過自動化流程性質(zhì)的內(nèi)容,人工智能能夠更加高效地完成任務(wù)。此外,人工智能還可以通過不斷的自我迭代,產(chǎn)生更加客觀的結(jié)論,幫助企業(yè)避免走彎路,減少在關(guān)鍵決策上的資源和精力浪費。

除了解決人工效率問題,同時也能夠提升制造業(yè)的生產(chǎn)流程,包括節(jié)約生產(chǎn)過程中的資源,從而達(dá)到了降本增效。例如:亞馬遜正在使用 AI 來改善個性化推薦并優(yōu)化庫存管理。在亞馬遜向股東提交的年度股東信中,CEO Jeff Bezos 討論了通過其云計算部門采用 AI 快速交付產(chǎn)品,增強現(xiàn)有產(chǎn)品和創(chuàng)建新工具的重要性。

1. AI提升工作效率

舉一個現(xiàn)實中的例子:

在互聯(lián)網(wǎng)公司中,每周都會舉行周例會,會議的進(jìn)行中將本周的數(shù)據(jù)進(jìn)行統(tǒng)計和分析,以觀察是否存在異常和數(shù)據(jù)波動。如果將這項工作交給AI執(zhí)行,只需一句命令,就能得出異常原因和異常數(shù)據(jù),從而大大減少每次拉取數(shù)據(jù)的痛苦。這樣釋放出的時間和精力可以全身心地投入到解決問題上,而不是懷疑數(shù)據(jù)的真實性,或者針對數(shù)據(jù)做無休止的爭論。

在上述的例子中,我們可以觀察到AI能力的一部分,即替代重復(fù)性的勞動力。然而,要實現(xiàn)數(shù)據(jù)分析以及針對特定行業(yè)的分析,需要數(shù)據(jù)分析師與AI進(jìn)行有效的溝通和引導(dǎo),以得出科學(xué)且客觀的結(jié)論。因此,企業(yè)引入的AI不僅需要具備能力,還需要是一個行業(yè)專屬模型。

2. AI提升業(yè)務(wù)能力

人工智能不僅能夠解決重復(fù)性的勞動,還能根據(jù)以往的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,提前預(yù)測企業(yè)未來可能面臨的問題。這個過程所輸出的內(nèi)容可以幫助企業(yè)內(nèi)部員工提升能力,從而提高企業(yè)整體業(yè)務(wù)能力。這樣的結(jié)果可以幫助企業(yè)在行業(yè)內(nèi)快速成長。

人工智能在這個過程就像每個員工的專屬助理一樣,通過業(yè)務(wù)數(shù)據(jù)的分析,給出客觀的預(yù)判,根據(jù)行業(yè)的發(fā)展?fàn)顩r,結(jié)合公司內(nèi)部的數(shù)據(jù),給出未來1到5年的規(guī)劃,AI都可以完美的駕馭。但是依然是需要企業(yè)內(nèi)部要有個專屬模型。

3. 企業(yè)需要專屬模型

我多次提到了“行業(yè)專屬模型”,而這個模型就是目前所有業(yè)內(nèi)人士最關(guān)心的內(nèi)容,有學(xué)者稱之為“大規(guī)模預(yù)訓(xùn)練模型”(large pretrained language model)。未來,大模型就是AI基礎(chǔ)通用能力,就像ChatGPT一樣,你問它的內(nèi)容基本都不屬于專屬行業(yè)的內(nèi)容,但是一旦問了,可能得出的結(jié)論并不能直解決問題,所以大模型是基礎(chǔ),那就要在這個基礎(chǔ)上做小模型的訓(xùn)練,而小模型針對就是具體的場景,或者說具體的行業(yè)能力。

小模型”:針對特定應(yīng)用場景需求進(jìn)行訓(xùn)練,能完成特定任務(wù),但是換到另外一個應(yīng)用場景中可能并不適用,需要重新訓(xùn)練(我們現(xiàn)在用的大多數(shù)模型都是這樣)。這些模型訓(xùn)練基本是“手工作坊式”,并且模型訓(xùn)練需要大規(guī)模的標(biāo)注數(shù)據(jù),如果某些應(yīng)用場景的數(shù)據(jù)量少,訓(xùn)練出的模型精度就會不理想。

“大模型”:在大規(guī)模無標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)出一種特征和規(guī)則?;诖竽P瓦M(jìn)行應(yīng)用開發(fā)時,將大模型進(jìn)行微調(diào)(在下游小規(guī)模有標(biāo)注數(shù)據(jù)進(jìn)行二次訓(xùn)練)或者不進(jìn)行微調(diào),就可以完成多個應(yīng)用場景的任務(wù),實現(xiàn)通用的智能能力。

二、如何培育模型

首先,值得注意的是,培育大型模型并非所有企業(yè)都能夠輕松承擔(dān)的任務(wù),因為這需要高門檻和強大的技術(shù)儲備。因此,我們需要利用已經(jīng)培育好的通用模型為基礎(chǔ),進(jìn)行特殊場景的訓(xùn)練。

這個過程一般需要分為幾個步驟。

首先,我們需要對數(shù)據(jù)進(jìn)行清洗和預(yù)處理,以提供更高質(zhì)量的數(shù)據(jù)內(nèi)容。其次,我們需要根據(jù)訓(xùn)練場景制定訓(xùn)練模式。在訓(xùn)練過程中,Transformer(自主意力神經(jīng)網(wǎng)絡(luò)模型)、LLM(自然語言處理模型)以及prompt(提示詞)等相關(guān)內(nèi)容都是不可或缺的。最后,我們需要進(jìn)行場景化的應(yīng)用和微調(diào),這個過程就是不斷試驗?zāi)P洼敵龅膬?nèi)容,然后不斷地優(yōu)化模型,以達(dá)到最優(yōu)的效果,下面就展開說說部署的核心步驟。

三、數(shù)據(jù)處理

1. 數(shù)據(jù)提取

當(dāng)前,企業(yè)均擁有自己的數(shù)據(jù)庫,這些數(shù)據(jù)以數(shù)據(jù)庫的節(jié)奏存儲,半結(jié)構(gòu)/非結(jié)構(gòu)化數(shù)據(jù)并非人工智能有效識別,因此需要重新提取這些數(shù)據(jù)。提取過程需要消除無效數(shù)據(jù),重新定義基礎(chǔ)元數(shù)據(jù),并為有效數(shù)據(jù)重新定義標(biāo)簽。最后,關(guān)鍵的一步是對這些數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)注(Annotation),標(biāo)注后的數(shù)據(jù)可以更好地被AI理解。核心的四個步驟包括:

  1. 清洗無效數(shù)據(jù);
  2. 定義基礎(chǔ)元數(shù)據(jù);
  3. 標(biāo)記標(biāo)簽;
  4. 數(shù)據(jù)標(biāo)注。

2. 數(shù)據(jù)劃分

將已提取并標(biāo)注好的數(shù)據(jù)內(nèi)容進(jìn)行組合,相當(dāng)于將關(guān)聯(lián)性較強的數(shù)據(jù)放置于一個集合中,通常稱之為訓(xùn)練集。當(dāng)然,也可以通過應(yīng)用場景反推數(shù)據(jù)如何合理地劃分。數(shù)據(jù)劃分是非常關(guān)鍵的一步,該過程包括訓(xùn)練集、驗證集、測試集、分層抽樣和交叉驗證。

數(shù)據(jù)劃分的目的是確保模型在訓(xùn)練、調(diào)優(yōu)和評估過程中具有合理的數(shù)據(jù)集,并能夠?qū)ξ匆娺^的數(shù)據(jù)進(jìn)行泛化。合理的數(shù)據(jù)劃分可以避免模型過擬合訓(xùn)練集和驗證集,同時提供獨立的測試集來評估模型的真實性能。在選擇數(shù)據(jù)劃分比例時,需要根據(jù)具體任務(wù)、數(shù)據(jù)規(guī)模和可用數(shù)據(jù)量等因素進(jìn)行調(diào)整,并進(jìn)行交叉驗證等方法來穩(wěn)定評估結(jié)果。

3. 特征工程

特征是指從數(shù)據(jù)集中提取出具有較強特點的內(nèi)容,具備一定預(yù)測能力的特征。以文本數(shù)據(jù)集為例,這需要運用NLP技術(shù),對數(shù)據(jù)集進(jìn)行分詞、去除停用詞、處理近義詞、向量化等操作,然后進(jìn)行壓縮和重組,生成新的數(shù)據(jù)處理集。通過領(lǐng)域知識和對數(shù)據(jù)的理解,可以構(gòu)建新的特征,或者通過特征之間的組合和衍生來創(chuàng)造更有意義的特征。

特征工程的目標(biāo)是使數(shù)據(jù)更適合機器學(xué)習(xí)算法的處理和建模,并提供更有表達(dá)能力和預(yù)測能力的特征。根據(jù)具體的任務(wù)、數(shù)據(jù)集和模型選擇合適的特征工程步驟和技術(shù),以提高模型的準(zhǔn)確性和泛化能力。

四、模型訓(xùn)練

1. 模型類型

首先要明確訓(xùn)練的目標(biāo)和目的,分析后期AI的應(yīng)用場景的本質(zhì),確定好之后,才能夠?qū)δP皖愋瓦M(jìn)行選擇。常見的模型類型包括線性模型(如線性回歸、邏輯回歸)、決策樹模型(如隨機森林、梯度提升樹)、神經(jīng)網(wǎng)絡(luò)模型(如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò))等。根據(jù)問題的復(fù)雜度、數(shù)據(jù)量和可用資源等因素,選擇適當(dāng)?shù)哪P皖愋汀?/p>

還有更深層次的架構(gòu)內(nèi)容:

  1. 卷積神經(jīng)網(wǎng)絡(luò)(CNN):適用于圖像和空間數(shù)據(jù)處理,通過卷積和池化層來提取圖像的局部和全局特征。
  2. 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):適用于序列數(shù)據(jù)處理,通過循環(huán)結(jié)構(gòu)捕捉序列中的時間依賴關(guān)系。
  3. 注意力機制(Attention Mechanism):用于關(guān)注模型關(guān)注輸入中的重要部分,可以應(yīng)用于機器翻譯、文本摘要等任務(wù)。
  4. 轉(zhuǎn)移學(xué)習(xí)(Transfer Learning):利用預(yù)訓(xùn)練模型來初始化網(wǎng)絡(luò)參數(shù),提高模型的性能和收斂速度。
  5. 融合多個模型(Ensemble Learning):將多個模型的預(yù)測結(jié)果進(jìn)行組合,以提高整體的準(zhǔn)確性和泛化能力。

上述的內(nèi)容,并不是都要在一個場景下用到,而是根據(jù)問題的性質(zhì)、數(shù)據(jù)的特點、任務(wù)的要求和可用資源等因素,選擇適合的模型類型和設(shè)計合理的網(wǎng)絡(luò)架構(gòu)。

2. 硬件資源

常用的硬件包括:CPU(中央處理器)、GPU(圖形處理器)、TPU(張量處理器)、FPGA(現(xiàn)場可編程門陣列)、硬件加速平臺等。

選擇適當(dāng)?shù)挠布O(shè)備取決于許多因素,如任務(wù)的復(fù)雜性、數(shù)據(jù)集的大小、可用的資源和預(yù)算等。對于小規(guī)模的任務(wù)和數(shù)據(jù)集,使用CPU可能是足夠的。對于大規(guī)模的深度學(xué)習(xí)任務(wù),GPU和TPU可以提供更高的性能和效率。使用云計算平臺的硬件加速服務(wù)可以靈活地擴展計算資源,并提供高性能的訓(xùn)練環(huán)境。

此外,還應(yīng)考慮硬件和軟件的兼容性、開發(fā)和調(diào)試工具的可用性,以及供應(yīng)商的支持和更新等因素。綜合考慮這些因素,選擇合適的硬件設(shè)備可以提供高效的模型訓(xùn)練和優(yōu)化,從而獲得更好的性能和結(jié)果。

3. 訓(xùn)練模型

在此階段,我們將對前述所有內(nèi)容進(jìn)行程序化處理,并在服務(wù)器上進(jìn)行自動化訓(xùn)練。訓(xùn)練過程將通過可視化平臺進(jìn)行監(jiān)測訓(xùn)練結(jié)果。我們將使用各種參數(shù)進(jìn)行微調(diào),并反復(fù)進(jìn)行訓(xùn)練。訓(xùn)練結(jié)束后,我們將逐一保存模型版本,并進(jìn)行測試驗證。

跑模型的核心流程是一個迭代的過程,需要不斷調(diào)優(yōu)和改進(jìn),以提高模型的性能和適應(yīng)性。在每個步驟中,數(shù)據(jù)的準(zhǔn)備和清洗、模型的選擇和配置、訓(xùn)練和評估、預(yù)測和應(yīng)用都是重要的環(huán)節(jié)。通過不斷的實踐和經(jīng)驗積累,可以逐步優(yōu)化和改進(jìn)模型,以滿足具體問題和應(yīng)用的需求。

五、模型應(yīng)用

不同的應(yīng)用場景所運用的模型都需要在服務(wù)器存儲,同時要與業(yè)務(wù)系統(tǒng)進(jìn)行打通,比如將訓(xùn)練成型的模型嵌入到企業(yè)的業(yè)務(wù)系統(tǒng)中,或者部署到SAAS、PAAS等應(yīng)用后臺中。通過應(yīng)用層的不斷使用,數(shù)據(jù)進(jìn)行再次回收,就形成了完整的閉環(huán),而人工智能也可以在這個過程不斷的自學(xué),加快自我提升的速度。

六、總結(jié)

人工智能已經(jīng)不再是一個概念性的產(chǎn)物,也不再是電影中所描繪的幻想。如今,它已經(jīng)廣泛應(yīng)用于各個行業(yè)領(lǐng)域。一旦模型訓(xùn)練完成,它就可以應(yīng)用于各種場景,并嵌入到各種系統(tǒng)中。

正如電影《超體》中所說:“我將無處不在!”,未來的人工智能完全可以跨越平臺,在移動設(shè)備、智能家居、企業(yè)系統(tǒng)、應(yīng)用軟件以及各個平臺中出現(xiàn)。如果企業(yè)想要快速發(fā)展,或者行業(yè)需要快速迭代,那么人工智能將成為最核心的部分。學(xué)會如何控制人工智能也將衍生出更多的新興職業(yè)!

本文由 @金鍇 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 通俗易懂!

    來自美國 回復(fù)