10分鐘讀懂:全面解析AI大模型

0 評(píng)論 819 瀏覽 6 收藏 30 分鐘

因?yàn)楫a(chǎn)品經(jīng)理可以不懂技術(shù),這就導(dǎo)致在了解新技術(shù)特別困難,下面我會(huì)用極簡(jiǎn)的方式介紹什么是AI大模型。

不懂代碼、不懂?dāng)?shù)學(xué)、不懂?dāng)?shù)據(jù)庫,也能了解大模型。

一、名詞解釋

無論是配置模型還是使用,都會(huì)遇到一些大模型相關(guān)的特有名詞,所以需要先了解這些名詞是什么意思才能更好的運(yùn)用它。

1.1 參數(shù)

參數(shù)是指模型的大小,一般來說參數(shù)越大,模型的能力越強(qiáng)。大模型的參數(shù)單位一般用“B”來表示,1B代表10億參數(shù)。

以下面的兩張圖為例,第一張圖是阿里百煉平臺(tái)的模型廣場(chǎng),另一張圖是歐拉瑪?shù)哪P蛷V場(chǎng),這里面的模型基本都會(huì)按照“名稱”+“版本”+“參數(shù)”的形式分類。

參數(shù)的單位基本都是“B”,但是因?yàn)橛行┠P筒皇峭ㄓ么竽P停皇沁m用于某些領(lǐng)域的小模型,所以參數(shù)量會(huì)比較小,單位為“K”或“M”。

單位包括:K(千)、M(百萬)、B(十億)、T(萬億)。

阿里云百煉

歐拉瑪(Ollama)

參數(shù)越大那么模型就可能會(huì)占用越多的存儲(chǔ)空間,但因?yàn)椴煌P蛯?duì)于權(quán)重、精度、壓縮技術(shù)的處理方式不同,所以參數(shù)與存儲(chǔ)空間并不是線性關(guān)系。

你如果問7B參數(shù)大小的模型占用多少內(nèi)存空間,我只能說不知道,這要看具體的模型.每家模型訓(xùn)練的不一樣,那么相同參數(shù)的情況下所占用的存儲(chǔ)空間也是不一樣的。就好像同樣是6年紀(jì)的小學(xué)生,有的身高一米五、有的身高一米七一樣。

1.2 token

token是大模型處理數(shù)據(jù)的最小單位,比如一個(gè)字、一個(gè)詞、一個(gè)像素、一段音軌等。

我們?cè)囍鴮⑾旅娴木渥硬鸱殖勺钚挝唬?/p>

–“你好!”–,這一段話,可以將其拆分為:“你”、“好”、“!”,這三個(gè)最小單位。

–“我想吃蝦丸?!?#8211;,這一段話,可以將其拆分為:“我”、“想”、“吃”、“蝦丸”、“。”,這五個(gè)最小單位。

這兩句話在拆分時(shí)有一點(diǎn)不一樣,第二句話的“蝦丸 ”并沒有拆分成兩個(gè)字,而是以詞的形式做了拆分,原因是“蝦丸”作為名詞,已經(jīng)無法在進(jìn)行拆分了,如果拆分為“蝦”、“丸”兩個(gè)字,那就導(dǎo)致句子失去了原有的含義。

代碼是怎么進(jìn)行拆分的呢?基本邏輯就是將一句話中的詞挑出來,剩下的就可以作為字來處理。

中文分詞工具包括:THULAC (Tsinghua University Language Analysis and Computing、HanLP (Han Language Processing)、LTP (Language Technology Platform)等。

另外對(duì)于大模型的提供方已經(jīng)內(nèi)置分詞功能了,或者說大模型本身就有分詞能力,不需要我們?cè)谧鲱~外工作。

1.3 上下文

一段話的周圍信息就是上下文,例如連續(xù)問大模型兩個(gè)問題,這兩個(gè)問題及回答互為上下文。

日常在溝通過程中,相同的問題我們會(huì)因?yàn)閳?chǎng)景不同得出不同的結(jié)論。

開需求評(píng)審會(huì)時(shí),我們會(huì)問技術(shù)同學(xué)、測(cè)試同學(xué)對(duì)需求有什么問題?技術(shù)同學(xué)會(huì)從技術(shù)的角度回答需求有什么問題、測(cè)試同學(xué)會(huì)從測(cè)試的角度回答測(cè)試的問題。假如此時(shí)我們沖著門外的設(shè)計(jì)同學(xué)詢問他們有什么問題,設(shè)計(jì)同學(xué)會(huì)一臉懵,因?yàn)樗麄儾恢滥闶且驗(yàn)槭裁丛騿柕倪@個(gè)問題。

回到圖片示例的大模型問答上,當(dāng)我問“包含哪些部分”時(shí),大模型會(huì)基于第一句話理解我的意圖,再做出對(duì)應(yīng)的回答。

1.4 多模態(tài)

是指可以處理多種類型的數(shù)據(jù),比如純文字、圖片、文檔等,而單一模態(tài)的模型是指只能處理文字或圖片或聲音的模型。

下面的通義模型,可以上傳圖片、文字、文檔數(shù)據(jù),就是多模態(tài)大模型。

下圖的openai提供的一系列模型皆為多模態(tài)模型,可以上傳圖片、文字。GPT3只能輸入輸出文字,所以是單一模態(tài)的模型,但是目前openAI已經(jīng)不提供GPT-3及以前的模型了。

1.5 溫度

是一個(gè)調(diào)整模型回復(fù)的隨機(jī)性的值,值越大隨機(jī)性越高,回復(fù)越有創(chuàng)造性;值越小隨機(jī)性越小,回復(fù)越重復(fù)老套。

這個(gè)名詞來源于英語單詞temperature,可以將其翻譯為溫度、熱度等。在使用模型時(shí),默認(rèn)系統(tǒng)溫度值即可;如果在回復(fù)中感覺到模型的回復(fù)會(huì)重復(fù),這時(shí)就可以提高溫度值,如果感覺到模型回復(fù)漫無邊際,就可以降低溫度值,下圖為智譜清言對(duì)于溫度的介紹。

溫度值設(shè)置為最低時(shí)的回復(fù)(ChatGPT):

溫度值設(shè)置為最高時(shí)的回復(fù)(ChatGPT):

1.6 向量值(詞向量)

向量是用來描述token在高維世界的特征,數(shù)學(xué)領(lǐng)域中的向量是一個(gè)的數(shù)字列表,在一維空間中,位置可以用(x)表示;在二維空間中,則用(x, y,)表示。以此類推,三維空間(x, y, z),四維空間(x1,x2,x3,x4)……

如果道單選題,題目給出了海豚、馬、兔子、駱駝這四種動(dòng)物,讓我們挑選出不一樣的一種動(dòng)物,應(yīng)該怎么選?

我希望你的答案是海豚,因?yàn)楹k嗌钤诤@铮渌麆?dòng)物生活在陸地上。當(dāng)然你要非說是駱駝,因?yàn)轶w型大;非說是兔子,因?yàn)橥米鱼@洞;非說是馬,因?yàn)樗俣瓤?,那我也沒辦法。畢竟人就是通過各種各樣的特征去了解事物的,總能找到那個(gè)不一樣的特征。

那怎么讓計(jì)算機(jī)知道這些特征從而理解世界呢?我們可以將這些特征提取出來,如果提取1個(gè)特征,比如是不是陸地生物;如果提取兩個(gè)特征,比如體型的大小。

只有“陸地生物”這一個(gè)特征的時(shí)候,越是符合這個(gè)特征則越靠近右側(cè),為了方便知道其位置,可以給一個(gè)坐標(biāo)。如果增加“體型”這個(gè)特征的時(shí)候,那么每一個(gè)動(dòng)物也就擁有了二維坐標(biāo)。如果繼續(xù)增加特征呢,那每個(gè)動(dòng)物就會(huì)擁有三維坐標(biāo)、四維坐標(biāo)、五維坐標(biāo)……

用圖像肯定不方便表示,計(jì)算機(jī)中也不可能放一張無限維度的坐標(biāo)圖,但是計(jì)算機(jī)中可以存儲(chǔ)每個(gè)動(dòng)物的坐標(biāo)位置,每一個(gè)數(shù)字就是對(duì)應(yīng)了一個(gè)特征的值,通過動(dòng)物之間數(shù)字的對(duì)比就可以知道每個(gè)動(dòng)物之間的差異及內(nèi)涵。

那計(jì)算機(jī)是怎么知道這些特征和數(shù)值大小的呢?可以靠計(jì)算機(jī)學(xué)習(xí),讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)大量資料后,讓計(jì)算機(jī)去區(qū)分每一個(gè)token的特征和特征的值。

二、大語言模型(LLM)

2.1 為什么叫大語言模型?

能聽懂人話并且和人溝通的模型,叫做大語言模型。

大語言模型主要是處理語言的,處理什么數(shù)據(jù)就叫什么模型,除了語言模型還有處理視覺、音頻、生成數(shù)據(jù)等其他作用的模型。

如果有人開發(fā)出了畫原型圖的模型,也可以叫它“原型圖模型”。

多模態(tài)模型也就是綜合了語言模型、視覺模型等多種模型能力的大模型。因?yàn)槊恳环N模型的作用是不相同的,為了讓大模型的能力更強(qiáng)更方便使用,所以產(chǎn)生了多模態(tài)大模型,也就是即可以聽懂人話,也可以看懂圖片是什么意思。

2.2 為什么大模型能夠聽懂人話?

我們并不確定計(jì)算機(jī)理解人類的語言還是概率運(yùn)算的結(jié)果。

我們可以教會(huì)鸚鵡說“你好”,那我們可以說鸚鵡聽懂了人類的語言嗎?不可以,因?yàn)槲覀兠鞔_的科學(xué)的可以知道鸚鵡只是重復(fù)音節(jié)。

大模型則是通過了大量的文本訓(xùn)練,學(xué)會(huì)了語言中的各種溝通方式、文字與文字之間的排列規(guī)則、語法的結(jié)構(gòu)。通過這一系列的規(guī)則運(yùn)算,給人一種可以聽懂人話的感覺。

要了解大模型是怎么變得這么厲害的,那就需要從頭開始說了。

最早有關(guān)人工智能的概念來源于圖靈,他在《計(jì)算機(jī)器與智能》的論文里提出了“圖靈測(cè)試”,什么是圖靈測(cè)試呢?就是讓一臺(tái)機(jī)器和人對(duì)話,如果這個(gè)人沒法辨別和他對(duì)話的是機(jī)器還是真人,那么就可以說這臺(tái)機(jī)器具備了智能。

為了使機(jī)器能夠通過圖靈測(cè)試,研究人員開始研究人類語言。因?yàn)槿耸堑厍蛏蠐碛凶罡咧腔鄣奈锓N,而語言是人類溝通過程中最重要工具,更是智能的表現(xiàn)形式。

具體怎么研究語言呢?最直接的方式就是從語言的規(guī)則下手。比如n-gram模型,就是根據(jù)人類的語言習(xí)慣,通過前面的字來預(yù)測(cè)后面字的方式讓計(jì)算機(jī)實(shí)現(xiàn)語言功能的,而且現(xiàn)在的大模型也是站在n-gram模型的肩膀上發(fā)展出來的,了解n-gram模型就能夠很清楚的知道現(xiàn)在的大模型的實(shí)現(xiàn)邏輯。

① 入門級(jí)模型:n-gram模型

n-gram模型前面的N是指用幾個(gè)詞來預(yù)測(cè)下一個(gè)詞;如果我們用前面的兩個(gè)詞來預(yù)測(cè)下一個(gè)詞,這就叫做2-gram;如果用前面的三個(gè)詞來預(yù)測(cè)下一個(gè)詞,這就叫做3-gram。

為了能夠理解n-gram模型,我們可以舉個(gè)例子。

有一個(gè)數(shù)據(jù)集,里面只有兩句話。

  1. 我喜歡吃蘋果。
  2. 我喜歡吃香蕉。

我們需要先將這兩句話拆分token,也就是“我”“喜歡”“吃”“蘋果”“香蕉”。

根據(jù)概率推算,“我”后面必然會(huì)跟著“喜歡”兩個(gè)字,概率是100%;那么當(dāng)我們輸入“我”這個(gè)漢字的時(shí)候,系統(tǒng)就會(huì)根據(jù)概率,輸出“喜歡”這個(gè)詞,可見下圖。

如果規(guī)定模型持續(xù)運(yùn)行直到生成一句話,那么模型就會(huì)根據(jù)概率生成“我喜歡吃蘋果”或者“我喜歡吃香蕉”,因?yàn)椤疤O果”和“香蕉”兩個(gè)詞的概率都是50%,那么系統(tǒng)會(huì)隨機(jī)生成。

但是n-gram模型也有很多缺陷,因?yàn)閚-gram模型是先假設(shè)每一個(gè)詞都是互相獨(dú)立存在,彼此沒有關(guān)系的。但詞語和文字卻是有實(shí)際意義的,所以就導(dǎo)致模型沒法理解上下文,沒辦法解決句子中的邏輯關(guān)系。如果出現(xiàn)了新詞語,也沒法理解其用法,純粹是概率計(jì)算。

直到后來,出現(xiàn)了神經(jīng)網(wǎng)絡(luò)技術(shù)。

② 大模型核心角色-神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是通過模仿大腦處理信息的方式而產(chǎn)生的計(jì)算模型,是為了解決圖像識(shí)別和邏輯運(yùn)算的。

神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)靈感來源于人腦的結(jié)構(gòu),每個(gè)神經(jīng)元代表一個(gè)基本的計(jì)算單元,單個(gè)神經(jīng)元實(shí)際上是一串代碼,用來處理簡(jiǎn)單的數(shù)學(xué)運(yùn)算。盡管單個(gè)神經(jīng)元的功能相對(duì)簡(jiǎn)單,但當(dāng)大量這樣的神經(jīng)元連接起來形成網(wǎng)絡(luò)后,整個(gè)網(wǎng)絡(luò)就能夠去處理復(fù)雜的任務(wù)。

經(jīng)典的神經(jīng)網(wǎng)絡(luò)可以分為三層結(jié)構(gòu),輸入層、隱藏層、輸出層,每一層都是由一堆神經(jīng)元組成。

  • 輸入層:接收原始數(shù)據(jù),將原始數(shù)據(jù)經(jīng)過預(yù)處理后傳遞給隱藏層。
  • 隱藏層:通過線性加權(quán)求和、激活函數(shù)、權(quán)重等一系列運(yùn)算,將結(jié)果傳遞給輸出層。
  • 輸出層:處理接收到的數(shù)據(jù)并輸出結(jié)果,將結(jié)果反饋給用戶。

總結(jié)一下就是,每個(gè)神經(jīng)元作為一個(gè)計(jì)算單元,通過對(duì)輸入數(shù)據(jù)進(jìn)行加權(quán)求和并應(yīng)用激活函數(shù)來提取有用的特征,然后將處理后的信息傳遞到網(wǎng)絡(luò)的下一層。在網(wǎng)絡(luò)的輸出層,對(duì)于分類任務(wù),神經(jīng)元可以輸出表示不同類別的概率值。

具體到圖像識(shí)別任務(wù),圖像是由像素構(gòu)成的,每個(gè)像素都有其特定的色值。以數(shù)字“6”為例,我們可以給計(jì)算機(jī)大量數(shù)字6的圖片,計(jì)算機(jī)會(huì)將圖像分解為像素,然后將顏色轉(zhuǎn)換成色值,并分析這些色值的分布規(guī)律。

最終,當(dāng)模型遇到新的、未見過的數(shù)字6圖片時(shí),它能夠基于已學(xué)到的規(guī)則將其識(shí)別出來。如果給神經(jīng)網(wǎng)絡(luò)提供大量高質(zhì)量且標(biāo)注準(zhǔn)確的數(shù)據(jù),那么神經(jīng)網(wǎng)絡(luò)就可以擁有解釋圖像信息的能力。

雖然神經(jīng)網(wǎng)絡(luò)這么厲害,但因?yàn)樵缙诘挠布拗?,?dǎo)致發(fā)展并不順利。前面我們可以得知,神經(jīng)網(wǎng)絡(luò)是通過大量神經(jīng)元構(gòu)成的,而每個(gè)神經(jīng)元只負(fù)責(zé)簡(jiǎn)單的運(yùn)算,這種方式要求硬件能提供強(qiáng)大的并行處理能力,以同時(shí)執(zhí)行這些大量的簡(jiǎn)單運(yùn)算任務(wù)。但當(dāng)時(shí)訓(xùn)練神經(jīng)網(wǎng)絡(luò)只能依靠CPU且性能還有限。

隨著計(jì)算機(jī)硬件技術(shù)的發(fā)展,特別是GPU的引入,這才讓神經(jīng)網(wǎng)絡(luò)的硬件環(huán)境得到改善。硬件技術(shù)的發(fā)展讓研究人員能夠去設(shè)計(jì)和訓(xùn)練更復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),比如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、預(yù)訓(xùn)練等。而現(xiàn)在的大模型都是基于神經(jīng)網(wǎng)絡(luò)架構(gòu)的,可以說沒有硬件的發(fā)展、沒有神經(jīng)網(wǎng)絡(luò)的發(fā)展,就沒有目前的大模型。

而Transformer架構(gòu)是神經(jīng)網(wǎng)絡(luò)中最主流的,當(dāng)前的大語言模型幾乎都是基于Transformer架構(gòu)搭建的。

③ 主流架構(gòu)-Transformer架構(gòu)

Transformer架構(gòu)是特別適用于自然語言處理的神經(jīng)網(wǎng)絡(luò)模型。

Transformer架構(gòu)能夠如此厲害,在于Transformer架構(gòu)能夠通過向量數(shù)據(jù)、自注意力機(jī)制、神經(jīng)網(wǎng)絡(luò)等能力,高效地處理和理解自然語言。

向量數(shù)據(jù):每個(gè)token被轉(zhuǎn)換為了高維向量,通過token的向量值,可以知道詞匯本身的語義信息、特征,還能分析出token與token之間的復(fù)雜關(guān)系。

自注意力機(jī)制:輸入到神經(jīng)網(wǎng)絡(luò)的每一個(gè)token都可以與其他token發(fā)生聯(lián)系,并且通過“權(quán)重”來區(qū)分鏈接過程中的重要程度,這樣可以讓大模型解決上下文關(guān)聯(lián)問題,避免提問第二個(gè)問題的時(shí)候忘記第一個(gè)問題。

神經(jīng)網(wǎng)絡(luò)的能力:通過全新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),不僅能捕捉局部特征,還能理解全局信息,從而支持更深層次的語言理解和生成任務(wù)。

國外的openai、谷歌、微軟,到國內(nèi)的阿里、騰訊、清華的團(tuán)隊(duì)等,都是基于或借鑒Transformer架構(gòu)開發(fā)的大模型。

https://bbycroft.net/llm ,這是一個(gè)LLM可視化網(wǎng)站,可以清楚的看到大模型每一步的工作細(xì)節(jié)。

三、大模型實(shí)踐方法

3.1 提示詞工程

提示詞功能的作用在于通過設(shè)定提示,讓大模型的回答更加精準(zhǔn)。

大模型訓(xùn)練時(shí)并不會(huì)針對(duì)特定領(lǐng)域,是為廣泛?jiǎn)栴}進(jìn)行設(shè)計(jì)的。而提示詞工程(Prompt Engineering)也叫上下文提示,目的是希望大模型在回答問題時(shí),可以得知前因后果,聚焦用戶的特定需求。

也就是無論形式如何,只要能夠讓大模型得知你的需求就是提示詞,只要讓大模型給你想要的答案就是好的提示詞,哪怕你問的是“1+1等于幾?”。

比如你讓大模型扮演某個(gè)角色,你可以告訴大模型:“你要扮演魯迅,回答的風(fēng)格要與魯迅的作品類似”。那么大模型就會(huì)扮演魯迅且通過魯迅的說話風(fēng)格回答你的問題。

而在創(chuàng)建智能體時(shí),也會(huì)讓用戶填寫智能體的設(shè)定,這個(gè)設(shè)定就起到了提示詞的功能。

針對(duì)復(fù)雜問題,為了從大型語言模型中獲得高質(zhì)量的回答,我們需要提供更加詳盡的問題描述。在2023年11月,新加坡舉辦了首屆提示詞功能大賽,冠軍Sheila Tao撰寫了一篇文章,探討了她對(duì)提示詞的理解,并介紹了CO-STAR框架的應(yīng)用方法。

工作原理如下:

(C)背景:提供任務(wù)的背景信息

這有助于 LLM 了解正在討論的具體場(chǎng)景,確保其回應(yīng)是相關(guān)的。

(O)目標(biāo):明確你希望 LLM 執(zhí)行的任務(wù)是什么

明確你的目標(biāo)有助于 LLM 集中精力實(shí)現(xiàn)該特定目標(biāo)。

(S)風(fēng)格:指定您希望 LLM 使用的寫作風(fēng)格

這可能是某個(gè)名人的寫作風(fēng)格,也可能是某個(gè)行業(yè)的某個(gè)專家,比如商業(yè)分析師或 CEO。這將指導(dǎo) LLM 以符合您需求的方式和措辭進(jìn)行回復(fù)。

(T)語氣:設(shè)定回應(yīng)的態(tài)度

這確保 LLM 的回應(yīng)與預(yù)期的情緒或情感背景產(chǎn)生共鳴。例如正式、幽默、富有同理心等。

(A)受眾:確定回復(fù)針對(duì)的對(duì)象

根據(jù)受眾(例如某個(gè)領(lǐng)域的專家、初學(xué)者、兒童等)定制 LLM 的回應(yīng),確保它在您需要的背景下是適當(dāng)且易于理解的。

(R)回復(fù):提供回復(fù)格式

這可確保 LLM 輸出的格式與您執(zhí)行下游任務(wù)所需的格式完全一致。示例包括列表、JSON、專業(yè)報(bào)告等。對(duì)于大多數(shù)以編程方式處理 LLM 響應(yīng)以進(jìn)行下游操作的 LLM 應(yīng)用程序而言,JSON 輸出格式是理想的選擇。

如果我們希望大模型可以幫產(chǎn)品經(jīng)歷寫一份年終總結(jié),就可以按照CO-STAR框架編寫提示詞。

背景:我是“XXXXX”公司的產(chǎn)品經(jīng)理,負(fù)責(zé)XXXXXX應(yīng)用。在過去的一年中,我們實(shí)現(xiàn)了多項(xiàng)功能升級(jí),并且用戶基數(shù)有了顯著增長。

目標(biāo):編寫一份全面的年終總結(jié)報(bào)告,概述本年度的關(guān)鍵成就、遇到的主要挑戰(zhàn)及解決策略,并簡(jiǎn)要介紹下一年的戰(zhàn)略規(guī)劃。

風(fēng)格:采用清晰、專業(yè)的商務(wù)寫作風(fēng)格,類似于業(yè)界公認(rèn)的產(chǎn)品經(jīng)理或公司領(lǐng)導(dǎo)人的表達(dá)方式。

語氣:正式而積極,體現(xiàn)對(duì)團(tuán)隊(duì)努力的認(rèn)可以及對(duì)未來發(fā)展的樂觀態(tài)度。

受眾:這份報(bào)告將提交給公司的高級(jí)管理層以及我的直接上司,并會(huì)在內(nèi)部分享給整個(gè)產(chǎn)品團(tuán)隊(duì)。

回復(fù):請(qǐng)按照標(biāo)準(zhǔn)的年終總結(jié)格式提供文檔,包括封面頁、目錄、引言、年度回顧、主要成就、面臨的挑戰(zhàn)與解決方案、未來展望等部分。文檔需保持專業(yè)性,重點(diǎn)突出。

如果不會(huì)寫提示詞怎么辦?沒關(guān)系,可以復(fù)制文中的工作原理,把寫提示詞的工作交給大模型。

雖然可以通過CO-STAR框架中說明了提示詞該怎么寫,但我們的重點(diǎn)并不在于如何編寫提示詞,而在于讓大模型給出我們滿意的答案。

3.2 知識(shí)庫

知識(shí)庫就是資料庫,目的就是為大模型處理問題提供必要背景知識(shí)。

雖然大模型擅長處理廣泛領(lǐng)域的常見問題,但在面對(duì)特定領(lǐng)域內(nèi)深入且專業(yè)的問題時(shí)存在局限性,而知識(shí)庫提供了特定領(lǐng)域的信息,幫助其解決特定問題。

如果希望大模型幫助企業(yè)優(yōu)化供應(yīng)鏈管理,那么大模型就需要知道供應(yīng)商信息、庫存水平、物流數(shù)據(jù)、采購數(shù)據(jù)等信息。如果希望大模型能夠幫助系統(tǒng)應(yīng)用,那么大模型就需要知道項(xiàng)目管理流程、技術(shù)文檔、操作說明書等信息。而這些信息就需要存放到知識(shí)庫,作為大模型的知識(shí)儲(chǔ)備。

chatgpt的存儲(chǔ)功能

阿里百煉的數(shù)據(jù)管理功能

這里需要注意,大模型和知識(shí)庫是兩種不同的技術(shù),只是針對(duì)于特殊問題需要知識(shí)庫提供特定信息。

所有的數(shù)據(jù)都需要存儲(chǔ)在服務(wù)器上,常見的數(shù)據(jù)庫類型包括關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫,這些數(shù)據(jù)庫可以有效地存儲(chǔ)和管理結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。然而對(duì)于大模型來說,這些傳統(tǒng)的存儲(chǔ)方式并無本質(zhì)區(qū)別,它們更像是文件夾,用于存儲(chǔ)和檢索信息。

并不是知識(shí)庫的數(shù)據(jù)就需要向量存儲(chǔ),只是需要處理相似性任務(wù)的時(shí)候,需要用到向量數(shù)據(jù)庫。

前面提到大模型時(shí)也有提到,大模型的本質(zhì)是概率計(jì)算,通過token與token之間向量值的對(duì)比來生成數(shù)據(jù),這種基于向量的計(jì)算方式使得大模型能夠理解和處理復(fù)雜的模式和關(guān)系。只要任務(wù)需要用到數(shù)據(jù)與數(shù)據(jù)的相似性對(duì)比,那么就需要用到向量數(shù)據(jù)庫,可見第一部分的向量詞。

對(duì)于產(chǎn)品經(jīng)理來說,我們必須知道如何運(yùn)用知識(shí)庫,如果想要進(jìn)一步的了解向量數(shù)據(jù)庫,可以詢問大模型、B站搜索向量數(shù)據(jù)、阿里云或騰訊云的開發(fā)文檔及介紹。

3.3 微調(diào)

微調(diào)就是讓通用的大模型,更加適用于某個(gè)特定項(xiàng)目。

如果大模型是一個(gè)大學(xué)生,知識(shí)庫相當(dāng)于公司資料,而微調(diào)工作就相當(dāng)于入職培訓(xùn),培訓(xùn)其如何與客戶繼續(xù)溝通。

聽起來微調(diào)似乎很高深,但其實(shí)大模型廠商都會(huì)提供對(duì)應(yīng)的微調(diào)功能,我們可以通過平臺(tái)提供的微調(diào)模板,了解微調(diào)是什么。

微調(diào)的目的是通過使用實(shí)際案例來優(yōu)化大模型的表現(xiàn)能力,使其更符合特定應(yīng)用場(chǎng)景的需求。無論是像ChatGPT還是通義這樣的大模型,都是采用一問一答的形式進(jìn)行。

通過提供企業(yè)自身的實(shí)際案例,微調(diào)過程可以讓大模型學(xué)習(xí)到更加精準(zhǔn)和符合企業(yè)需求的回復(fù)方式,從而使通用的大模型能夠高度適配企業(yè)的具體業(yè)務(wù)場(chǎng)景。這樣不僅提升了模型的實(shí)用性,還增強(qiáng)了其在特定領(lǐng)域中的表現(xiàn)力和準(zhǔn)確性。

四、最后

對(duì)于AI產(chǎn)品經(jīng)理來說,我們的核心工作是應(yīng)用大模型,而不是作為大模型的研究者。無論各研究團(tuán)隊(duì)推出了什么新的架構(gòu),對(duì)于產(chǎn)品來說都不重要,重要的是如何將其集成到現(xiàn)有的系統(tǒng)中。至于如何集成到系統(tǒng),不同公司有不同的解決方案,這些就需要在工作中探索了。

本文由 @入幽 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!