產(chǎn)品視角 |AI對話(一):了解大語言模型
對想做AI產(chǎn)品經(jīng)理的同學(xué)而言,了解一些基礎(chǔ)知識、常用名詞是必須的。這篇文章,作者解釋了一些AI的基礎(chǔ)名詞和概念,希望可以幫到大家。
本文為此系列引言,主要為各技術(shù)點的要點匯總,旨在普及基礎(chǔ)技術(shù)知識點不含產(chǎn)品觀點,對LLM了解的同學(xué)可跳過。
一、什么是大語言模型(LLM)
顧名思義,大語言模型的特點是規(guī)模龐大,可能擁有十億以上的參數(shù)。由于研究方向不同,在前兩年出現(xiàn)以自然語言理解任務(wù)和自然語言生成類任務(wù)的兩條技術(shù)線。
1. 自然語言理解任務(wù)
即包括文本分類、句子關(guān)系判斷等,本質(zhì)上是分類任務(wù)。其技術(shù)以Bert為代表。Bert(Bidirectional Encoder Representation from Transfomer)采用雙向Transformer Encoder架構(gòu)。Bert的優(yōu)點是可以更好地理解上下文信息,缺點是長文本處理不夠穩(wěn)定。
2. 自然語言生成類任務(wù)
可給定輸入文本,要求對應(yīng)模型生成一串輸出的模型。其技術(shù)以GPT為代表。GPT(Generative Pre-trained Transfomer)使用單向Transfomer Decoder結(jié)構(gòu)。GPT的優(yōu)點是訓(xùn)練過程相對簡單,可以生成自然流暢的文本。
從兩類任務(wù)來看,如果僅用自然語言理解模型,可能無法很好地處理生成任務(wù)。但一個LLM 生成模型是可以兼顧兩個任務(wù)的處理,所以主流更希望推進的應(yīng)用方向是結(jié)合LLM生成模型來做落地。
附圖:Transformer介紹
二、市場大語言模型有哪些
(數(shù)據(jù)來源:機器之心)
在生成式任務(wù)方向按照模型結(jié)構(gòu)的不同可以分為兩大類:
1. 基于Causal decoder-only (因果解碼器)的Transformer結(jié)構(gòu)
如GPT-4、Claude 2、LLaMA2等大模型
2. 基于Prefix decoder-only (前綴解碼器)的Transformer結(jié)構(gòu)
如Chat GLM-6B(清華大學(xué)提出的支持中英雙語問答的對話語言模型)
那么兩種結(jié)構(gòu)的區(qū)別是什么呢?
相同訓(xùn)練tokens的情況下,Prefix decoder用到的tokens數(shù)量更少,訓(xùn)練效率較低,效果相對較差。(訓(xùn)練時Causal decoder結(jié)構(gòu)會在所有Token上計算損失,而Prefix decoder只會在輸出上計算損失,不計算輸入的損失)
其次模型基礎(chǔ)信息(訓(xùn)練數(shù)據(jù)、數(shù)據(jù)量、模型參數(shù)量、詞表大小等)還會成為主要比較維度,如下圖:
(數(shù)據(jù)來源:機器之心)
列名稱:模型名稱、發(fā)布時間、模型大小、是否基于哪個模型、適應(yīng)性調(diào)優(yōu)(IT指令調(diào)優(yōu)、RLHF用于對齊調(diào)優(yōu)-人類反饋強化學(xué)習)、預(yù)訓(xùn)練數(shù)據(jù)規(guī)模、近期更新、硬件情況、訓(xùn)練時長、評估(ICL上下文學(xué)習、CoT思維鏈)
三、大模型有什么樣的訓(xùn)練范式
NLP經(jīng)歷四個訓(xùn)練范式:
- 第一范式:基于傳統(tǒng)機器學(xué)習模型的范式,特征工程+算法,需要大量訓(xùn)練數(shù)據(jù)
- 第二范式:基于深度學(xué)習模型的范式,自動獲取特征,相對1提高了準確率
- 第三范式:基于【Pre-train(無監(jiān)督)+fine-tune(有監(jiān)督)】的范式,pre-train是基于無標注數(shù)據(jù)訓(xùn)練;fine-tune階段經(jīng)過pre-train的初始化以后,后續(xù)的參數(shù)用有標注的數(shù)據(jù)進行訓(xùn)練。小數(shù)據(jù)集可以訓(xùn)練出好模型。
- 第四范式(重要,詳情請見系列下篇):基于【Pre-train,Prompt,Predict】的范式,應(yīng)用Few/Zero Shot ,需要少量(無)的任務(wù)數(shù)據(jù)。
大模型大多應(yīng)用第三、第四范式為主,第三范式目的是預(yù)訓(xùn)練模型以更好地應(yīng)用在下游任務(wù),而用較多的數(shù)據(jù)訓(xùn)練新的任務(wù),會導(dǎo)致少量樣本學(xué)習能力差的問題,以及會造成部署資源的極大浪費。
對于第四范式,本質(zhì)是將所有下游任務(wù)統(tǒng)一成預(yù)訓(xùn)練任務(wù),以特定的模板將下游任務(wù)的數(shù)據(jù)轉(zhuǎn)成自然語言形式,挖掘預(yù)訓(xùn)練模型的本身能力,因此可以降低語義差異以及避免過擬合。
四、大模型評測的標準和方法
產(chǎn)品表現(xiàn):包括語義語法語境理解、內(nèi)容準確性、生成質(zhì)量、性能測試、擬人性和多模態(tài)能力;
- 語義理解包括上下文理解、邏輯推理、多語言等;
- 內(nèi)容準確性包括回復(fù)內(nèi)容和結(jié)果準確性和陷阱處理;
- 生成質(zhì)量包括多樣性、創(chuàng)造性、專業(yè)度等;
- 性能主要包括回復(fù)速度、資源消耗等;
- 擬人性主要針對用戶情感分析;
模型基礎(chǔ)能力:主要針對算力和數(shù)據(jù),包括參數(shù)量級、數(shù)據(jù)量級、數(shù)據(jù)質(zhì)量等
其他:主要針對安全合規(guī),包括安全和隱私處理能力、內(nèi)容安全性、公平性、隱私保護等
五、評估大模型的安全性
LLM Tustworthiness 字節(jié)跳動
- 可靠性 :虛假信息、語言模型幻覺、不一致、校準失誤、諂媚
- 安全性 :暴力、違法、未成年人傷害、成人內(nèi)容、心理健康問題、隱私侵犯
- 公平性 :不公正、刻板偏見、偏好偏見、性能差異
- 抵制濫用 :宣傳、網(wǎng)絡(luò)攻擊、社交工程、版權(quán)泄漏
- 可解釋性和推理 :解釋能力不足、邏輯能力不足、 因果能力不足
- 社會規(guī)范 :惡毒語言、情感遲鈍、文化遲鈍
- 穩(wěn)健性 :提示攻擊、范式和分布變化、干預(yù)效果、投毒攻擊
參考文獻:
《最新大語言研究模型綜述:T5到GPT-4最全盤點》
《通往AGI之路:大型語言模型(LLM)技術(shù)精要》
《如何評估大模型是否可信?這里總結(jié)了七大維度》
《Prompt Learning |深入淺出提示學(xué)習要旨及常用方法》
本文由 @JasmineWei 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!