語言模型到底是什么?

0 評論 348 瀏覽 0 收藏 18 分鐘

對于大多數人來說,語言模型的概念非常抽象而難以理解。本文將從研究者的視角出發,深入淺出地解釋語言模型的內涵,幫你揭開語言模型的神秘面紗。

有人問你:語言模型到底是什么?怎么解釋?

如果說,它是一種預測生成自然語言的模型,能夠理解一個人標的問題,然后給出答案。你可能略聽懂一二,但想深入理解就難了。怎么辦?

我們不妨從研究者視角,來看看他們眼中的語言模型。

01

以前,人們研究語言時,常使用「自動機」這個概念。

喬姆斯基就提倡大家用自動機來研究語言,自動機的工作原理是:如果你說的一句話是對的,它就接受;如果是錯的,它就拒絕。這就像寫一個程序,用來判斷句子是否正確。

但語言模型的想法有些不同,它認為,句子并不是非黑即白的,而是有一定的“軟性”。

比如:你說“中國的首都是北京”,這句話是對的,概率很高。但如果你說“美國的首都是北京”,雖然這句話在語法上沒問題,但事實是錯誤的。

語言模型不會直接拒絕它,而是認為它的概率比較低。

語言模型會把句子中的每個詞(比如“中國”、“首都”、“北京”)組合起來,計算它們的聯合概率。如果我們能準確預測這個聯合概率,就說明我們對語言的理解比較準確。

這里有一個重要的信念:如果我們能通過聯合概率模型判斷出“中國的首都是北京”是對的,而“美國的首都是北京”是錯的,那么這個模型就具備了一些類似人類的知識。

也就是說,人工智能可能就隱藏在準確預測聯合概率的過程中。所以,如果我們能把語言模型做好,就相當于獲得了人工智能的能力。

當然,關于這方面,有不同的觀點。

比如,伊利亞(OpenAI的ChatGPT團隊)認為,只要你能準確預測下一個詞,就意味著你對現實世界的理解非常準確。

但也有反對的聲音,比如圖靈獎得主Judea Pearl,他研究的是因果推理,他認為僅僅通過統計來預測語言是不夠的,真正的理解需要通過因果推理來實現。

所以,語言模型爭論從1960年的符號主義出現,到1980年,一直在爭論。

后來,基于統計學的NPL出現后,后來人們稱它為“自回歸模型”,它的目標不是直接預測整個句子的聯合概率,而是把這個聯合概率拆分成多個條件概率。

簡單來說,就是通過前面的詞來預測下一個詞。比如,我們要說一句話:“Today is Monday?!边@句話沒問題,那么它的概率是怎么算的呢?

首先,第一個詞“Today”出現的概率是多少?然后,在已知第一個詞是“Today”的情況下,第二個詞“is”出現的概率是多少?接著,在已知前兩個詞是“Today is”的情況下,第三個詞“Monday”出現的概率是多少?

把這些概率乘起來,就得到了整個句子的概率。這種方法叫做「自回歸」。

自回歸模型概念最早可以追溯的喬治·尤爾(George Udny Yule)在1927年的研究工作,直到20世紀70年代這個想法才進一步得到驗證。

不過,實際操作中,這種建模方式有點難。

因為如果句子特別長,后面的詞需要依賴前面很多詞,而語料庫中恰好出現一模一樣句子的概率很低。

所以,大家通常會用“n-gram”語言模型來簡化問題?!皀-gram”模型是什么意思呢?就是限制一下,只看前面的幾個詞。比如,1-gram就是只看當前詞,每個詞獨立統計概率。

舉個例子:

如果我們用《人民日報》的語料來建模型,統計每個字出現的概率,然后按這個概率隨機生成句子。這樣生成的句子可能不太通順,但如果逐漸增加n-gram的長度,比如到4-gram或5-gram,生成的句子就會更通順,甚至有點《人民日報》的味道。

不過,n-gram模型也有問題。如果n設得太大,比如5-gram或6-gram,需要的語料量會非常大;因為連續五六個詞一起出現的情況比較少見,必須有足夠多的數據才能支持這種模型。

后來,人們基于自回歸發明了更好的方法。

1966年,鮑姆和韋爾奇提出了隱馬爾可夫模型(HMM)及其訓練方法;其實,n-gram模型很早就有,1913年馬爾可夫就用它來預測詞了;但HMM直到1966年才被發明出來,真正應用到自然語言處理中已經是1989年了。

再后來,Rabiner等人寫了一篇經典文章,教大家如何在語音識別中使用HMM,這篇文章被引用了很多次,成為了非常經典的工作。

這說明,從技術發明到實際應用,往往需要很長時間。

02

到了2000年,語言模型的發展逐漸進入快車道,人們發現,越來越多的模型效率更高,效果更好,能夠更好地建模語言。比如,2000年時,有人開始用神經網絡來預測n-gram的概率。

具體來說,就是把前面N個詞輸入神經網絡,得到一個中間結果,再把這些結果拼起來,通過另一個神經網絡預測下一個詞。

這聽起來有點“暴力”,但效果確實不錯。這篇文章也成為用神經網絡建模語言模型的開山之作,被引用了上萬次,非常重要。

再過十年,到了2010年,人們開始用循環神經網絡(RNN)來建模語言模型。

RNN好處是,它不受n-gram的限制。n-gram只能看到前面N個詞,而RNN理論上可以記住歷史上所有的詞,雖然實際使用時,由于梯度消失等問題,效果并不理想。

RNN的模型也很難訓練和調試。這一年,Mikolov等人做了一些經典工作,推動了RNN的應用。

到了2014年,序列到序列學習(seq2seq)出現了。它用LSTM(長短期記憶網絡)來解決語言模型中的梯度消失問題。LSTM通過增加記憶單元,能夠記住更久遠的信息。seq2seq與之前的模型不同,它有一個“讀”的過程。比如:

用戶輸入一個句子“ABC”,模型會從這個句子開始預測回答。這種模型引入了編碼器和解碼器的概念,為后來的語言模型奠定了基礎。

2017年,Transformer模型出現了。

它的核心是注意力機制,但更重要的是,它找到了一種適合大規模擴展的神經網絡結構。以前的RNN和LSTM很難做大,訓練速度慢,而Transformer訓練速度快,容易擴展。這使得模型規模可以變得非常大。

到了2020年,大家熟悉的GPT-3和GPT-4出現了。

它們的一個重要貢獻是提出了“縮放定律”:模型越大,效果越好。另一個突破是,它將所有自然語言處理(NLP)任務統一到一個模型中。

以前,不同的任務(比如分類、實體識別)需要不同的模型,而GPT-3認為,所有任務都可以看作語言模型問題。這為探索通用人工智能提供了新的思路。

總的來說,語言模型的發展經歷了從神經網絡到RNN,再到LSTM、Transformer,最后到GPT的過程。每一步都在推動技術的進步,讓我們離通用人工智能更近了一步。

簡單講,大語言模型從出現到現在主要的三個時期是:

一,結構主義語言學邁向行為主義語言學;二,基于喬姆斯基啟發,符號主義NLP出現;三,大家發現符號主義不是正確路線后,統計NLP才開始出現,最后,技術的各種研究到了奇點時,Transformer架構出現。

實際上,語言模型的發展過程中,我們受到了喬姆斯基的影響。

中間有一段時間,大家主要研究“生成語言學”,也就是用符號邏輯來分析語言,這種研究方式持續了一段時間,但也導致了發展速度的放緩,甚至可以說是一個低潮期。

后來,人們發現統計方法才是正確的方向。

于是,語言模型的發展速度逐漸加快,特別是最近幾年,隨著計算能力的提升,我們可以訓練越來越大的模型,也找到了更適合的模型結構。這使得語言模型的發展速度在近幾年呈現出爆炸式的增長。

03

了解完整個模型歷史脈絡后,我們不妨思考下:為什么要研究語言呢?

首先,我們要理解語言與其他信息形式的不同之處。

在研究通用人工智能時,語言為何成為重點?這是因為語言與智能之間有著獨特的緊密聯系,這種聯系是其他信息形式所不具備的。

喬姆斯基認為,語言是思考的工具。

他提出,要理解人類心智,必須研究語言,因為語言與心智密切相關。他的觀點與我們有所不同。

盡管人類的語言機制存在許多歧義和低效之處,但如果將其視為思考的工具,就會發現它實際上非常有效。因此,喬姆斯基認為語言是思考的工具。

而我們的主要觀點是“壓縮論”。

人工智能可以表現為一種壓縮的形式,語言之所以重要,是因為人類之間的交流主要依賴于語言,我們沒有更好的替代方法。然而,語言交流的帶寬其實非常低。

有一項研究指出,無論使用何種語言,人與人之間交換信息的速度大約為每秒40個比特,這個速度相當低。你可以想象,以這種速度下載一部電影需要多長時間。

因此,為了有效地交流,人類必須對信息進行壓縮。壓縮信息會損失很多細節,這促使我們形成了許多抽象概念。

這些概念使我們對世界的認知變得更加概念化,換句話說,語言是推動我們產生抽象認知的環境壓力來源。為了與他人交流,我們必須思考事物背后的規律和本質。這就是語言如此重要的原因。

舉個例子:

謝氏家錄講的是謝靈運。謝靈運生活在魏晉南北朝時期,當時他在官場上不太順利,被貶到了溫州,也就是現在的永嘉。據說,謝靈運每次見到他的弟弟慧蓮,就能寫出優美的詩篇。

有一次,他在溫州的屋子里待了好幾天,怎么也寫不出詩來。突然有一天,在迷糊的狀態下,他見到了弟弟,靈感一來,就寫出了“池塘生春草”這句詩。他說這是神助,不是他自己的話。

我們可以想象一下,謝靈運被貶到溫州后,心里很苦悶,有很多情感想要表達,他見到弟弟時,弟弟并不知道他的心情。

于是,謝靈運通過提煉,寫出了簡短的詩句,通過這種方式,用很低的信息傳遞量,把情感傳達給了弟弟,雖然弟弟理解的場景可能和實際的不一樣,但精神是一致的。這體現了人類在信息壓縮上的高智能。

再比如,不同語言對顏色的描述也有所不同。

現在大家都知道,顏色可以用色相、飽和度和亮度這三個維度來描述。

有人統計過,世界上不同的語言用哪些詞來描述顏色;比如,我們有紅色、黃色、粉色等詞匯。但在自然界中較少的藍色和紫色,我們用的詞匯就比較少,這反映了概念化的過程。

語言對我們的認知也有直接影響,這一點可以通過實驗來測量。有人研究過俄國人對顏色的認識,因為俄語和英語在描述藍色時有所不同。英語中,我們通常把藍色都稱為“blue”,然后說這是淺藍或深藍。

而俄語中,深藍和淺藍是兩個完全不同的詞。實驗發現,當給俄國人看兩個顏色時,如果兩個都是深藍或淺藍,他們分辨起來比較慢。

但如果一個是深藍一個是淺藍,他們分辨得就比較快。這說明語言對認知有影響。如果在他們分辨顏色時,再給他們一些語言上的干擾,這種速度優勢就會消失,分辨速度會變慢。

所以,通過實驗可以觀察到,語言確實對我們的認知功能有深刻的影響。

04

其二,語言的重要性不可言喻。

如果沒有語言,人類的高級思考活動可能就無法進行,語言是思考的基礎工具,它與我們人類的知識和文化有著深刻的聯系。

比如,我們的文化和科技成就都是通過語言來傳承的。你可以看到,很多知識和智慧都蘊含在語言中。

以我們中國人和美國人的思考方式為例,它們是不同的。為什么呢?

因為我們有很多成語和典故,這些都影響了我們的思維方式。比如,當一個同學在研究中遇到困難,轉而去打游戲時,我們可能會說他“玩物喪志”。

雖然大家都知道這個詞,但你知道它背后的故事嗎?它源自周武王滅商后,西呂國送給他一條藏獒,他沉迷其中,大臣勸諫說“玩物喪志”,提醒他要專心工作。這些成語雖然簡單,卻包含了豐富的歷史和智慧。

所以,語言不僅是知識的載體,還是一種高度抽象的符號系統,它對我們的認知有深刻的影響,參與了我們的各種活動。

我們通常認為,語言能力強的人,智能也較高。比如,在招學生時,我們更喜歡口齒伶俐的同學,因為他們通常能更好地表達自己的想法,做科研時也會更順利.

另外,從可行性角度來看,相比語音、視覺或視頻數據,文本數據的收集成本要低得多,因此,以語言為中心構建人工智能模型更為方便。

這是前幾天學習筆記,分享給你,總結時間留給你。

本文由人人都是產品經理作者【王智遠】,微信公眾號:【王智遠】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!