從“NLP技術”到“AI大模型”

0 評論 3280 瀏覽 21 收藏 7 分鐘

自從AI大模型問世以來,仿佛很少有人提及NLP技術這個詞了。昨天休息的時候突然在想一個問題,AI大模型已經如此強大了,還需要傳統的NLP技術嗎?

傳統的NLP技術指:從分詞(ws)、詞性標注(pos)、命名實體識別(ner)、依存句法分析(dp)、語義角色標注(srl)等過程。

傳統的NLP技術主要應用一些基于規則、統計學的機器學習模型來實現。而AI大模型核心是基于詞嵌入技術來進行實現,相當于是一種暴力解題的方式,通過超大規模參數來達到模型涌現的能力。

二者最核心的區別在于2個:一個是訓練所需的數據不在同一個一個數量級上,傳統的NLP技術處理的更多的是企業內部定向任務的數據,而AI大模型則應用全網數據來實現;另一個則是在技術實現的抽象層次不同。

NLP技術是直接應用人力可以理解的語言規則來實現;而AI大模型則是將語言規則抽象成向量,然后通過深度神經網絡來進行訓練,在神經網絡中面對抽象后的高維向量,人力已無法理解,這也是AI大模型的解釋性比較差的原因。???????????????????????????????????????????????????????????????????????????????????

在讓機器理解人類語言這件事兒上,現在看來可以劃分為2個階段:NLP技術階段、和AI大模型階段,每個階段都有其獨特的技術特點和里程碑事件。以下是這兩個階段的技術演變過程的詳細梳理。

一、傳統NLP技術階段

1. 早期方法(1950s – 1990s)

早期的NLP主要依賴于規則-based的方法和基于詞典的系統。技術包括語法分析、模式匹配、關鍵詞提取等。

2. 統計學習方法的興起(1990s – 2000s)

統計學習方法開始應用于NLP,如隱馬爾可夫模型(HMM)和條件隨機場(CRF)。這些方法能夠處理序列數據,并且對標記數據的需求較少。

3. 淺層和深層學習(2000s – 2010s)

特征工程和機器學習方法(如支持向量機SVM)在這一時期得到了廣泛應用。出現了一些重要的NLP任務,如情感分析、命名實體識別、機器翻譯等。

4. 語義角色標注和語義解析(1998 – 2000s)

FrameNet和語義角色標注的提出,推動了淺層語義解析的發展。共享任務和評估標準(如CoNLL)促進了核心NLP任務的研究。

二、AI大模型階段

1. 詞嵌入的革命(2013年前后)

Word2Vec和GloVe等詞嵌入技術的提出,使得NLP能夠更好地捕捉詞匯的語義信息。詞嵌入技術的出現為后續的深度學習模型奠定了基礎。

2. 神經網絡的突破(2013年 – 2014年)

循環神經網絡(RNN)、卷積神經網絡(CNN)、長短期記憶網絡(LSTM)開始應用于NLP任務。這些網絡能夠捕捉文本數據中的序列特征和局部依賴關系。

3. 預訓練語言模型的興起(2018年前后)

BERT、GPT、XLNet等預訓練語言模型的出現,極大地推動了NLP技術的發展。這些模型通過在大規模文本數據上進行預訓練,學習到了豐富的語言表示。

4. Transformer架構的普及(2017年 – 至今)

Transformer架構的提出,特別是在BERT和GPT系列模型中的應用,成為了NLP領域的核心技術。Transformer能夠有效處理長距離依賴問題,并且支持多任務學習和遷移學習。

5. 大模型的挑戰與創新(2022年代)

大模型雖然在多個NLP任務上取得了顯著的性能提升,但也面臨著諸如可解釋性、偏見、倫理和隱私等挑戰。研究人員和開發者正在探索如何設計和訓練更加安全、可控和可解釋的大模型。

三、總結

傳統的NLP技術是人類探索機器理解自然語言的一個過程,如果沒有這個過程,那么后面的詞嵌入、預訓練模型、以及AI大模型可能就不會誕生了,正是由于傳統NLP技術在應用層的惰性,才激發了研究人員的新思考,做出重大突破。

所以,回到文初的那個問題:AI大模型已經如此強大了,還需要傳統的NLP技術嗎?

當然如果你是從事應用層工作的人員,個人覺得不需要再去研究傳統的NLP技術了,直接從詞嵌入階段開始了解即可。???????????????????????????????????????????????????????????

而如果你是偏科研方面的工作人員,則非常有必要去研究一下,傳統的NLP技術,知其因,才能更好的解其果,這是奠定科研工作的基礎。?????????

本文由人人都是產品經理作者【長弓PM】,微信公眾號:【AI產品經理社】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!