人工智能的負(fù)效應(yīng):沒有大語言模型的語種未來會(huì)消亡

0 評(píng)論 2113 瀏覽 2 收藏 28 分鐘

隨著大語言模型技術(shù)的不斷發(fā)展,解決語言表示和效率的不平衡問題變得至關(guān)重要。但實(shí)際上,AI自身也有偏見。

“ en-US ”一直是美式英語的語言標(biāo)識(shí)符,在ChatGPT橫空出世之后,有了新的含義:英語/美國(guó)作為大語言模型(Large Language Model)的超級(jí)指令語言和超級(jí)大國(guó),逐漸在新一輪AI競(jìng)爭(zhēng)中領(lǐng)先世界其他語種和國(guó)家。

在長(zhǎng)期使用ChatGPT和其他大語言模型的過程中,我一直想探索這些模型對(duì)世界其他語種支持的邊界。

比如說:

1.為什么ChatGPT能在各個(gè)語種中自由切換,支持自如?

2.到底ChatGPT支持多少種語言?

3.ChatGPT對(duì)中文的支持和英文一樣好嗎?

4.在大語言模型中,是不是有一些“二等公民”和“一等公民”?

分析的結(jié)果令人瞠目結(jié)舌。

美國(guó)人訓(xùn)練出來的模型對(duì)美式英文有壓倒性的支持,而世界上幾千種語言其實(shí)能支持的好也就不過十來種。

這也解釋了為什么每個(gè)國(guó)家或者語種都需要自己的大語言模型,才能在新一輪人工智能的工業(yè)革命中跟上其他國(guó)家前進(jìn)的步伐。

這篇文章結(jié)合了我的實(shí)踐經(jīng)驗(yàn)和定量分析,最終得出以下結(jié)論:

1.大語言模型可以兼容Unicode中的所有161種語言。

2.英語占GPT-3訓(xùn)練數(shù)據(jù)的90%以上。

3.英語是大語言模型最有效的提示語言——它比西班牙語有效1.3倍、比法語有效1.5倍、比CJK(中文、日語、韓語)有效2倍。

4.大約10種高資源語言得到了大語言模型的充分支持。

5.Unicode中其他150種語言資源匱乏,代表性不足。

6.全球有近7,000種語言缺乏大語言模型支持。

01 你講的語言是高資源還是低資源

傳統(tǒng)自然語言處理(NLP, Natural Language Processing)研究會(huì)把語言分類成高資源(high resource)語言和低資源(low resource)語言。前者涵蓋約20種語言,包括英語、中文、西班牙語、法語、德語、日語、俄語、葡萄牙語、阿拉伯語、印地語、意大利語、韓語、荷蘭語、土耳其語、波斯語、瑞典語、波蘭語、印度尼西亞語、越南語、希伯來語。

這些高資源語言有著豐富的語言資源,例如廣泛的文本、用于機(jī)器翻譯的平行語料庫、綜合詞匯詞典、句法注釋和用于監(jiān)督學(xué)習(xí)的標(biāo)記語料庫。

也有一些高資源語言,如荷蘭語,可能沒有大量的使用者,但有著強(qiáng)大的語言研究學(xué)者和成果,產(chǎn)出了重要的語言語料庫和工具,于是也成了高資源語言。

相反,某些低資源語言,例如尼日利亞皮欽語(Nigerian Pidgin),有超過 1 億人使用,但缺乏大量的研究和開發(fā),使其處于低資源狀態(tài)。學(xué)術(shù)界一直苦于低資源語種的投資不足。

如果一個(gè)語言有足夠多的人使用還好,至少還能世代流傳下去。有些低資源語種,本來使用者就不多,又缺乏足夠的研究,使得它們也逐漸變成了“瀕危語種”。

以ChatGPT為代表的大語言模型的出現(xiàn),仿佛給世界語言帶來了一束光。

大家發(fā)現(xiàn),不需要訓(xùn)練專門的機(jī)器翻譯系統(tǒng),ChatGPT也能在不同語種之間自由翻譯和轉(zhuǎn)換。用ChatGPT做翻譯,或者使用其他語言去給ChatGPT發(fā)指令,往往給非英語說話人留下深刻的第一印象。

很多人對(duì)語言智能的認(rèn)知還停留在金山詞霸階段 —— 有個(gè)多語種的電子詞典可以做雙語種互相翻譯??墒侨绻羞@么個(gè)ChatGPT神器,可以接受我用母語輸入,并能夠用我看得懂的語言智能地做出回答,可真是太神奇了。

于是很多人不禁要問,既然大語言模型這么神奇,是不是這世界上的低資源語言也有救了?

語言學(xué)鼻祖Noam Chomsky畢生致力于發(fā)展一門世界通用語法(Universal Grammar)。他有一段非常出名的比喻:如果外星人來到地球,他們能夠聽懂讀懂地球上的所有語言。因?yàn)樵谒麄兛磥?,地球上每一種語言都遵循同樣的語法,只不過大家說的是不同的“方言”而已。

如果ChatGPT能在多種語言之間切換自如,那它是否破解了這世界通用語法的奧秘?

02 低資源語言在大語言模型

中的代表性仍然不足盡管大語言模型具有變革潛力,但現(xiàn)實(shí)仍然是大語言模型主要迎合英語和少數(shù)其他高資源語言。

對(duì)GPT-3等模型使用的訓(xùn)練語料庫進(jìn)行仔細(xì)檢查后發(fā)現(xiàn),各語種存在明顯的不平衡:

  • 英語占主導(dǎo)地位:GPT-3的訓(xùn)練語料絕大多數(shù)是英語,占數(shù)據(jù)的92.6%?。ChatGPT(基于 GPT-3.5)等后續(xù)模型延續(xù)了這一趨勢(shì)。
  • 有限代表的語言(分析僅限于GPT-3語料庫):
  • 只有兩種語言占GPT-3語料庫的1%以上,即法語 (1.8%) 和德語 (1.5%)。
  • 另外14種語言落在0.1%到1%的范圍內(nèi),包括西班牙語、意大利語、葡萄牙語、荷蘭語、俄語、羅馬尼亞語、波蘭語、芬蘭語、丹麥語、瑞典語、日語、挪威語。
  • 值得注意的是,像中文和印地語這樣的語言,總共有超過20億人使用,甚至沒有達(dá)到語料庫0.1% 的門檻。
  • 訓(xùn)練數(shù)據(jù)集中度:GPT-3訓(xùn)練語料庫中排名前16位的語言有明顯的頭部效應(yīng):加起來一共占99.24%。
  • 單詞覆蓋范圍有限:GPT-3訓(xùn)練語料庫中只有65種語言的單詞數(shù)超過100萬,其中第65種語言是高棉語。雖然在柬埔寨有1700萬人使用高棉語,但它在GPT-3的訓(xùn)練語料庫中只有區(qū)區(qū)100萬個(gè)詞。

ChatGPT對(duì)英語和精選高資源語言的偏向并非OpenAI(ChatGPT的母公司)有意為之;因?yàn)檎Z料大部分來自互聯(lián)網(wǎng),而互聯(lián)網(wǎng)反映的是一個(gè)國(guó)家和語種的富裕、開放、和活躍程度。

大語言模型在很大程度上忽略了世界上7,000 種現(xiàn)存語言中的大多數(shù)。例如,以下使用人數(shù)眾多的語言貢獻(xiàn)了不到 1% 的互聯(lián)網(wǎng)文本內(nèi)容,因此很難收集足夠的數(shù)據(jù)來訓(xùn)練一個(gè)專門針對(duì)這門語言的大語言模型:

1.印地語:6.02 億使用者

2.阿拉伯語:2.74億使用者

3.孟加拉語:2.73億使用者

4.烏爾都語:3.21億使用者

語言使用者和可用文本數(shù)據(jù)之間的差異導(dǎo)致了語言多樣性之間的不平衡。這個(gè)問題的源頭更多的是一個(gè)國(guó)家的發(fā)展情況和投資力度,我們會(huì)在下篇博文中詳述。

對(duì)于旨在支持更廣泛語言的大語言模型來說,這也是一個(gè)根本性的挑戰(zhàn):如果一種語言在網(wǎng)絡(luò)上只有少量文本,那就沒有適合這門語言的大語言模型。如果一種語言在網(wǎng)絡(luò)有大量文本,也需要其代表國(guó)家加大投資力度才能發(fā)展出有本身語言特色的大語言模型。

于是我根據(jù)ChatGPT的支持力度對(duì)世界語言進(jìn)行了分類:

ChatGPT-3.5 對(duì)高資源和低資源語種的支持情況

03 英語是大語言模型

最有效的“編程語言”大語言模型有一個(gè)輸入和輸出的限制,以token數(shù)目表示。如果token數(shù)太少,比如只有區(qū)區(qū)1000個(gè),那能做的事情就很有限。

這有點(diǎn)像早期的個(gè)人電腦,只有16KB的內(nèi)存,跑不了“大程序”。而如今有一些智能手機(jī)都有了16GB的內(nèi)存,是以前的1000倍。至于一個(gè)token是多少個(gè)英文單詞或者漢字,我們?cè)诤笪慕忉尅?/p>

GPT-3.5-turbo和GPT-4-turbo等語言模型的token長(zhǎng)度一直在增長(zhǎng)。截至 2024年5月, GPT-4-turbo已經(jīng)支持多達(dá)128K個(gè)token 。這里K代表一千(Kilo)。128K也就是12萬8千個(gè)token。如何去優(yōu)雅又節(jié)省地給大語言模型寫提示語已成為一門手藝。

截至2024年5月的GPT Turbo模型及其上下文長(zhǎng)度限制給大語言模型下指令有點(diǎn)像往早期計(jì)算機(jī)里輸入指令,在鍵盤發(fā)明之前,需要在一條穿孔紙帶(punched cards)上一點(diǎn)一點(diǎn)把指令喂給計(jì)算機(jī)。比爾蓋茨和保羅阿蘭最早開始合作編程的時(shí)候就是這么操作計(jì)算機(jī)的。

早期IBM穿孔紙帶:12行80列,大致能輸入80字節(jié)的指令。

GPT-4可以輸入128K字節(jié)的指令那么問題來了:哪種語言能夠用最少的token表達(dá)最多的意思?中文嗎?咱們老祖宗留給我們的瑰寶一向言簡(jiǎn)意賅呀。這是否意味著可以使用中文作為 ChatGPT的指令提示語言?

如果再深入一步,這個(gè)世界上還有比中文更“簡(jiǎn)潔”的語言嗎?

語言簡(jiǎn)潔度排名:

從中文到英語到西班牙語到日語

有很多研究從不同角度探討了如何確定世界上各種語言的簡(jiǎn)潔度。在這里我們引用兩個(gè)研究供大家參考。

翻譯同一文本后的長(zhǎng)短有人對(duì)公共互聯(lián)網(wǎng)上谷歌隱私政策的不同語言翻譯進(jìn)行了評(píng)估。

以下是按字符總數(shù)排名的語言示例:

1.繁體中文:101個(gè)字符

2.簡(jiǎn)體中文:124個(gè)字符

3.日語:215 個(gè)字符

4.英語:345 個(gè)字符

5.西班牙語:376 個(gè)字符

6.法語:417 個(gè)字符

7.越南語:403 個(gè)字符

8.印地語:500 個(gè)字符

這樣可以把各個(gè)語種的信息密度量化:繁體和簡(jiǎn)體中文確實(shí)是非常簡(jiǎn)潔的語言?。ǖ獵hatGPT不這么認(rèn)為。)

最有效的語言是什么?這張表展示了對(duì)谷歌隱私政策片段的不同語言的翻譯。

語速和簡(jiǎn)潔度另一項(xiàng)研究測(cè)量了說話的速度,基本假設(shè)是“不簡(jiǎn)潔的語言要更快的說”。

研究發(fā)現(xiàn),說西班牙語和日語的人語速很快,而說漢語和越南語的人語速很慢。

如果以越南語的簡(jiǎn)潔度為1,那語言簡(jiǎn)潔度有以下排名:

1.越南語:1

2.中文:0.94

3.英語:0.91

4.西班牙語:0.63

5.日語:0.49

當(dāng)然,這項(xiàng)研究并不一定準(zhǔn)確。因?yàn)橐环N語言的語速快慢也和當(dāng)?shù)厝说纳罟?jié)奏有關(guān)。

結(jié)合這個(gè)排名和上面的表看,這也可以從側(cè)面解釋為什么西班牙語聽起來更快。

基于以上結(jié)果,是不是說我們只要用中文寫大語言模型的指令提示就可以了?根本不是。

04 ChatGPT的詞匯主要是英語

盡管英語形態(tài)復(fù)雜,但由于以下幾個(gè)關(guān)鍵因素,英語仍然是大語言模型最青睞的“編程”語言:

  • 詞匯優(yōu)勢(shì):像ChatGPT這樣的大語言模型主要接受英語文本的訓(xùn)練,具備強(qiáng)大的英語詞匯和并能理解到語言中用詞的細(xì)微差別。
  • 提示效率:英語通常也是效率最高的提示語言。
  • 文化和語義豐富性:英語在許多領(lǐng)域都是一種通用語,提供了廣泛的文化參考和語義深度。

對(duì)于大多數(shù)大語言模型來說,英語是最有效的提示語言,原因來自O(shè)penAI 如何給每種語言編碼的。

一般的規(guī)則是:

1.對(duì)英語原生支持:英語在ChatGPT中被認(rèn)為是“一等公民”并有深度優(yōu)化。

2.Unicode編碼支持:Unicode語言共有161種,使用了字節(jié)對(duì)編碼(byte pair encoding),以確保與ChatGPT處理框架的兼容性。

3.非Unicode無法編碼:遺憾的是,ChatGPT和眾多大語言模型都不支持非 Unicode語言,因?yàn)檫@些語言無法用計(jì)算機(jī)通用的字節(jié)(byte)代表。

您聽說過ChatGPT-3.5詞匯表嗎?它包含100,261個(gè)詞,大部分來自英語。

下面是該詞匯表的節(jié)選:

1.Token舉例

a.token 0 是感嘆號(hào)!

b.第32至57個(gè)token是大寫字母 A … Z

c.token 67853 是單詞后綴 “-ish”

d.token 75459 是“battery”

e.不幸的是,“GPT”這個(gè)詞并不在詞匯表中

2.變體和同義詞

a.英文二月的各種token代表:“February”(token 7552)、“Feb”(token ?13806)、“February”(token 33877)、“Feb”(token 41691)、“feb”(token 78471)“-Feb”(token 94871)。

請(qǐng)注意,有些token帶有空格前綴。

ChatGPT 詞匯概覽ChatGPT詞匯表專門用于英語,以至于它有9個(gè)專用于“Twitter”的token!遺憾的是,其他語言在這個(gè)100K大小的詞匯表中沒有獲得應(yīng)有的token份額。這至少表明英語對(duì)于GPT模型來說是多么占主導(dǎo)地位。

ChatGPT的100,261個(gè)token詞匯表中有9個(gè)token代表Twitter

寫作效率 != 提示效率

ChatGPT對(duì)語言的編碼凸顯在了在token的使用效率上。例如,中文字符“貓”由三個(gè)token(十六進(jìn)制值:xe7、x8c、xab)表示,而英語單詞“cat”則僅需一個(gè)token表示。

Unicode字符如何分解為字節(jié)并轉(zhuǎn)換為ChatGPT token這種標(biāo)記化差異強(qiáng)調(diào)了ChatGPT中寫入效率和提示效率之間的重要區(qū)別。

當(dāng)面臨token限制(例如 GPT-3.5-turbo的 16,385個(gè)token上限)時(shí),英語成為比中文或韓語更有效的提示語言。各種語言“貓”的token效率比較:

  1. 英語:cat (貓)= 1 個(gè)token
  2. 中文:貓 = 3 個(gè)token
  3. 韓語:???(貓)= 4 個(gè)token

在向ChatGPT表達(dá)“貓”這個(gè)狹義的例子里,英語的效率是中文的3倍,是韓語的 4 倍。

在Unicode的UTF-8編碼中,字符通常為1到4個(gè)字節(jié),而世界上大多數(shù)語言字符占用2到3個(gè)字節(jié)。因此,非英語語言的標(biāo)記長(zhǎng)度往往平均每個(gè)單詞有2到3個(gè)token,與英語相比,提示效率較低。

考慮到GPT-4-turbo的擴(kuò)展上下文長(zhǎng)度最多支持128,000個(gè)token,語言效率的差異會(huì)變得更加明顯。

128k個(gè)token大概是多少個(gè)單詞?下面是一個(gè)平均值:

  • 英語:約 96,000 個(gè)單詞
  • 簡(jiǎn)體中文:約54,000個(gè)字符
  • 韓語:約 41,000 個(gè)字符

英語在提示詞效率方面是中文的1.8倍,韓語的2.3倍綜上所述,英語是ChatGPT最高效的提示語言,其提示效率是CJK(中、日、韓)語言的約2倍。

兩個(gè)其他語言的例子:克林貢語(Klingon)和爪哇語(Javanese)大語言模型對(duì)一個(gè)語種的支持取決于該語種是否被包含在標(biāo)準(zhǔn)字符編碼系統(tǒng) Unicode中。

如果Unicode缺少了某種語言,那大語言模型也不會(huì)支持這種語言。

以下是Unicode不支持的語言示例:●唐薩語——印度和緬甸唐薩族使用的語言。●托托語——印度西孟加拉邦托托部落所使用語言?!癜⒁僚Z – 日本阿伊努人使用,對(duì)片假名區(qū)中的一些字符的支持有限?!馪ahawh Hmong 文——一種用于書寫苗語的文字,創(chuàng)建于20世紀(jì)中葉?!馛hakma——印度和孟加拉國(guó)的Chakma人使用?!馣pelle——利比里亞和幾內(nèi)亞的Kpelle人使用?!裢咭琳Z——利比里亞瓦伊語使用的音節(jié)文?!癜退_瓦語——一種用于書寫利比里亞巴薩語的文字??肆重曊Z(Klingon)克林貢語是《星際迷航》宇宙中的一種人造語言,但Unicode中卻沒有這種語言。因此,由于缺乏Unicode支持,ChatGPT等大語言模型無法讀取或處理克林貢語腳本。如果人類在ChatGPT基礎(chǔ)上實(shí)現(xiàn)了通用人工智能(AGI),那在馬斯克發(fā)往火星的飛船上聽到了克林貢語是理解不了的。

克林貢文字不屬于 Unicode,因此不受大語言模型支持爪哇語(Javanese)印度尼西亞爪哇島有6800萬人口使用爪哇語,它與編程語言Java有著獨(dú)特的歷史聯(lián)系。盡管Java在推動(dòng)Unicode在編程語言中的采用方面發(fā)揮著關(guān)鍵作用,但爪哇語言本身直到2009年才得到Unicode的正式支持(Unicode 5.2版)。這種延遲的納入凸顯了非西方語言在獲得 Unicode 等全球標(biāo)準(zhǔn)認(rèn)可方面所面臨的挑戰(zhàn)。截至Unicode15.1版,該版本涵蓋了161種文字和近15萬個(gè)字符,而全球共有7,000余種語言。展望未來,確保Unicode和相關(guān)標(biāo)準(zhǔn)中包含多種語言對(duì)于促進(jìn)語言多樣性和在大語言模型 等新興技術(shù)中提供全面的語言支持至關(guān)重要。

5

甚至美國(guó)參議員也認(rèn)識(shí)到“en”

與其他語言的不平衡2023年5月16日,美國(guó)參議員Padilla在與OpenAI首席執(zhí)行官山姆·奧特曼Sam Altman舉行的參議院人工智能聽證會(huì)上表達(dá)了他的擔(dān)憂(視頻1:49:38,文字記錄):參議員亞歷克斯·帕迪拉:“現(xiàn)在,隨著語言模型變得越來越普遍,我想確保重點(diǎn)關(guān)注確保不同人口群體的公平待遇。我的理解是,大多數(shù)評(píng)估和減輕公平性損害的研究都集中在英語上,而非英語語言受到的關(guān)注或投資相對(duì)較少。我們以前也見過這個(gè)問題。我會(huì)告訴你我為什么提出這個(gè)問題。例如,社交媒體公司沒有對(duì)其非英語語言的內(nèi)容審核、工具和資源進(jìn)行充分投資。我分享這一點(diǎn)不僅是出于對(duì)非美國(guó)用戶的擔(dān)憂,而且許多美國(guó)用戶在交流時(shí)更喜歡英語以外的語言。因此,我非常擔(dān)心社交媒體在人工智能工具和應(yīng)用程序中重蹈覆轍。問 Altman先生和Montgomery女士,OpenAI和IBM如何確保他們?cè)诖笮驼Z言模型中的語言和文化包容性,是否是您產(chǎn)品開發(fā)的重點(diǎn)領(lǐng)域”(令人遺憾的是,參議員帕迪拉(Padilla)從他想要緩和非英語語言的立場(chǎng)出發(fā),因此詢問ChatGPT對(duì)其他語言的支持。)山姆·奧特曼:我們認(rèn)為這非常重要。其中一個(gè)例子是,我們與冰島政府合作,以確保他們的語言被納入我們的模型中。冰島語是一種使用人數(shù)較少的語言,與互聯(lián)網(wǎng)上許多代表性語言相比,使用人數(shù)較少。我們已經(jīng)進(jìn)行過許多類似的對(duì)話。我期待與許多資源較少的語言建立類似的合作伙伴關(guān)系,將它們納入我們的模型。GPT-4與我們之前的模型不同,之前的模型擅長(zhǎng)英語,而對(duì)其他語言則不太擅長(zhǎng)。現(xiàn)在,GPT-4在大量語言方面表現(xiàn)相當(dāng)不錯(cuò)。你可以在按使用者數(shù)量排名的列表中往后看,仍然可以獲得良好的表現(xiàn)。但對(duì)于這些非常小眾的語言,我們很高興能與定制合作伙伴將該語言納入我們的模型運(yùn)行中。你問到的問題中關(guān)于價(jià)值觀和確保文化被納入其中的部分,我們同樣關(guān)注這一點(diǎn)。(您聽說過 OpenAI 在日本開設(shè)辦事處的消息嗎?也許這是定制合作伙伴關(guān)系的一部分。)

6

總結(jié)回顧C(jī)hatGPT等大語言模型(LLM)中對(duì)語言表征和效率的探索,我們得出了幾個(gè)關(guān)鍵結(jié)論:1.英語占主導(dǎo)地位:英語仍然是提示大語言模型(如 ChatGPT)的最有效語言,因?yàn)樗谀P驮~匯表中具有廣泛的token覆蓋率。這種主導(dǎo)地位凸顯了在提示工程中利用英語的實(shí)際優(yōu)勢(shì)。2.token效率:大語言模型中的token化過程揭示了不同語言之間效率的顯著差異。英語提示通常需要較少的token,而亞洲語言需要多個(gè)token來表達(dá)同樣的意思,從而影響整體提示效率。英語是ChatGPT最高效的提示語言,其提示效率是CJK (中、日、韓)語言的約2倍。3. Unicode 和語言支持:大語言模型對(duì)Unicode進(jìn)行語言編碼的依賴凸顯了標(biāo)準(zhǔn)化在實(shí)現(xiàn)語言包容性方面的重要性。Unicode中沒有的語言(如克林貢語)在獲得大語言模型支持方面面臨巨大障礙。4.語言多樣性的挑戰(zhàn):Unicode覆蓋的161種文字與世界7000種語言之間仍然存在巨大差距。Unicode中語言的代表性有限,這對(duì)保存和理解語言多樣性提出了挑戰(zhàn)。5.未來前景:隨著大語言模型技術(shù)的不斷發(fā)展,解決語言表示和效率的不平衡問題變得至關(guān)重要。努力增強(qiáng)Unicode的包容性并擴(kuò)大大語言模型架構(gòu)內(nèi)的語言支持對(duì)于促進(jìn)語言平等和文化保護(hù)至關(guān)重要??傊?,應(yīng)對(duì)大語言模型課程中語言效率和語言表達(dá)的復(fù)雜性,既是推進(jìn)語言多樣性和包容性語言技術(shù)的挑戰(zhàn),也是每個(gè)語種的機(jī)遇。每一個(gè)單一語種或者多語種的國(guó)家,都應(yīng)該把大語言模型當(dāng)作一個(gè)戰(zhàn)略資源,在提示效率和兼容性上研制出對(duì)本國(guó)語言支持最好的人工智能。當(dāng)今的現(xiàn)狀是,以token計(jì)算,ChatGPT-3.5對(duì)英文提示詞和輸出的支持效率是中文的近兩倍。當(dāng)未來的人機(jī)交互語言從編程語言變成每天說的語言時(shí),中文這么言簡(jiǎn)意賅的語言應(yīng)該享有對(duì)其支持更好更高效的大語言模型。寫完此文,不由感嘆,這世界上的語言本來各有特色,并無“貧富貴賤”之分。可是當(dāng)語言成為大語言模型的指令,成為人工智能桂冠上的明珠后,每個(gè)國(guó)家,每個(gè)語種,要重新審視自己的語言戰(zhàn)略。應(yīng)該聚集全世界說同一種語言的國(guó)家與民族的力量,大力發(fā)展最能代表自己的語言人工智能。

本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】,微信公眾號(hào):【AI新智能】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!