從AI小白到大神的7個細節(jié):讓你開竅逆襲
在當今科技界,人工智能無疑是最炙手可熱的話題。然而,這個領(lǐng)域充斥著專業(yè)術(shù)語,使得理解每次技術(shù)革新的具體內(nèi)容變得頗具挑戰(zhàn)性。為了幫助讀者更好地把握時代脈搏,本文整理了一系列常見的人工智能(AI)術(shù)語,并通過簡單的例子和盡可能簡明扼要地解釋,闡述它們的含義及其重要性。
一、人工智能的本質(zhì)
人工智能,簡稱AI,是一門致力于創(chuàng)造能夠模擬人類思維過程的計算機系統(tǒng)的學(xué)科。目前,AI更多地被看作是技術(shù)甚至實體,其確切含義頗為模糊,有時也被當作營銷術(shù)語使用。
多年來,谷歌一直積極宣傳其在人工智能領(lǐng)域的深入投資。這不僅體現(xiàn)在其眾多產(chǎn)品通過AI技術(shù)得到顯著提升,也體現(xiàn)在公司推出的諸如 Gemini 這樣的智能工具上。在這些智能工具背后,是一系列基礎(chǔ) AI 模型提供動力,例如 OpenAI 開發(fā)的 GPT 模型。同時,Meta 的首席執(zhí)行官馬克·扎克伯格(Mark Zuckerberg)也常將人工智能作為個人聊天機器人的代名詞。
隨著越來越多的企業(yè)將人工智能作為其創(chuàng)新的前沿,他們對這一術(shù)語及其相關(guān)概念的使用可能會變得更加復(fù)雜和多樣化。在閱讀有關(guān)人工智能的文章或接觸市場營銷材料時,您可能會遇到許多專業(yè)術(shù)語。為了幫助您更清晰地理解這些術(shù)語,本文概述了當前人工智能討論中的一些關(guān)鍵詞匯,歸根結(jié)底,所有這些努力的核心目標都是推動計算機智能的進一步發(fā)展。
請注意,本文僅對人工智能(AI)的術(shù)語提供了一個入門級別的概覽。雖然這些術(shù)語本身可能涉及復(fù)雜的科學(xué)原理,但本文的目的是簡化這些概念,使您能夠掌握其核心要點。即使在面對高度技術(shù)性的內(nèi)容時,您也能夠輕松地理解并應(yīng)用這些基礎(chǔ)術(shù)語。
二、AI的關(guān)鍵術(shù)語
1. 機器學(xué)習(xí)(Machinelearning)
這是一種讓系統(tǒng)在數(shù)據(jù)上進行訓(xùn)練,從而對新信息做出預(yù)測的技術(shù)。機器學(xué)習(xí)是支撐眾多AI技術(shù)的基石。通用人工智能(AGI):與人類智能相當或超越人類的 AI。OpenAI 等公司正在大力投資 AGI,但許多人對其潛在風(fēng)險表示擔(dān)憂——想想我們看過的所有關(guān)于超級智能機器接管世界的電影!
2. 生成式AI(GenAI)
一種能夠生成新文本、圖像、代碼等的 AI 技術(shù)。這類工具通常在大量數(shù)據(jù)上訓(xùn)練,有時會產(chǎn)生幻覺,即錯誤地編造答案。
3. 幻覺(Hallucinations)
在某些情況下,AI 可能會產(chǎn)生“幻覺”,即它們會自信地構(gòu)造出看似合理的答案,而這些答案可能并非基于事實。換句話說,這些幻覺(如果我們用更直白的話說,就是無稽之談)可能導(dǎo)致系統(tǒng)犯下事實性錯誤或提供不合邏輯的答復(fù)。
關(guān)于人工智能的這種幻覺現(xiàn)象是否可以被糾正,學(xué)術(shù)界和業(yè)界都存在一些爭議。一方面,有人認為通過改進算法和訓(xùn)練數(shù)據(jù)可以減少幻覺的發(fā)生;另一方面,也有觀點認為,幻覺是AI在嘗試理解復(fù)雜問題時不可避免的一部分,需要我們以更開放的心態(tài)來接受和處理。
4. 偏見(Bias)
幻覺并非人工智能領(lǐng)域唯一需要關(guān)注的問題。事實上,這一問題的出現(xiàn)并不出人意料,畢竟人工智能系統(tǒng)是由人類設(shè)計和編程的。因此,它們可能會在處理數(shù)據(jù)時反映出訓(xùn)練數(shù)據(jù)中的偏見。例如,麻省理工學(xué)院媒體實驗室的杰出計算機科學(xué)家喬伊·布蘭維尼(Joy Buolamwini)和分布式人工智能研究所(DAIR)的創(chuàng)始人兼執(zhí)行董事蒂姆尼特·格布魯(Timnit Gebru),在 2018 年共同發(fā)表了一篇具有里程碑意義的論文。這篇論文揭示了面部識別技術(shù)在識別深色皮膚女性時,存在顯著的高錯誤率問題。
這一發(fā)現(xiàn)不僅凸顯了人工智能系統(tǒng)中潛在的偏見問題,也引發(fā)了對技術(shù)公平性和包容性的重要討論。隨著人工智能技術(shù)的不斷發(fā)展和應(yīng)用,確保其算法的公正性和消除偏見成為了一個亟待解決的全球性挑戰(zhàn)。
三、AI模型的架構(gòu)
1. AI 模型(AI model)
在數(shù)據(jù)上訓(xùn)練以執(zhí)行任務(wù)或做出決策的系統(tǒng)。
2. 大型語言模型(Large language models, or LLMs)
一種能夠處理和生成自然語言文本的 AI 模型。例如 Anthropic 的 Claude。
3. 擴散模型(Diffusion Models)
訓(xùn)練這些模型的過程非常獨特,首先向圖像中引入噪聲,例如添加靜態(tài)噪聲,然后通過逆向操作,教會 AI 如何從噪聲中恢復(fù)出清晰的圖像。擴散模型的創(chuàng)新之處在于它們能夠模擬從有序到無序再到有序的轉(zhuǎn)換過程,通過這種方式,AI不僅學(xué)會了識別和理解數(shù)據(jù)中的模式,還學(xué)會了如何創(chuàng)造新的、有意義的內(nèi)容。
4. 基礎(chǔ)模型(Foundation Models)
這類模型通過在海量數(shù)據(jù)集上進行訓(xùn)練,從而具備了廣泛的通用性。它們的強大之處在于,無需針對特定任務(wù)進行定制化訓(xùn)練,即可作為多種應(yīng)用程序的基礎(chǔ)。這一概念是由斯坦福大學(xué)的研究人員在 2021 年首次提出。OpenAI 的 GPT、Google 的 Gemini、Meta 的 Llama 以及 Anthropic 的 Claude 等,都是基礎(chǔ)模型的杰出代表。
此外,許多公司正在將他們的人工智能模型作為多模態(tài)模型進行推廣,這些模型不僅能夠處理單一類型的數(shù)據(jù),如文本,還能同時處理圖像、視頻等多種數(shù)據(jù)類型,滿足不同領(lǐng)域和場景的需求。
5. 前沿模型(Frontier Models)
在基礎(chǔ)模型的范疇之外,人工智能領(lǐng)域的探索者們正將目光投向所謂的”前沿模型”。這一術(shù)語通常被用作一種營銷策略,指代那些尚未公開發(fā)布的、預(yù)計在未來推出的模型。理論上,這些前沿模型在性能和能力上有望遠超當前市場上的人工智能模型,它們代表了技術(shù)進步的最前沿。
四、AI的訓(xùn)練過程
AI 模型的智能并非與生俱來,而是通過訓(xùn)練獲得的。訓(xùn)練是一個精心設(shè)計的過程,AI 模型通過分析龐大的數(shù)據(jù)集來學(xué)習(xí)如何以特定的方式理解數(shù)據(jù),從而能夠進行預(yù)測和識別模式。例如,大型語言模型通過“閱讀”海量文本進行訓(xùn)練,這使得像 ChatGPT 這樣的 AI 工具能夠”理解”用戶的查詢,并生成聽起來像人類語言的答案,以解決用戶的問題。
訓(xùn)練通常需要消耗大量的資源和計算能力,許多公司依賴于高性能的 GPU 來支持這一過程。AI 模型可以處理各種類型的數(shù)據(jù),包括文本、圖像、音樂和視頻等,這些數(shù)據(jù)在邏輯上被稱為訓(xùn)練數(shù)據(jù)。
參數(shù)是 AI 模型在訓(xùn)練過程中學(xué)習(xí)的變量,它們決定了模型如何將輸入轉(zhuǎn)換為輸出。關(guān)于參數(shù)的實質(zhì),海倫·托納(Helen Toner)給出了最佳解釋。她是喬治城大學(xué)安全與新興技術(shù)中心的戰(zhàn)略和基礎(chǔ)研究資助主任,也是前 OpenAI 董事會成員:
“參數(shù)是 AI 模型中的數(shù)字,它們決定了如何將輸入(比如一段提示文本)轉(zhuǎn)換為輸出(比如提示后的下一個單詞)。’訓(xùn)練’ AI 模型的過程包括使用數(shù)學(xué)優(yōu)化技術(shù)反復(fù)調(diào)整模型的參數(shù)值,直到模型非常擅長將輸入轉(zhuǎn)換為輸出。”
換句話說,AI 模型的參數(shù)是決定它們提供答案的關(guān)鍵因素。有時,公司會強調(diào)一個模型擁有的參數(shù)數(shù)量,以此來展示該模型的復(fù)雜性和能力。
五、AI的其他重要概念
1. 自然語言處理(NLP)
使機器能夠理解人類語言的技術(shù)。OpenAI 的 ChatGPT 就是一個基本示例:它可以理解您的文本查詢并生成文本作為響應(yīng)。另一個強大的能夠進行 NLP 的工具是 OpenAI 的 Whisper 語音識別技術(shù),據(jù)報道,該公司使用它從超過 100萬小時的 YouTube 視頻中轉(zhuǎn)錄音頻,以幫助訓(xùn)練 GPT – 4。推理(Inference):生成式 AI 應(yīng)用實際生成內(nèi)容的過程。以 ChatGPT 為例,當用戶提出如何制作巧克力曲奇的請求時,AI 能夠通過推理生成并分享食譜。這個過程體現(xiàn)了計算機在執(zhí)行本地人工智能命令時的能力,它不僅僅是簡單的數(shù)據(jù)處理,而是能夠理解、分析并創(chuàng)造性地生成響應(yīng)。
推理過程是 AI 模型智能的體現(xiàn),它涉及到對輸入數(shù)據(jù)的深入分析,以及對可能的輸出結(jié)果的預(yù)測和生成。這種能力使得 AI 能夠在各種場景中提供有用的、創(chuàng)造性的解決方案,從而極大地擴展了人工智能的應(yīng)用范圍和實用性。
2. 標記(Tokens)
“標記”是指文本中的最小單位,它可以是一個單詞、一個詞的一部分,甚至是一個單獨的字符。例如,大型語言模型(LLM)會將輸入的文本分解成這些基本的標記單元,以便進行深入分析。通過這種方式,模型能夠識別和理解標記之間的關(guān)系,并據(jù)此生成恰當?shù)捻憫?yīng)。
模型的”上下文窗口”大小,即它一次能夠處理的標記數(shù)量,是衡量其復(fù)雜性和處理能力的關(guān)鍵指標。上下文窗口越大,模型能夠考慮的信息就越豐富,從而能夠生成更加復(fù)雜和精準的輸出。例如 Kimi 的上下文數(shù)量是 20萬個漢字,其在處理長文本和復(fù)雜語境時比其他模型更加合適。
3. 神經(jīng)網(wǎng)絡(luò)(Neural Networks)
這是一種模仿人類大腦神經(jīng)元運作方式的計算機架構(gòu)。神經(jīng)網(wǎng)絡(luò)通過連接的節(jié)點處理數(shù)據(jù),這些節(jié)點在功能上與大腦中的神經(jīng)元相似。神經(jīng)網(wǎng)絡(luò)對 AI 至關(guān)重要,因為它們能夠通過學(xué)習(xí)來識別和理解復(fù)雜的數(shù)據(jù)模式,而無需依賴于傳統(tǒng)的顯式編程。
這種能力使得神經(jīng)網(wǎng)絡(luò)在許多領(lǐng)域都顯示出巨大的潛力,例如在醫(yī)療領(lǐng)域,它們可以通過分析大量的醫(yī)療數(shù)據(jù)來學(xué)習(xí)識別疾病模式,進而輔助醫(yī)生做出更準確的診斷。神經(jīng)網(wǎng)絡(luò)的這種自學(xué)習(xí)能力,不僅提升了人工智能的智能水平,也為解決現(xiàn)實世界中的復(fù)雜問題提供了新的可能性。
4. Transformer 架構(gòu)
Transformer 是一種先進的神經(jīng)網(wǎng)絡(luò)架構(gòu),它利用”注意力”機制來深入理解序列數(shù)據(jù)中各個部分之間的相互聯(lián)系。這種機制使得 Transformer 能夠捕捉詞與詞之間的細微關(guān)系,從而在處理語言和序列預(yù)測任務(wù)時表現(xiàn)出色。
以亞馬遜的一個實例為例,考慮這樣一個輸入序列:”天空的顏色是什么?”在這個例子中,Transformer 模型通過內(nèi)部的數(shù)學(xué)表示,智能地識別出”顏色”、”天空”和”藍色”這些詞匯之間的相關(guān)性和聯(lián)系?;谶@種理解,模型能夠生成一個準確的輸出:”天空是藍色的。”
Transformer 不僅在功能上極為強大,其訓(xùn)練速度也優(yōu)于許多其他類型的神經(jīng)網(wǎng)絡(luò)。自從 2017 年谷歌的前員工發(fā)表了開創(chuàng)性的 Transformer 論文以來,這種架構(gòu)已經(jīng)成為推動生成式人工智能技術(shù)發(fā)展的關(guān)鍵因素。事實上,”ChatGPT”中的”T”就代表了 Transformer,這表明了它在我們?nèi)粘υ捄徒换ブ械暮诵淖饔谩?/p>
5. RAG 技術(shù)
RAG 是”檢索增強的生成”(Retrieval-Augmented Generation)的縮寫,它代表了一種先進的人工智能技術(shù)。RAG 允許 AI 模型在生成內(nèi)容時,不僅依賴于其訓(xùn)練數(shù)據(jù),還能從外部資源中檢索并整合相關(guān)信息,從而顯著提升生成內(nèi)容的準確性和可靠性。
例如,當您向一個 AI 聊天機器人提出問題,而該問題超出了它的訓(xùn)練知識范圍時,傳統(tǒng)模型可能會基于有限的信息產(chǎn)生錯誤的推斷。然而,應(yīng)用了 RAG 技術(shù)的模型能夠主動查詢外部數(shù)據(jù)源,比如互聯(lián)網(wǎng)上的其他網(wǎng)站,以獲取更全面和準確的信息。通過這種方式,RAG 幫助 AI 模型利用最新的數(shù)據(jù)來生成更加精確和有根據(jù)的答案。
六、AI 的硬件基礎(chǔ)
1. 英偉達H100芯片
作為 AI 訓(xùn)練領(lǐng)域廣受歡迎的圖形處理單元(GPU),H100以其卓越的性能在業(yè)界備受青睞。它被認為在處理 AI 工作負載方面,相較于其他服務(wù)器級 AI 芯片具有顯著優(yōu)勢。這種優(yōu)勢使得英偉達在全球范圍內(nèi)對 H100的需求居高不下,進一步鞏固了其作為世界上最有價值的公司之一的地位。
2. 神經(jīng)處理單元(Neural Processing Unit, NPU)
這是一種專為計算機、平板電腦和智能手機等設(shè)備設(shè)計的專用處理器,它能夠高效地執(zhí)行人工智能推理任務(wù)。蘋果公司則使用“神經(jīng)引擎”這一術(shù)語來描述類似的技術(shù)。與傳統(tǒng)的中央處理單元(CPU)或圖形處理單元(GPU)相比,NPU 在處理各種 AI 驅(qū)動的任務(wù)時表現(xiàn)出更高的能效比,例如在視頻通話中實現(xiàn)背景虛化功能。
3. TOPS指標
TOPS,即“每秒萬億次操作(Tera Operations Per Second),是一種衡量芯片處理能力的指標。技術(shù)供應(yīng)商經(jīng)常使用這個術(shù)語來展示他們的芯片在執(zhí)行人工智能推理任務(wù)時的卓越性能。TOPS 數(shù)值越高,表明芯片在處理復(fù)雜 AI 算法時的速度和效率越強。
七、AI領(lǐng)域的主要參與者
有許多公司已成為開發(fā)人工智能和人工智能工具的領(lǐng)導(dǎo)者。有些是根深蒂固的科技巨頭,而另一些則是較新的創(chuàng)業(yè)公司。以下是其中的一些參與者:
1. 國外
- OpenAI / ChatGPT:人工智能領(lǐng)域之所以變得如此重要,ChatGPT 功不可沒。這款由 OpenAI 在 2022 年底推出的 AI 聊天機器人迅速走紅,其影響力之大令許多大型科技公司措手不及。如今,幾乎所有科技公司都在積極展示他們在人工智能領(lǐng)域的成就。
- Microsoft / Copilot:微軟正在將其 AI 助手 Copilot 整合到旗下眾多產(chǎn)品中,該助手由 OpenAI 的 GPT 模型提供支持。這家總部位于西雅圖的科技巨頭不僅在產(chǎn)品上與 OpenAI 深度合作,還持有其 49%的股份。
- Google / Gemini:谷歌正致力于通過 Gemini 為其產(chǎn)品注入動力,Gemini 既是谷歌 AI 助手的名稱,也代表了公司開發(fā)的一系列 AI 模型。
- Meta / Llama:Meta 的人工智能研發(fā)聚焦于 Llama 模型,即大型語言模型 Meta AI。與其他科技巨頭的閉源模型不同,Llama 是開源的,這使得它在 AI 領(lǐng)域具有獨特的地位。
- Apple / Apple Intelligence:蘋果在其產(chǎn)品中不斷加入以 AI 為中心的新功能,這些功能在 Apple Intelligence 的框架下進行開發(fā)。值得注意的是,ChatGPT 已被集成到 Siri 中,為用戶帶來全新的智能體驗。
- Anthropic / Claude:Anthropic 是由前 OpenAI 員工創(chuàng)立的 AI 公司,其開發(fā)的 Claude AI 模型備受矚目。亞馬遜已向 Anthropic 投資40億美元,谷歌也投入了數(shù)億美元,并有可能進一步投資 15 億美元。此外,Anthropic 最近聘請了 Instagram 聯(lián)合創(chuàng)始人邁克·克里格擔(dān)任首席產(chǎn)品官,這一舉措進一步凸顯了公司在 AI 領(lǐng)域的雄心。
- xAI / Grok:這是埃隆·馬斯克參與的人工智能公司,其開發(fā)的 Grok 作為大型語言模型備受期待。該公司最近完成了 60億美元的融資,顯示出其在 AI 領(lǐng)域的強大潛力。
- Perplexity:Perplexity 是一家以其人工智能驅(qū)動的搜索引擎而聞名的公司。然而,該搜索引擎因其數(shù)據(jù)抓取行為而受到一些爭議。
- Hugging Face:作為一個 AI 模型和數(shù)據(jù)集的目錄平臺,Hugging Face 為用戶提供了一個集中的資源庫,以探索和利用各種 AI 技術(shù)。
2. 國內(nèi)
- 百度/文心大模型:百度的文心大模型是一系列知識增強型的人工智能模型,旨在為各行各業(yè)的 AI 開發(fā)提供基礎(chǔ)和支持,模型覆蓋了包括自然語言處理(NLP)、計算機視覺(CV)和跨模態(tài)任務(wù)等多個AI領(lǐng)域。
- 阿里巴巴/通義大模型:阿里巴巴的通義大模型是阿里巴巴達摩院自主研發(fā)的超大規(guī)模語言模型,其前身為通義千問,后更名為通義,意為“通情,達義”,通義大模型的應(yīng)用范圍廣泛,已在辦公、文旅、電力、政務(wù)、醫(yī)保、交通、制造、金融、軟件開發(fā)等多個領(lǐng)域進行合作和落地。
- 騰訊/混元大模型:混元大模型已經(jīng)與騰訊的多個業(yè)務(wù)和產(chǎn)品進行了廣泛的對接和集成,包括騰訊云、騰訊廣告、騰訊游戲、騰訊會議、騰訊文檔、微信搜一搜等超過 50個業(yè)務(wù)和產(chǎn)品。騰訊還推出了模型即服務(wù)(MaaS)解決方案,企業(yè)可以通過 API 調(diào)用混元大模型,也可以將混元作為基底模型,為不同產(chǎn)業(yè)場景構(gòu)建專屬應(yīng)用。
- 華為/盤古大模型:盤古大模型具有強大的多模態(tài)能力和復(fù)雜邏輯推理能力,盤古大模型 5.0能夠理解包括文本、圖片、視頻、雷達、紅外、遙感等在內(nèi)的多種模態(tài),生成符合物理世界規(guī)律的多模態(tài)內(nèi)容。
- 字節(jié)跳動/豆包大模型:豆包大模型包含多種類型的模型,如通用模型、角色扮演模型、語音識別模型、語音合成模型、聲音復(fù)刻模型、文生圖模型等。豆包大模型被應(yīng)用于字節(jié)跳動內(nèi)部的50多個業(yè)務(wù)場景,如抖音、番茄小說、飛書、巨量引擎等,用以提升效率和優(yōu)化產(chǎn)品體驗
- 商湯科技/日日新大模型:商湯的日日新 V5.0大模型在多模態(tài)能力上全面對標 GPT-4 Turbo,性能在多個評測中達到或超越了 GPT-4 Turbo 版本。
- 科大訊飛/星火大模型:這是一個具有強大中文處理能力的認知智能大模型,具備文本生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)能力、代碼能力、多模交互等七大核心能力。
本文由 @阿木聊AI(智能體) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
- 目前還沒評論,等你發(fā)揮!