Claude 3 挑戰(zhàn) GPT-4 王者地位,教育行業(yè)迎來何種變革?

0 評(píng)論 1726 瀏覽 2 收藏 16 分鐘

就在最近,Claude 3 系列模型發(fā)布了,且其多個(gè)領(lǐng)域的性能還超越了 OpenAI 的 GPT-4。在這樣的背景下,教育如何實(shí)現(xiàn)「AI+」的縱深發(fā)展?越來越強(qiáng)的基礎(chǔ)模型能力,對(duì)教育行業(yè)意味著什么?

3 月 5 日凌晨,OpenAI 的競(jìng)爭(zhēng)對(duì)手、得到谷歌和亞馬遜投資支持的 Anthropic 公司發(fā)布了最新的 Claude 3 系列模型,其多個(gè)領(lǐng)域的性能超越了 OpenAI 的 GPT-4。

Claude 3 系列模型包括 Haiku、Sonnet 與 Opus 三款,恰如其名,這些文學(xué)名字都暗示了每個(gè)模型的能力,Opus 是最強(qiáng)大的,Haiku 是最輕快的。在推理、數(shù)學(xué)、編碼、多語(yǔ)言理解和視覺等領(lǐng)域的 20 項(xiàng)測(cè)試中,Claude 3 Opus 在 14 項(xiàng)性能指標(biāo)上超越了 GPT-4 和谷歌 Gemini 等一系列模型。

Opus 和 Sonnet 現(xiàn)可在 claude.ai 和 Claude API 中使用,Haiku 也將于不久后推出。亞馬遜也第一時(shí)間宣布新模型登陸了 Amazon Bedrock。

一、大戰(zhàn) GPT-4,看看誰(shuí)贏了

無論是 2023 年 3 月推出的 Claude,還是同年 7 月推出的 Claude 2,Anthropic 推出的模型似乎每次都稍微落后于 OpenAI 的最佳模型。

但 Claude 3 的發(fā)布,Anthropic 也許終于在性能上趕上了 OpenAI 發(fā)布的模型,盡管專家們還沒有達(dá)成共識(shí),但跑分結(jié)果顯示,Claude 3 的確在多項(xiàng)指標(biāo)上優(yōu)于 ChatGPT 和 Gemini。

1. 更強(qiáng)的理解和分析能力

如圖所示,Claude 3 在推理、數(shù)學(xué)、編碼、多語(yǔ)言理解和視覺方面展現(xiàn)了卓越的性能。盡管在大型語(yǔ)言模型中,「知道」與「推理」之間的區(qū)別尚無共識(shí),但人工智能研究界通常采用這些術(shù)語(yǔ)。Anthropic 聲稱,Opus 模型是三個(gè)模型中最為強(qiáng)大的,它在處理復(fù)雜任務(wù)時(shí)展現(xiàn)出了接近人類水平的理解力和流暢性。

這種說法雖然令人振奮,但需要更細(xì)致的分析。Opus 在某些特定基準(zhǔn)測(cè)試中可能接近人類的水平,但這并不意味著它具備了人類的普遍智能——例如,袖珍計(jì)算器在數(shù)學(xué)計(jì)算上也超越了人類。因此,這種說法可能是為了吸引注意而故意夸大的。

據(jù) Anthropic 稱,Claude 3 Opus 在 10 項(xiàng)人工智能基準(zhǔn)測(cè)試中超越了 GPT-4,這些測(cè)試包括 MMLU(大學(xué)本科生水平的知識(shí))、GSM8K(小學(xué)數(shù)學(xué))、HumanEval(編碼)以及被稱為 HellaSwag 的彩色常識(shí)測(cè)試。在這些測(cè)試中,Opus 的勝出率有的非常接近,如在 MMLU 測(cè)試中 Opus 的 86.8%對(duì) GPT-4 的 86.4%,而有的差距則較大,如在 HumanEval 測(cè)試中 Opus 的 84.9%對(duì) GPT-4 的 67.0%。然而,這些成績(jī)對(duì)客戶來說具體意味著什么,目前還不太明確。

人工智能領(lǐng)域?qū)W者西蒙-威利森(Simon Willison)在接受《Ars》采訪時(shí)談到,「Claude 3 在基準(zhǔn)測(cè)試中的表現(xiàn)并不能說明這個(gè)模型的使用體驗(yàn)是超越以往人工智能模型的,但這仍然是一件大事——沒有其他模型能像這樣在一系列廣泛的基準(zhǔn)測(cè)試中擊敗 GPT-4。」

2. 更優(yōu)秀的視覺功能

與前代產(chǎn)品相比,Claude 3 型號(hào)在分析、預(yù)測(cè)、內(nèi)容創(chuàng)建、代碼生成和多語(yǔ)言對(duì)話等方面都比 Claude 2 有所改進(jìn)。同時(shí),這些模型還具有強(qiáng)大的視覺功能,可以處理照片、圖表和圖解等可視化格式,類似于 GPT-4V(ChatGPT 的訂閱版本)和谷歌的 Gemini。

Anthropic 公司強(qiáng)調(diào),與前幾代產(chǎn)品和競(jìng)爭(zhēng)對(duì)手相比,Claude 3 的三個(gè)模型在速度和成本效益方面都有顯著提升,與之而來的是高定價(jià)。能力最強(qiáng)的 Claude 3 Opus 比 GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬 token 輸入/輸出收費(fèi)為 10/30 美元 ;而 Claude 3 Opus 為 15/75 美元。Claude 3 Sonnet 則是 3 美元/15 美元,Claude 3 Haiku 是 0.25 美元/1.25 美元。

當(dāng)被問及對(duì) Claude 3 性能的看法時(shí),威利森表示他還沒有親身體驗(yàn),但各種型號(hào)的 API 定價(jià)已經(jīng)引起了他的注意。威利森說:「尚未發(fā)布的最便宜型號(hào)看起來非常有競(jìng)爭(zhēng)力。而性能最好的型號(hào)則非常昂貴?!?/p>

3. 更好的長(zhǎng)上下文和近乎完美的召回能力

Claude3 也延續(xù)了長(zhǎng)上下文窗口的強(qiáng)項(xiàng),其初始階段支持 200K token 上下文窗口,Anthropic 考慮為需要更大上下文窗口的特定客戶開放 100 萬 token 的輸入。在 200K token 的「大海撈針」(NIAH)測(cè)試中,Claude 3 Opus 準(zhǔn)確率超過 99%。

Claude 3 型號(hào)據(jù)說可以為定制客戶處理多達(dá) 100 萬個(gè) token(類似于 Gemini Pro 1.5),Anthropic 聲稱 Opus 型號(hào)在一個(gè)基準(zhǔn)測(cè)試中,在如此大的上下文規(guī)模下實(shí)現(xiàn)了近乎完美的召回率,準(zhǔn)確率超過 99%。此外,該公司還表示,Claude 3 模型不太可能拒絕無害的提示,并在減少錯(cuò)誤答案的同時(shí)表現(xiàn)出更高的準(zhǔn)確性。

Anthropic 計(jì)劃在未來幾個(gè)月內(nèi)持續(xù)發(fā)布 Claude 3 模型系列的更新,以及工具使用、交互式編碼和「高級(jí)代理能力」等新功能。該公司表示,它將繼續(xù)致力于確保安全措施與人工智能性能的進(jìn)步保持同步,Claude 3 型號(hào)「目前帶來災(zāi)難性風(fēng)險(xiǎn)的可能性微乎其微」。

Opus 和 Sonnet 模型現(xiàn)在可以通過 Anthropic 的 API 獲得,Haiku 也將很快推出。Sonnet 也可以通過亞馬遜 Bedrock 訪問,并在谷歌云的 Vertex AI Model Garden 上進(jìn)行私人預(yù)覽。

二、只看「跑分成績(jī)」就夠了嗎?

在 Anthropic 的技術(shù)報(bào)告中提到,團(tuán)隊(duì)增添了一項(xiàng)更具人性化的實(shí)踐環(huán)節(jié),邀請(qǐng)了金融、法律、醫(yī)學(xué)和哲學(xué)等領(lǐng)域的專家與 Claude 3 進(jìn)行一對(duì)一的問答對(duì)話,并在對(duì)話結(jié)束后由這些專家對(duì)模型的表現(xiàn)進(jìn)行評(píng)分。結(jié)果顯示,與之前的幾代 Claude 模型相比,新模型在性能上取得了顯著的進(jìn)步。

此外,Anthropic 于社交媒體平臺(tái)分享了三個(gè)應(yīng)用 demo,分別展示了 Claude 3 Opus 扮演經(jīng)濟(jì)分析師,Claude 3 Haiku 轉(zhuǎn)換數(shù)據(jù),以及 Claude 3 Sonnet 作為語(yǔ)言學(xué)習(xí)伙伴的使用過程和使用結(jié)果。

(視頻地址:https://www.youtube.com/watch?v=sjL6Gl6ZIqs)

(視頻地址:https://www.youtube.com/watch?v=UdMdFE36dog)

(視頻地址:https://www.youtube.com/watch?v=JTLLe6_6opk)

例如,向 Claude 3 Opus 展示一張描繪了美國(guó)過去二十多年 GDP 變化的圖表,并要求它預(yù)測(cè)未來幾年美國(guó)經(jīng)濟(jì)的可能趨勢(shì)。在短短幾秒鐘內(nèi),它不僅迅速生成了預(yù)測(cè)結(jié)果,還提供了多種不同的經(jīng)濟(jì)走向預(yù)測(cè)。

三、越來越強(qiáng)的基礎(chǔ)模型能力,對(duì)教育行業(yè)意味著什么?

在探索人工智能的未來時(shí),Claude 3 模型家族的推出無疑是一個(gè)重要的里程碑。近年來,西方發(fā)達(dá)國(guó)家的一些工業(yè)界和學(xué)術(shù)界人士聲稱:人工智能將在未來十年提高效率一千倍,就是效率百分之十萬的提高。而且,任何一個(gè)企業(yè)和組織在未來十年的年均效益提升如果低于 20%,將大概率落后甚至被淘汰。因此,當(dāng)智能技術(shù)成熟和普及之后,相對(duì)于新的社會(huì)知識(shí)基礎(chǔ)設(shè)施,屆時(shí)何謂知識(shí)?如何樹人?教育如何實(shí)現(xiàn)「AI+」的縱深發(fā)展?

1. 人機(jī)共生時(shí)代,教育大模型的機(jī)會(huì)長(zhǎng)存

以通用大模型為基礎(chǔ)、以垂直行業(yè)為主體的大模型發(fā)展模式初現(xiàn),并在多個(gè)重點(diǎn)領(lǐng)域快速發(fā)展。無論是專注人工智能搜索的 PerplexityAI,還是基于 GPT-4 技術(shù)的法律人工智能工具 Harvey,抑或是基于 ChatGPT 做藥物研發(fā)的平臺(tái)……他們的出現(xiàn)都揭示一個(gè)道理——應(yīng)用場(chǎng)景至關(guān)重要。

AI 伴學(xué)、編程教育、語(yǔ)言教學(xué)……教育行業(yè)有垂類大模型應(yīng)用有待開發(fā)。例如:

  • 智能教育助手:通過語(yǔ)音或文本與學(xué)生進(jìn)行交互,提供個(gè)性化的學(xué)習(xí)建議和答疑解惑;
  • 智能作文批改助手:分析學(xué)生的語(yǔ)法、拼寫、邏輯和表達(dá)能力,對(duì)學(xué)生的作文進(jìn)行自動(dòng)評(píng)估和批改;
  • 虛擬實(shí)驗(yàn)室模型:通過虛擬現(xiàn)實(shí)和模擬技術(shù),提供真實(shí)的實(shí)驗(yàn)環(huán)境和體驗(yàn),提高學(xué)生實(shí)驗(yàn)技能和科學(xué)思維能力;
  • 智能學(xué)習(xí)評(píng)估模型:通過分析學(xué)生的學(xué)習(xí)行為和表現(xiàn),進(jìn)行自動(dòng)化的學(xué)習(xí)評(píng)估和反饋;
  • 智能導(dǎo)師模型:模擬人類導(dǎo)師的角色,與學(xué)生進(jìn)行一對(duì)一的互動(dòng)和輔導(dǎo),針對(duì)學(xué)生的問題和需求,提供詳細(xì)的解答和指導(dǎo)……

2. 「后真相」時(shí)代,辨別力尤為重要

人工智能時(shí)代給教育最大挑戰(zhàn),是如何在人機(jī)共生環(huán)境下培養(yǎng)學(xué)生自己發(fā)現(xiàn)問題、自己組織信息、形成自我認(rèn)知能力。技術(shù)允許人們搜索和獲取的知識(shí)越多,對(duì)知識(shí)的深刻理解與處理模棱兩可信息的能力就越重要。

在「后真相」時(shí)代,那些看似正確但實(shí)際上缺乏證據(jù)的斷言往往會(huì)被誤認(rèn)為是事實(shí)。算法通過構(gòu)建基于我們興趣的「社交媒體回聲室」,加強(qiáng)了這些觀點(diǎn)的影響力,使我們與那些可能挑戰(zhàn)我們信仰的相反觀點(diǎn)保持距離。

未來教育改革的方向應(yīng)當(dāng)是培養(yǎng)學(xué)生的高階思維能力,而非僅僅關(guān)注基礎(chǔ)技能。無論是學(xué)生還是教師,未來所需的能力將超越職業(yè)技能和文本模式知識(shí),他們還需要具備評(píng)估和運(yùn)用自動(dòng)化工具所需的計(jì)算思維、創(chuàng)造性思維以及批判性思維。

3. 智能教育,實(shí)現(xiàn)以人為核心的「AI+」

從長(zhǎng)期趨勢(shì)看,各行各業(yè)對(duì)掌握人工智能基本技能的人力需求正急劇增長(zhǎng),加強(qiáng)人工智能領(lǐng)域人才培養(yǎng),將成為我國(guó)產(chǎn)業(yè)持續(xù)升級(jí)的關(guān)鍵因素。

就在今年的兩會(huì),全國(guó)人大代表、小米集團(tuán)董事長(zhǎng)兼 CEO 雷軍也帶來了《關(guān)于加強(qiáng)培養(yǎng)人工智能人才滿足科技變革需求的建議》,他建議將人工智能納入教育培養(yǎng)體系,一方面從義務(wù)教育階段普及人工智能素養(yǎng)教育,九年義務(wù)教育階段設(shè)置人工智能通識(shí)課程,同時(shí)將相關(guān)內(nèi)容納入中小學(xué)社會(huì)實(shí)踐活動(dòng);另一方面大力推進(jìn)高校人工智能相關(guān)專業(yè)的建設(shè),加大對(duì)高校人工智能學(xué)科建設(shè)的投入,加強(qiáng)與世界一流科研機(jī)構(gòu)的合作交流,擴(kuò)大教學(xué)力量,拓展更多專業(yè),提供實(shí)習(xí)實(shí)踐機(jī)會(huì),培養(yǎng)理論與實(shí)踐相融合的綜合型人才。

此外,雷軍還提出,鼓勵(lì)大型科技企業(yè)和社會(huì)教培機(jī)構(gòu)開展人工智能應(yīng)用型人才培訓(xùn),以適應(yīng)人工智能領(lǐng)域技術(shù)快速迭代、人才需求量大、應(yīng)用廣泛的特征。結(jié)合人工智能人才的供需情況,靈活培養(yǎng)多元化人工智能人才,滿足當(dāng)前各領(lǐng)域?qū)θ斯ぶ悄軕?yīng)用型需求。

從教育垂類大模型研發(fā),到教育目標(biāo)更新,再到推動(dòng)智能教育,在通用模型越來越強(qiáng)的當(dāng)下,教育行業(yè)的發(fā)展關(guān)鍵便是找到小切口,推動(dòng)「AI+」的縱深發(fā)展。

作者:多鯨編譯

來源公眾號(hào):多鯨(ID:DJEDUINNO),產(chǎn)業(yè)視角下的教育行業(yè)研究。

本文由人人都是產(chǎn)品經(jīng)理合作媒體@多鯨 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!