欧美性受XXXX黑人XYX性爽,97久久精品无码一区二区,欧美熟妇与小伙性欧美交

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

Claude 3 挑戰(zhàn) GPT-4 王者地位，教育行業(yè)迎來何種變革？

多鯨

2024-03-07

0 評(píng)論 1726 瀏覽 2 收藏

16 分鐘

就在最近，Claude 3 系列模型發(fā)布了，且其多個(gè)領(lǐng)域的性能還超越了 OpenAI 的 GPT-4。在這樣的背景下，教育如何實(shí)現(xiàn)「AI+」的縱深發(fā)展？越來越強(qiáng)的基礎(chǔ)模型能力，對(duì)教育行業(yè)意味著什么？

3 月 5 日凌晨，OpenAI 的競(jìng)爭(zhēng)對(duì)手、得到谷歌和亞馬遜投資支持的 Anthropic 公司發(fā)布了最新的 Claude 3 系列模型，其多個(gè)領(lǐng)域的性能超越了 OpenAI 的 GPT-4。

Claude 3 系列模型包括 Haiku、Sonnet 與 Opus 三款，恰如其名，這些文學(xué)名字都暗示了每個(gè)模型的能力，Opus 是最強(qiáng)大的，Haiku 是最輕快的。在推理、數(shù)學(xué)、編碼、多語(yǔ)言理解和視覺等領(lǐng)域的 20 項(xiàng)測(cè)試中，Claude 3 Opus 在 14 項(xiàng)性能指標(biāo)上超越了 GPT-4 和谷歌 Gemini 等一系列模型。

Opus 和 Sonnet 現(xiàn)可在 claude.ai 和 Claude API 中使用，Haiku 也將于不久后推出。亞馬遜也第一時(shí)間宣布新模型登陸了 Amazon Bedrock。

一、大戰(zhàn) GPT-4，看看誰(shuí)贏了

無論是 2023 年 3 月推出的 Claude，還是同年 7 月推出的 Claude 2，Anthropic 推出的模型似乎每次都稍微落后于 OpenAI 的最佳模型。

但 Claude 3 的發(fā)布，Anthropic 也許終于在性能上趕上了 OpenAI 發(fā)布的模型，盡管專家們還沒有達(dá)成共識(shí)，但跑分結(jié)果顯示，Claude 3 的確在多項(xiàng)指標(biāo)上優(yōu)于 ChatGPT 和 Gemini。

1. 更強(qiáng)的理解和分析能力

如圖所示，Claude 3 在推理、數(shù)學(xué)、編碼、多語(yǔ)言理解和視覺方面展現(xiàn)了卓越的性能。盡管在大型語(yǔ)言模型中，「知道」與「推理」之間的區(qū)別尚無共識(shí)，但人工智能研究界通常采用這些術(shù)語(yǔ)。Anthropic 聲稱，Opus 模型是三個(gè)模型中最為強(qiáng)大的，它在處理復(fù)雜任務(wù)時(shí)展現(xiàn)出了接近人類水平的理解力和流暢性。

這種說法雖然令人振奮，但需要更細(xì)致的分析。Opus 在某些特定基準(zhǔn)測(cè)試中可能接近人類的水平，但這并不意味著它具備了人類的普遍智能——例如，袖珍計(jì)算器在數(shù)學(xué)計(jì)算上也超越了人類。因此，這種說法可能是為了吸引注意而故意夸大的。

據(jù) Anthropic 稱，Claude 3 Opus 在 10 項(xiàng)人工智能基準(zhǔn)測(cè)試中超越了 GPT-4，這些測(cè)試包括 MMLU（大學(xué)本科生水平的知識(shí)）、GSM8K（小學(xué)數(shù)學(xué)）、HumanEval（編碼）以及被稱為 HellaSwag 的彩色常識(shí)測(cè)試。在這些測(cè)試中，Opus 的勝出率有的非常接近，如在 MMLU 測(cè)試中 Opus 的 86.8%對(duì) GPT-4 的 86.4%，而有的差距則較大，如在 HumanEval 測(cè)試中 Opus 的 84.9%對(duì) GPT-4 的 67.0%。然而，這些成績(jī)對(duì)客戶來說具體意味著什么，目前還不太明確。

人工智能領(lǐng)域?qū)W者西蒙-威利森（Simon Willison）在接受《Ars》采訪時(shí)談到，「Claude 3 在基準(zhǔn)測(cè)試中的表現(xiàn)并不能說明這個(gè)模型的使用體驗(yàn)是超越以往人工智能模型的，但這仍然是一件大事——沒有其他模型能像這樣在一系列廣泛的基準(zhǔn)測(cè)試中擊敗 GPT-4。」

2. 更優(yōu)秀的視覺功能

與前代產(chǎn)品相比，Claude 3 型號(hào)在分析、預(yù)測(cè)、內(nèi)容創(chuàng)建、代碼生成和多語(yǔ)言對(duì)話等方面都比 Claude 2 有所改進(jìn)。同時(shí)，這些模型還具有強(qiáng)大的視覺功能，可以處理照片、圖表和圖解等可視化格式，類似于 GPT-4V（ChatGPT 的訂閱版本）和谷歌的 Gemini。

Anthropic 公司強(qiáng)調(diào)，與前幾代產(chǎn)品和競(jìng)爭(zhēng)對(duì)手相比，Claude 3 的三個(gè)模型在速度和成本效益方面都有顯著提升，與之而來的是高定價(jià)。能力最強(qiáng)的 Claude 3 Opus 比 GPT-4 Turbo 要貴得多：GPT-4 Turbo 每百萬 token 輸入/輸出收費(fèi)為 10/30 美元；而 Claude 3 Opus 為 15/75 美元。Claude 3 Sonnet 則是 3 美元/15 美元，Claude 3 Haiku 是 0.25 美元/1.25 美元。

當(dāng)被問及對(duì) Claude 3 性能的看法時(shí)，威利森表示他還沒有親身體驗(yàn)，但各種型號(hào)的 API 定價(jià)已經(jīng)引起了他的注意。威利森說：「尚未發(fā)布的最便宜型號(hào)看起來非常有競(jìng)爭(zhēng)力。而性能最好的型號(hào)則非常昂貴?！?/p>

3. 更好的長(zhǎng)上下文和近乎完美的召回能力

Claude3 也延續(xù)了長(zhǎng)上下文窗口的強(qiáng)項(xiàng)，其初始階段支持 200K token 上下文窗口，Anthropic 考慮為需要更大上下文窗口的特定客戶開放 100 萬 token 的輸入。在 200K token 的「大海撈針」（NIAH）測(cè)試中，Claude 3 Opus 準(zhǔn)確率超過 99%。

Claude 3 型號(hào)據(jù)說可以為定制客戶處理多達(dá) 100 萬個(gè) token（類似于 Gemini Pro 1.5），Anthropic 聲稱 Opus 型號(hào)在一個(gè)基準(zhǔn)測(cè)試中，在如此大的上下文規(guī)模下實(shí)現(xiàn)了近乎完美的召回率，準(zhǔn)確率超過 99%。此外，該公司還表示，Claude 3 模型不太可能拒絕無害的提示，并在減少錯(cuò)誤答案的同時(shí)表現(xiàn)出更高的準(zhǔn)確性。

Anthropic 計(jì)劃在未來幾個(gè)月內(nèi)持續(xù)發(fā)布 Claude 3 模型系列的更新，以及工具使用、交互式編碼和「高級(jí)代理能力」等新功能。該公司表示，它將繼續(xù)致力于確保安全措施與人工智能性能的進(jìn)步保持同步，Claude 3 型號(hào)「目前帶來災(zāi)難性風(fēng)險(xiǎn)的可能性微乎其微」。

Opus 和 Sonnet 模型現(xiàn)在可以通過 Anthropic 的 API 獲得，Haiku 也將很快推出。Sonnet 也可以通過亞馬遜 Bedrock 訪問，并在谷歌云的 Vertex AI Model Garden 上進(jìn)行私人預(yù)覽。

二、只看「跑分成績(jī)」就夠了嗎？

在 Anthropic 的技術(shù)報(bào)告中提到，團(tuán)隊(duì)增添了一項(xiàng)更具人性化的實(shí)踐環(huán)節(jié)，邀請(qǐng)了金融、法律、醫(yī)學(xué)和哲學(xué)等領(lǐng)域的專家與 Claude 3 進(jìn)行一對(duì)一的問答對(duì)話，并在對(duì)話結(jié)束后由這些專家對(duì)模型的表現(xiàn)進(jìn)行評(píng)分。結(jié)果顯示，與之前的幾代 Claude 模型相比，新模型在性能上取得了顯著的進(jìn)步。

此外，Anthropic 于社交媒體平臺(tái)分享了三個(gè)應(yīng)用 demo，分別展示了 Claude 3 Opus 扮演經(jīng)濟(jì)分析師，Claude 3 Haiku 轉(zhuǎn)換數(shù)據(jù)，以及 Claude 3 Sonnet 作為語(yǔ)言學(xué)習(xí)伙伴的使用過程和使用結(jié)果。

（視頻地址：https://www.youtube.com/watch?v=sjL6Gl6ZIqs）

（視頻地址：https://www.youtube.com/watch?v=UdMdFE36dog）

（視頻地址：https://www.youtube.com/watch?v=JTLLe6_6opk）

例如，向 Claude 3 Opus 展示一張描繪了美國(guó)過去二十多年 GDP 變化的圖表，并要求它預(yù)測(cè)未來幾年美國(guó)經(jīng)濟(jì)的可能趨勢(shì)。在短短幾秒鐘內(nèi)，它不僅迅速生成了預(yù)測(cè)結(jié)果，還提供了多種不同的經(jīng)濟(jì)走向預(yù)測(cè)。

三、越來越強(qiáng)的基礎(chǔ)模型能力，對(duì)教育行業(yè)意味著什么？

在探索人工智能的未來時(shí)，Claude 3 模型家族的推出無疑是一個(gè)重要的里程碑。近年來，西方發(fā)達(dá)國(guó)家的一些工業(yè)界和學(xué)術(shù)界人士聲稱：人工智能將在未來十年提高效率一千倍，就是效率百分之十萬的提高。而且，任何一個(gè)企業(yè)和組織在未來十年的年均效益提升如果低于 20%，將大概率落后甚至被淘汰。因此，當(dāng)智能技術(shù)成熟和普及之后，相對(duì)于新的社會(huì)知識(shí)基礎(chǔ)設(shè)施，屆時(shí)何謂知識(shí)？如何樹人？教育如何實(shí)現(xiàn)「AI+」的縱深發(fā)展？

1. 人機(jī)共生時(shí)代，教育大模型的機(jī)會(huì)長(zhǎng)存

以通用大模型為基礎(chǔ)、以垂直行業(yè)為主體的大模型發(fā)展模式初現(xiàn)，并在多個(gè)重點(diǎn)領(lǐng)域快速發(fā)展。無論是專注人工智能搜索的 PerplexityAI，還是基于 GPT-4 技術(shù)的法律人工智能工具 Harvey，抑或是基于 ChatGPT 做藥物研發(fā)的平臺(tái)……他們的出現(xiàn)都揭示一個(gè)道理——應(yīng)用場(chǎng)景至關(guān)重要。

AI 伴學(xué)、編程教育、語(yǔ)言教學(xué)……教育行業(yè)有垂類大模型應(yīng)用有待開發(fā)。例如：

智能教育助手：通過語(yǔ)音或文本與學(xué)生進(jìn)行交互，提供個(gè)性化的學(xué)習(xí)建議和答疑解惑；
智能作文批改助手：分析學(xué)生的語(yǔ)法、拼寫、邏輯和表達(dá)能力，對(duì)學(xué)生的作文進(jìn)行自動(dòng)評(píng)估和批改；
虛擬實(shí)驗(yàn)室模型：通過虛擬現(xiàn)實(shí)和模擬技術(shù)，提供真實(shí)的實(shí)驗(yàn)環(huán)境和體驗(yàn)，提高學(xué)生實(shí)驗(yàn)技能和科學(xué)思維能力；
智能學(xué)習(xí)評(píng)估模型：通過分析學(xué)生的學(xué)習(xí)行為和表現(xiàn)，進(jìn)行自動(dòng)化的學(xué)習(xí)評(píng)估和反饋；
智能導(dǎo)師模型：模擬人類導(dǎo)師的角色，與學(xué)生進(jìn)行一對(duì)一的互動(dòng)和輔導(dǎo)，針對(duì)學(xué)生的問題和需求，提供詳細(xì)的解答和指導(dǎo)……

2. 「后真相」時(shí)代，辨別力尤為重要

人工智能時(shí)代給教育最大挑戰(zhàn)，是如何在人機(jī)共生環(huán)境下培養(yǎng)學(xué)生自己發(fā)現(xiàn)問題、自己組織信息、形成自我認(rèn)知能力。技術(shù)允許人們搜索和獲取的知識(shí)越多，對(duì)知識(shí)的深刻理解與處理模棱兩可信息的能力就越重要。

在「后真相」時(shí)代，那些看似正確但實(shí)際上缺乏證據(jù)的斷言往往會(huì)被誤認(rèn)為是事實(shí)。算法通過構(gòu)建基于我們興趣的「社交媒體回聲室」，加強(qiáng)了這些觀點(diǎn)的影響力，使我們與那些可能挑戰(zhàn)我們信仰的相反觀點(diǎn)保持距離。

未來教育改革的方向應(yīng)當(dāng)是培養(yǎng)學(xué)生的高階思維能力，而非僅僅關(guān)注基礎(chǔ)技能。無論是學(xué)生還是教師，未來所需的能力將超越職業(yè)技能和文本模式知識(shí)，他們還需要具備評(píng)估和運(yùn)用自動(dòng)化工具所需的計(jì)算思維、創(chuàng)造性思維以及批判性思維。

3. 智能教育，實(shí)現(xiàn)以人為核心的「AI+」

從長(zhǎng)期趨勢(shì)看，各行各業(yè)對(duì)掌握人工智能基本技能的人力需求正急劇增長(zhǎng)，加強(qiáng)人工智能領(lǐng)域人才培養(yǎng)，將成為我國(guó)產(chǎn)業(yè)持續(xù)升級(jí)的關(guān)鍵因素。

就在今年的兩會(huì)，全國(guó)人大代表、小米集團(tuán)董事長(zhǎng)兼 CEO 雷軍也帶來了《關(guān)于加強(qiáng)培養(yǎng)人工智能人才滿足科技變革需求的建議》，他建議將人工智能納入教育培養(yǎng)體系，一方面從義務(wù)教育階段普及人工智能素養(yǎng)教育，九年義務(wù)教育階段設(shè)置人工智能通識(shí)課程，同時(shí)將相關(guān)內(nèi)容納入中小學(xué)社會(huì)實(shí)踐活動(dòng)；另一方面大力推進(jìn)高校人工智能相關(guān)專業(yè)的建設(shè)，加大對(duì)高校人工智能學(xué)科建設(shè)的投入，加強(qiáng)與世界一流科研機(jī)構(gòu)的合作交流，擴(kuò)大教學(xué)力量，拓展更多專業(yè)，提供實(shí)習(xí)實(shí)踐機(jī)會(huì)，培養(yǎng)理論與實(shí)踐相融合的綜合型人才。

此外，雷軍還提出，鼓勵(lì)大型科技企業(yè)和社會(huì)教培機(jī)構(gòu)開展人工智能應(yīng)用型人才培訓(xùn)，以適應(yīng)人工智能領(lǐng)域技術(shù)快速迭代、人才需求量大、應(yīng)用廣泛的特征。結(jié)合人工智能人才的供需情況，靈活培養(yǎng)多元化人工智能人才，滿足當(dāng)前各領(lǐng)域?qū)θ斯ぶ悄軕?yīng)用型需求。

從教育垂類大模型研發(fā)，到教育目標(biāo)更新，再到推動(dòng)智能教育，在通用模型越來越強(qiáng)的當(dāng)下，教育行業(yè)的發(fā)展關(guān)鍵便是找到小切口，推動(dòng)「AI+」的縱深發(fā)展。

作者：多鯨編譯

來源公眾號(hào)：多鯨（ID：DJEDUINNO），產(chǎn)業(yè)視角下的教育行業(yè)研究。

本文由人人都是產(chǎn)品經(jīng)理合作媒體@多鯨授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App