黄色av免费看,亚洲精品无码AV天堂,99久久精品国产成人综合

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

半年多過去了，ChatGPT的排名快“墊底”了

三言財(cái)經(jīng)

2023-09-08

3 評(píng)論 7263 瀏覽 1 收藏

14 分鐘

就像手機(jī)發(fā)布會(huì)總要跑個(gè)分顯示一下自己的產(chǎn)品有多牛一樣，現(xiàn)在的大模型也都是各種測(cè)評(píng)，顯示自己的XX能力排名怎樣，成績是多少。而作為大模型的發(fā)起者，OpenAI的處境如何呢？

今天，筆者無意中刷到一張圖片。

據(jù)該圖片顯示，OpenAI的GPT-4在11個(gè)大模型中（第一名序號(hào)為0），已經(jīng)排到了最后。還有網(wǎng)友配上了“GPT4：我的冤屈怎么訴？”的字樣。

這不禁讓人好奇，今年年初，ChatGPT爆火以后，其他公司才開始提大模型的概念。

這才半年多，GPT就已經(jīng)“墊底”了？

于是，筆者想看看GPT排名到底咋樣了。

一、測(cè)試時(shí)間不同，測(cè)試團(tuán)隊(duì)不同，GPT-4排第十一

從前文中圖片上顯示的信息來看，這個(gè)排名是出自C-Eval榜單。

C-Eval榜單，全稱C-Eval全球大模型綜合性考試測(cè)試榜，是由清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建的中文語言模型綜合性考試評(píng)估套件。

據(jù)悉，該套件覆蓋人文、社科、理工、其他專業(yè)四個(gè)大方向，包括52個(gè)學(xué)科，涵蓋微積分、線性代數(shù)等多個(gè)知識(shí)領(lǐng)域。共有13948道中文知識(shí)和推理型題目，難度分為中學(xué)、本科、研究生、職業(yè)等四個(gè)考試級(jí)別。

于是筆者查看了最新的C-Eval榜單。

C-Eval榜單的最新排名與前文中圖片所顯示的排名相符，排名前十一的大模型中，GPT-4排最后。

據(jù)C-Eval榜單介紹，這些結(jié)果代表zero-shot（零樣本學(xué)習(xí)）或者few-shot（少樣本學(xué)習(xí)）測(cè)試，但few-shot不一定比zero-shot效果好。

C-Eval表示，在其測(cè)試中發(fā)現(xiàn)許多經(jīng)過指令微調(diào)之后的模型在zero-shot下更好。其測(cè)試的很多模型同時(shí)有zero-shot和few-shot的結(jié)果，排行榜中顯示了總平均分更好的那個(gè)設(shè)置。

C-Eval榜單還注明了，大模型名字中帶“*”的，表示該模型結(jié)果由C-Eval團(tuán)隊(duì)測(cè)試得到，而其他結(jié)果是通過用戶提交獲得。

此外，筆者還注意到，這些大模型提交測(cè)試結(jié)果的時(shí)間有很大差別。

GPT-4的測(cè)試結(jié)果提交時(shí)間是5月15日，而位居榜首的云天書，提交時(shí)間為8月31日；排第二的Galaxy提交時(shí)間為8月23日；排第三的YaYi提交時(shí)間為9月4日。

并且，排名前16的這些大模型，只有GPT-4的名字加了“*”，是由C-Eval團(tuán)隊(duì)測(cè)試的。

于是筆者又查看了完整的C-Eval榜單。

最新的C-Eval榜單一共收錄了66個(gè)大模型的排名。

其中，名字帶“*”，也就是由C-Eval團(tuán)隊(duì)測(cè)試的，只有11個(gè)，且提交測(cè)試的時(shí)間均為5月15日。

這些由C-Eval團(tuán)隊(duì)測(cè)試的大模型，OpenAI的GPT-4排第十一，ChatGPT排第三十六，而清華智譜AI的ChatGLM-6B排在第六十，復(fù)旦的MOSS排在了第六十四。

雖然這些排名可以看出國內(nèi)的大模型發(fā)展勢(shì)頭的迅猛，但筆者認(rèn)為，畢竟不是同一團(tuán)隊(duì)在同一時(shí)間進(jìn)行的測(cè)試，不足以完全證明這些大模型誰強(qiáng)誰弱。

這就好比，一個(gè)班的學(xué)生，每個(gè)人的考試時(shí)間不同，答的試卷也都不一樣，怎么能靠每個(gè)學(xué)生的分?jǐn)?shù)比高低呢？

二、大模型開發(fā)者怎么說？多家表示在中文等能力上超過ChatGPT

最近，大模型的圈子相當(dāng)熱鬧。

又是百度、字節(jié)等8家公司大模型產(chǎn)品通過了《生成式人工智能服務(wù)管理暫行辦法》備案，可正式上線面向公眾提供服務(wù)。又是其他公司相繼發(fā)布自家大模型產(chǎn)品。

那這些大模型的開發(fā)者又都是怎么介紹自家產(chǎn)品的呢？

7月7日，在2023世界人工智能大會(huì)“大模型時(shí)代的通用人工智能產(chǎn)業(yè)發(fā)展機(jī)遇以及風(fēng)險(xiǎn)”論壇上，復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、MOSS系統(tǒng)負(fù)責(zé)人邱錫鵬表示，復(fù)旦對(duì)話式大型語言模型MOSS在今年2月發(fā)布后，還在連續(xù)不停地迭代，“最新的MOSS已經(jīng)能夠在中文能力上超過ChatGPT。”

7月底，網(wǎng)易有道上線翻譯大模型，網(wǎng)易有道CEO周楓公開表示，在內(nèi)部的測(cè)試中，在中英互譯的方向上，已經(jīng)超越ChatGPT的翻譯能力，也超過了谷歌翻譯的水準(zhǔn)。

8月下旬，在2023年亞布力論壇夏季高峰會(huì)上，科大訊飛創(chuàng)始人、董事長劉慶峰發(fā)表演講時(shí)稱，“訊飛星火大模型的代碼生成和補(bǔ)齊能力已經(jīng)超過了ChatGPT，其他各項(xiàng)能力正在快速追趕。當(dāng)前代碼能力的邏輯、算法、方法體系、數(shù)據(jù)準(zhǔn)備已就緒，所需要的就是時(shí)間和算力?！?/p>

商湯近期的新聞稿中稱，今年8月，新模型internlm-123b完成訓(xùn)練，參數(shù)量提升至1230億。在全球51個(gè)知名評(píng)測(cè)集共計(jì)30萬道問題集合上，測(cè)試成績整體排名全球第二，超過gpt-3.5-turbo以及meta公司新發(fā)布的llama2-70b等模型。

據(jù)商湯介紹，internlm-123在主要評(píng)測(cè)中，有12項(xiàng)成績排名第一。其中，在評(píng)測(cè)集綜合考試中的agieval分?jǐn)?shù)為57.8，超越gpt-4位列第一；知識(shí)問答commonsenseqa的評(píng)測(cè)分?jǐn)?shù)為88.5，排名第一；internlm-123b在閱讀理解的五項(xiàng)評(píng)測(cè)中成績?nèi)烤影袷住?/p>

此外，在推理的五項(xiàng)評(píng)測(cè)中成績排名第一。

本月初，作業(yè)幫正式發(fā)布自研銀河大模型。

作業(yè)幫表示，銀河大模型在C－Eval、CMMLU兩大權(quán)威大語言模型評(píng)測(cè)基準(zhǔn)的成績。數(shù)據(jù)顯示，作業(yè)幫銀河大模型以平均分73．7分位居C－Eval榜首；同時(shí)在CMMLU榜單Five－shot和Zero－shot測(cè)評(píng)中分別以平均分74．03分及73．85分位列第一，成為首個(gè)同時(shí)在上述兩大權(quán)威榜單平均分排名第一的教育大模型。

昨天，百川智能宣布正式開源微調(diào)后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat與其4bit量化版本。

百川智能創(chuàng)始人、CEO王小川稱，經(jīng)過微調(diào)之后的Chat模型，在中文領(lǐng)域，在Q&A問答環(huán)境，或者摘要環(huán)境里面，評(píng)價(jià)它的實(shí)際性能已經(jīng)超過ChatGPT-3.5這樣的閉源模型。

今天，在2023騰訊全球數(shù)字生態(tài)大會(huì)上，騰訊正式發(fā)布混元大模型。騰訊集團(tuán)副總裁蔣杰稱，騰訊混元大模型中文能力已經(jīng)超過GPT-3.5。

除了這些開發(fā)者的自我介紹，也有一些媒體和團(tuán)隊(duì)對(duì)一種大模型進(jìn)行評(píng)比。

8月上旬，清華大學(xué)新聞與傳播學(xué)院教授、博士生導(dǎo)師沈陽所在團(tuán)隊(duì)發(fā)布了《大語言模型綜合性能評(píng)估報(bào)告》。報(bào)告顯示，百度文心一言在三大維度20項(xiàng)指標(biāo)中綜合評(píng)分國內(nèi)領(lǐng)先，較優(yōu)于ChatGPT，其中中文語義理解排名靠前，部分中文能力較優(yōu)于GPT-4。

8月中旬，有媒體報(bào)道稱，8月11日，小米大模型MiLM-6B現(xiàn)身C-Eval、CMMLU大模型評(píng)測(cè)榜單。截至當(dāng)前，MiLM-6B在C-Eval總榜單排名第10、同參數(shù)量級(jí)排名第1，在CMMLU中文向大模型排名第1。

8月12日，天津大學(xué)發(fā)布《大模型評(píng)測(cè)報(bào)告》。報(bào)告顯示，GPT-4和百度文心一言相較于其他模型綜合性能顯著領(lǐng)先，兩者得分相差不大，處于同一水平。文心一言已經(jīng)在大部分中文任務(wù)中實(shí)現(xiàn)了對(duì)ChatGPT的超越，并逐步縮小與GPT-4的差距。

8月下旬，有媒體報(bào)道稱，快手自研的大語言模型“快意”（KwaiYii）已開啟內(nèi)測(cè)。在最新的CMMLU中文向排名中，快意的13B版本KwaiYii-13B同時(shí)位列five-shot和zero-shot下的第一名，在人文學(xué)科、中國特定主題等方面較強(qiáng)，平均分超61分。

通過上述內(nèi)容可以看出，這些大模型雖然紛紛號(hào)稱自己在某排名中居首，或者是在某某方面超越ChatGPT，但大多是在一些具體的領(lǐng)域表現(xiàn)優(yōu)異。

另外，有一些綜合評(píng)分超過了GPT-3.5或GPT-4，但GPT的測(cè)試是停留在5月的，誰能保證這近3個(gè)月的時(shí)間里，GPT沒有進(jìn)步呢？

三、OpenAI的處境

根據(jù)瑞銀集團(tuán)2月的一份報(bào)告顯示，在ChatGPT推出僅兩個(gè)月后，它在2023年1月末的月活用戶已經(jīng)突破了1億，成為史上用戶增長速度最快的消費(fèi)級(jí)應(yīng)用程序。

但ChatGPT的發(fā)展也不是那么順利。

今年7月，有不少GPT-4用戶吐槽，與之前的推理能力相比，GPT-4的性能有所下降。

有些用戶在推特以及OpenAI在線開發(fā)者論壇上指出了問題，集中于邏輯變?nèi)?、更多錯(cuò)誤回答、無法跟蹤提供的信息、難以遵循指令、忘記在基本軟件代碼中添加括號(hào)，只能記得最近的提示等等。

8月，又有一份報(bào)告稱，OpenAi可能處于潛在的財(cái)務(wù)危機(jī)中，可能于2024年底破產(chǎn)。

報(bào)告中表示，OpenAI僅運(yùn)行其人工智能服務(wù)ChatGPT每天就要花費(fèi)約70萬美元。目前，該公司正試圖通過GPT-3.5和GPT-4實(shí)現(xiàn)盈利，但是還尚未產(chǎn)生足夠的收入實(shí)現(xiàn)收支平衡。

不過，OpenAI或許也有新的轉(zhuǎn)機(jī)。

日前，OpenAI宣布，將于11月舉辦首屆開發(fā)者大會(huì)。

雖然OpenAI表示不會(huì)發(fā)布GPT-5，但OpenAI稱將有來自世界各地的數(shù)百名開發(fā)人員與OpenAI團(tuán)隊(duì)一起，提前一覽“新的工具”，并且交流想法。

這可能意味著，ChatGPT已經(jīng)取得了新的進(jìn)步。

另據(jù)澎湃新聞報(bào)道，8月30日，一位知情人士透露，通過銷售AI軟件和驅(qū)動(dòng)其運(yùn)行的計(jì)算能力，OpenAI預(yù)計(jì)將在未來12個(gè)月內(nèi)實(shí)現(xiàn)超過10億美元的收入。

今天，又有媒體報(bào)道稱，本月晚些時(shí)候摩根士丹利將推出一款和OpenAI共同研發(fā)的生成式人工智能聊天機(jī)器人。

和摩根士丹利的銀行家打交道的人，非富即貴。如果這款即將推出的生成式人工智能聊天機(jī)器人能給摩根士丹的客戶帶來不同的體驗(yàn)，對(duì)OpenAI來說，也許會(huì)是一個(gè)巨大的收獲。

人工智能時(shí)代的到來，已經(jīng)勢(shì)不可擋。至于到底誰更勝一籌，不能光靠自己說，還得讓用戶來打分。我們也相信國內(nèi)大模型一定會(huì)、一定能在各具體能力、綜合能力上趕超ChatGPT。

作者：三言Pro

來源公眾號(hào)：三言Pro（ID：sycaijing），提供新科技、新消費(fèi)、新未來的前沿資訊。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @三言財(cái)經(jīng) 授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

三言財(cái)經(jīng)

三言財(cái)經(jīng)是專業(yè)的科技新媒體，聚焦新未來新科技。

70篇作品 277453總閱讀量

APP自動(dòng)續(xù)費(fèi)套牢手機(jī)黨

03-012698 瀏覽

用哲學(xué)之源看產(chǎn)品經(jīng)理需要具備的哲學(xué)素養(yǎng)

03-213020 瀏覽

硅谷見聞：穩(wěn)健的大廠與創(chuàng)業(yè)的逆襲

09-18854 瀏覽

主流手機(jī) App 應(yīng)用內(nèi)調(diào)研觀察分析

02-064270 瀏覽

2023年私域裂變的10種玩法攻略

03-0915874 瀏覽

評(píng)論

奔跑的大毛腿

遙遙領(lǐng)先

最近來自廣東回復(fù)
朝花夕拾

排名？沒有任何意義，只有用戶才最優(yōu)發(fā)言權(quán)。好用就是好用，不是找?guī)讉€(gè)專家打幾個(gè)分就能變得好用。

最近來自湖北回復(fù)
勍爺小箴

還是用GPT舒服，還是GPT用的人最多

最近來自北京回復(fù)