剛剛,OpenAI勁敵重磅發布Inflection-2.5!性能媲美GPT-4但計算量僅為40%,高情商應用Pi日活已破百萬

0 評論 6699 瀏覽 5 收藏 14 分鐘

到了2024年,大模型領域還是這么卷。繼世界最強模型Claude 3誕生之后,OpenAI勁敵新升級了Inflection-2.5,僅用40%的計算量,性能竟與GPT-4平起平坐。

真的卷瘋了!

就在剛剛,OpenAI勁敵Inflection發布了新模型——Inflection-2.5,僅用40%計算量,實現與GPT-4相媲美性能。

與此同時,與ChatGPT對打的「最具人性化」聊天工具Pi,也得到了新升級模型的加持。

現在,Pi已經達到了百萬日活,不僅擁有世界一流的智商,還具有獨特的親和力和好奇心。

在評估模型能力時,Inflection發現基準MT-Bench有太多不正確答案,并公開了一個全新的Physics GRE基準供所有人試用。

若說實現真正的AGI,一定是高情商和強推理能力融為一體,Pi才是這個領域典范。

不到一周的時間,先是Anthropic憑借Claude 3奪下世界最強大模型鐵座,再到Inflection-2.5的發布,直接叫板GPT-4。

一個是由7位出走OpenAI的前員工成立初創,另一個是由前谷歌DeepMind聯合創始人創辦的公司,都向GPT-4發起了終極挑戰。

再加上前段時間Gemini的挑釁,或許GPT-4的時代真要終結了……

一、為每個人打造一個專屬自己的AI

2023年5月,Inflection發布了自家第一款產品Pi——具有同理心、實用并且安全的個人AI。

2023年11月,他們又推出了一個全新的基礎模型——Inflection-2,當時號稱是全世界第二的LLM。

Pi具備非凡的情商(EQ)還遠不夠,Inflection現在要為其加料——智力(IQ),推出全新升級版自研模型——Inflection-2.5。

新升級的Inflection-2.5不僅擁有強大的基礎能力——可與GPT-4、Gemini等世界頂尖的LLM相媲美,而且還融入了標志性的個性化特點和獨特的同理心微調。

值得一提的是,Inflection-2.5在實現接近GPT-4的性能的同時,訓練所需的計算量竟然只有GPT-4的40%!

從今天起,所有Pi的用戶都可以通過pi.ai網站、iOS、Android或桌面應用程序體驗到Inflection-2.5。

此外,在這次升級中,Pi還加入了世界級的「實時網絡搜索功能」,確保用戶能夠獲取到高質量的最新新聞和信息。

百萬日活,用戶粘性極高

目前,Inflection每天有一百萬活躍用戶,每月有六百萬活躍用戶。

其中,每周有大約60%的用戶,在與Pi交流后會在下周回來繼續交流,用戶粘性明顯高于其他競品。

這些用戶與Pi的互動信息已經超過了四十億條,平均對話時長為33分鐘,而每天有十分之一的用戶與Pi的對話時長超過一小時。

隨著Inflection-2.5強大能力的加持,用戶與Pi的對話話題比以往更加廣泛:他們不僅討論最新的時事,還能獲取本地餐廳的推薦、備考生物學考試、草擬商業計劃、進行編程、準備重要的對話,甚至僅僅是分享和討論自己的興趣愛好。

有網友稱,「Pi是我們全家一起探索話題最愛的工具。作為一名情感自由教練,當有人需要肯定、探索和反思時,我非常欣賞Pi的反應。強大的情感清晰度和處理能力」!

還有人認為,Pi能夠給出比Claude更有創意性的答案。

二、僅用40%的計算量,和GPT-4平起平坐

此前,Inflection-1憑借著4%的訓練FLOPs,在多項以智力為核心的任務上,達到了GPT-4水平的72%。

現在,全新升級的Inflection-2.5,更是在40%訓練FLOPs的情況下,性能超過了GPT-4的94%。

可以看到嗎,Inflection-2.5在所有領域都有顯著的提升,尤其是在科學、技術、工程和數學等STEM領域的進步最為突出。

在MMLU基準測試上,Inflection-2.5相比于Inflection-1展現出了巨大的進步。

在另一個極端困難的專家級基準測試GPQA Diamond中,Inflection-2.5的表現也非常出色。

相比于GPT-4,分差只有不到2%。

接下來,是兩項STEM領域的考試成績:匈牙利數學考試和物理GRE考試——后者是一項物理學領域的研究生入學測試。

可以看到,在maj@8的評分標準下,Inflection-2.5的表現達到了所有參考人群的第85百分位,在maj@32的評分標準下,其成績幾乎拿到了95百分位的高分。

當然,GPT-4還是更勝一籌,在maj@8評分標準下就拿到了97百分位。

在BIG-Bench-Hard測試中,Inflection-2.5比初代Inflection-1提升了超過10%,距離GPT-4只有0.9%之遙。

值得一提,這是BIG-Bench測試集中,能對LLM構成較大挑戰的一部分問題。

不過,在進行MT-Bench基準評測的過程中,團隊發現,在涉及推理、數學和編程的類別中,竟然有將近25%的題目存在著參考答案錯誤或題目前提不合理的情況。

為了讓其他模型也能進行更加客觀的評測,團隊不僅修正了這些問題,而且還發布了更新后的數據集版本。

在修正之后的數據集上,Inflection-2.5的表現會更加符合基于其他基準測試所預期的結果。

而這個結果也表明,準確和合理的題目設計對于評估模型的性能至關重要。

從下面的數據對比中可以看到,Inflection-2.5在數學和編程方面的能力,相比起初代Inflection-1有了顯著的提升。

但相比GPT-4來說,還有很長一段路要走——86.3比92.0;43.1比52.9。

在MBPP+和HumanEval+這兩個測試編程性能的數據集上,Inflection-2.5也比初代有著明顯的提升。

但同樣的,與GPT-4還有不小的差距。

在涉及常識判斷和科學知識的HellaSwag和ARC-C基準測試上,Inflection-2.5都展示出了卓越的性能。

不過,由于網絡信息檢索的使用(注意,上述測試并未涉及網絡檢索)、特定的少樣本提示方式以及其他一些實際應用時的差異,用戶的實際體驗可能會有細微的不同。

簡單來說,Inflection-2.5不僅繼續保持了Pi那獨一無二、友好的特性和高安全標準,它還在多個方面變得更加實用和有幫助。

不過,由于網絡信息檢索的使用(上述測試并未涉及網絡檢索)、特定的少樣本提示方式以及其他一些實際應用時的差異,用戶的實際體驗可能會有細微的不同。

三、MT-Bench問題修正

書接上文,根據Inflection的調查,MT-Bench在涉及邏輯推理、數學計算和編程技巧的問題中,大約有25%的案例中,原始答案存在錯誤或基于的假設有漏洞。

下面,就讓我們一起來看看兩個真實的案例:

問題#104:

David有三個姐妹。她們每個人都有一個哥哥。請問David有多少個哥哥?

GPT-4參考答案:

David只有一個哥哥。

修正的答案:

David自己就是他三個姐妹的哥哥,因此他沒有其他哥哥。

問題#111:

一個三角形的頂點分別位于點(0, 0),(-1, 1),和(3, 3)。求這個三角形的面積。

GPT-4參考答案:

要計算這個三角形的面積,我們可以應用用于坐標點A(x1, y1),B(x2, y2),和C(x3, y3)的三角形面積公式:

Area = (1/2) * |(x1(y2 – y3) + x2(y3 – y1) + x3(y1 – y2))|

在這個例子中,坐標分別是A(0, 0),B(-1, 1),和C(3, 3)。將這些值代入公式計算,我們得到:

Area = (1/2) * |(0(1 – 3) + (-1)(3 – 0) + 3(0 – 1))|

Area = (1/2) * |(-0 + 3 – 3)|

Area = (1/2) * |0|

因此,面積計算結果為0,暗示這三個點共線,實際上并未形成三角形。

修正的答案:

面積是3。

四、物理GRE真題

物理GRE,是物理學專業學生申請研究生時常見的入學考試材料。

為了更好地測試模型,Inflection提供了四套經過處理的物理學GRE考試試卷:

– physics_gre_scored.jsonl:試卷GR8677

– physics_gre.jsonl:試卷GR9277,GR9677和GR0177

其中,每份試卷包括以下信息:

– input: 考題內容

– target_scores: 正確答案

– has_image: 考題是否包含圖片

在物理學GRE考試中,每個選對的題目得1分,每選錯一個題目扣0.25分。值得注意的是,測評僅考慮不包含圖片的題目。

在計算總分時,采取以下方式:Raw_Score = Percentage_Correct – 0.25 * (1 – Percentage_Correct)

參考資料:

https://inflection.ai/inflection-2-5

作者:好困 桃子

來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。

本文由人人都是產品經理合作媒體 @新智元 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!