24W29產品周報 | AI大模型認不出9.11和9.9哪個大,“京東超級18”將上線,餓了么升級發布“超級吃貨卡”

0 評論 1393 瀏覽 0 收藏 14 分鐘

這周二有用戶發現,大模型無法分辨“9.11和9.9哪個大”的問題,隨即國內外的大模型都被問了一遍,強如ChatGPT也翻車。有人在找樂子的同時,也有人在考慮其中的原因——畢竟大模型的運作原理現在還是黑盒,雖然OpenAI已經破解,但理解起來還沒那么快。

接下來,大家關注的就是雷軍的演講。據悉已經會發布一些小米的新品,具體消息還未可知。

其他新鮮的動態,請看本周周報。

一、值得關注

9.11和9.9哪個大?12個大模型8個都答錯,ChatGPT也翻車了

引發這一問題的是上周末國內一個綜藝相關的熱搜。

7月13日,在最新一期的《歌手》公布的排名中,國內歌手孫楠與外國歌手香緹莫的得票率分別是13.8%和13.11%,有網友質疑排名有問題,認為13.11%大于13.8%。隨后,關于13.8和13.11大小比較的話題沖上熱搜。

本周二,一道小學生難度的數學題難倒了一眾海內外AI大模型。

9.11和9.9哪個更大?記者就此問題測試了12個大模型,其中阿里通義千問、百度文心一言、Minimax和騰訊元寶答對,但ChatGPT-4o、字節豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應、商湯商量都答錯了,錯法各有不同。

首先是目前全球公認第一梯隊的大模型ChatGPT,在被問到“9.11和9.9哪個大”時回復稱,小數點后面的數字“11大于9”,因此9.11大。

詢問月之暗面旗下kimi,它在比較小數部分時認為,9.11的第一位小數是1,而9.9的第一位小數是0,錯誤地給出了小數,得出結論9.11更大。

詢問字節豆包,它不僅給出了答案,還舉了生活中的例子方便理解,單看似有理有據實則胡說八道。豆包舉例認為,假設有兩筆錢,“9.11元比9.9元多0.21元”,并且測量長度時“9.11 米要比 9.9 米長”。從答案來看,幾個答對了的大模型解題過程都很相似。

以文心一言為例,成功地分開比較了整數部分和小數部分。

大部分大模型在問答中都錯誤地比較了小數點后的數字,認為9.11大于9.9.考慮到數字涉及的語境問題,記者將其限定為在數學語境下,如ChatGPT這樣的大模型也照樣答錯。

關于此類事件,平臺有不少文章進行了詳細的分析和討論:

《「13.11>13.8」沖上熱搜,一道題讓人類AI集體降智?所有LLM致命缺點曝光》

《大模型集體失智!9.11和9.9哪個大,幾乎全翻車了》

暑期赴港旅客00后占35%,酒店布局下沉市場成趨勢

步入7月,暑期旅游大幕正式拉開。

攜程數據顯示,截至7月15日,今年暑期境內酒店的搜索熱度,相較2023年同期增長約20%。盡管個別旅游目的地出現下滑,但大部分熱門旅游城市的酒店消費依舊火爆。國內避暑與親子屬性的出游,占據暑期游主導位置;在免簽政策的利好之下,入境游今年增長強勁。

在出境游與國內五線城市及縣域等下沉市場的分流下,部分傳統旅游目的地客流增速放緩,而酒店企業則加速拓展新興旅游市場,華北、華南、西南成為布局重點區域。

7月18日,由香港機場管理局、中國民航雜志社、在線旅游平臺去哪兒聯合舉辦的“人生第一張機票·飛香港”活動在重慶江北國際機場拉開序幕。50名大學生接受香港機場管理局免費贈予的機票,從重慶飛往香港。

去哪兒數據顯示,截至7月18日,在去哪兒平臺上預訂暑期赴港的機票預訂量同比去年同期增長了近八成,相較2019年同期增長超過三成。其中,00后群體預訂占比達35%。

雷軍:7月19日舉辦第5次雷軍年度演講

雷軍在微博表示,“7月19日晚7點,就是本周五晚上,我將舉辦第5次雷軍年度演講,主題是《勇氣》,講講造車的來龍去脈和這三年多跌宕起伏的故事?!?/p>

二、產品動態

OpenAI發布最新技術研究,AI“黑盒”不再是難題!

7月18日凌晨,OpenAI在官網發布了最新技術研究——Prover-Verifier-Games。隨著ChatGPT在法律、金融、營銷等領域的廣泛使用,確保模型的安全、準確輸出同時被很好理解變得非常重要。但由于神經網絡的復雜和多變性,我們根本無法驗證其生成內容的準確性,這也就會出現輸出“黑盒”的情況。為了解決這個難題,OpenAI提出了全新訓練框架Prover-Verifier Games(簡稱“PVG”),例如,用GPT-3這樣的小模型來驗證、監督,GPT-4大模型的輸出,從而提升輸出準確率以及可控性。

小冰AI數字員工升級:發布全新“零樣本”技術

小冰公司宣布全新的“零樣本”數字人(Zero-shot Xiaoice Neural Rendering,Zero-XNR)技術正式上線,并同步推出基于Z-XNR技術的全新普惠型數字員工產品,進一步豐富小冰AI數字員工產品線。據介紹,新技術依托超千億大模型基座以及基于大模型構建的數字人交互套件,將數字人所需的訓練數據壓縮至“秒級”、使定制時間達到“立等可取”,而且生成的數字人能夠直接應用于實時交互。

餓了么升級發布“超級吃貨卡”:無門檻、全平臺商家通用

繼昨日宣布平臺經典活動“猜答案免單”正式回歸后,餓了么再推出讓用戶省錢“新招”。7月17日,餓了么站內公告,將全面升級平臺的“超級吃貨卡”玩法體系。據介紹,升級后的“超級吃貨卡”將為消費者提供紅色和金色兩種類型:兩種超級吃貨卡均不設使用門檻,其中紅色超級吃貨卡紅包最高可漲至28元、金色超級吃貨卡全平臺商家可通用。

三、運營動態

美團外賣內測“省錢版”,“拼好飯”后再推低價產品

美團外賣內部將“高性價比”確立為一個重要方向,在產品層面圍繞該方向在美團外賣app內推出“省錢版”,它還有另一個說法叫“B版”。該項目由外賣事業部產品負責人崔宇青負責,向外賣事業部負責人薛冰匯報。

美團外賣客服人員回應稱消息不實,沒有“省錢版”這個說法。如果是內測,也是點對點發給個別客戶,不會在多個城市進行內測。上述客服人員表示,美團外賣確實進行了低價產品的推廣,“拼好飯”已經在全國范圍內推廣。此外,公司還于近期升級了美團外賣紅包等功能,但沒有“省錢版”?!叭绻?,我們會第一時間接到通知。

重金再砸低價策略,“京東超級18”將上線

從京東內部人士處獲悉,京東零售將整合全站資源,做一個關于低價的持續性項目——“京東超級18”。該活動自7月起,以月度為周期,固定在每月17日晚8點至18日全天,每期都會上線一些高價值產品,一口價18元。本月17日上線的首期活動,會有日常售價上萬元的產品套裝,還有茅臺等上千元產品。

記者進一步了解到,與以往京東的大促活動不同,此活動售價18元的產品不會被“一口氣”放出,而是采用不定時、不定位置的方式分批上架,用戶需要時常瀏覽活動頁面才有機會搶到。

這種營銷模式,京東也不是第一次嘗試。京東集團創始人、董事局主席劉強東很多年前就帶團隊推出過一檔類似活動,叫“月黑風高”,當時的活動只在半夜進行,主打的品類是3C數碼?;顒邮窃?月不定期上線,需要用戶經常上線瀏覽發現。

高德打車推出”防曬補貼”

近日,高德打車宣布在全國范圍內推出“防曬補貼”,并匹配了有助于減少暴露在烈日下的貼心科技服務,旨在讓廣大用戶即便在三伏天出行,也能擁有更好的體驗。在此之前,高德打車也曾聯合合作網約車平臺,在全國超360個城市發放6億元左右“清涼補貼”,與司機群體共同分擔夏季出車成本,以在暑期出行高峰期,更快更好地為乘客提供清涼舒適的出行服務。

哈啰順風車推出訂單PK模式

哈啰順風車推出訂單PK模式——在訂單匹配前,有意愿合乘的車主將先進入PK程序,平臺將綜合接單距離、順路度、服務評價等指標,為乘客匹配最優車主出行。

哈啰順風車業務總監陳浩透露,PK模式上線試點以來,用戶出行好評率上升了5%,車主平均接單距離和成本減少了約10%。

四、好文推薦

《互聯網招聘30年,一場卷效率的“戰爭史”》作者@表外表里

從早期的職位廣告版(Job Board)模式到如今的社交招聘和智能推薦,每一次技術革新和模式創新都極大地提高了招聘效率。然而,盡管技術不斷進步,招聘行業依然面臨著匹配效率低下的挑戰。本文將回顧互聯網招聘的發展歷程,分析不同階段的招聘模式,并探討未來的發展趨勢。

《貝殼找房 x 網易傳媒IMC整合營銷傳播》作者@一個符號工作室

在這個快速變化的時代,大廠的光環似乎不再是唯一的職業歸宿。許多曾經在互聯網巨頭中奮斗的人才,如今選擇了另一條路——自媒體。他們的故事,是關于勇氣、自由與重生的傳奇。從字節跳動到小紅書,從運營總監到自由創業者,這些個體的轉變不僅是職業生涯的跳躍,更是對自我價值和生活方式的深刻探索。本文將帶您走進這些大廠離職者的內心世界,一探他們如何在曠野中尋找方向,在圍城中突破自我。

《大廠離職做博主:是曠野也是圍城,也有人已經后悔》作者@五環外OUTSIDE

本文作者分享了一個貝殼找房與網易傳媒IMC做的傳播案例,從預熱到后期神話,分事件營銷、內容與效果營銷和渠道營銷三部分,給大家分享了整個事情的執行經過,供各位參考。

五、精彩問答

提問:為什么大部分評分系統初始值和封頂都是5?

很多有評分的初始值都是5分,用戶給差評就往下降,

如果一開始都是好評,又不會往6分漲,但是當有1個差評,立馬往下降,為什么這么設計?

歡迎來圍觀:點擊此處,前往回答

 

本文值得關注、產品動態、運營動態內容,選取自快訊欄目匯總,信息源自央視新聞、新浪科技、界面、財聯社、澎湃新聞、每經網等

問題來自人人都是產品經理旗下問答平臺 ——天天問,歡迎各位小伙伴前往交流、切磋~

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!