亚洲欧美日韩久久精品,国内精品久久久久久无码不卡

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

Sora“滿月”了，但不止一個AI在新生

甲子光年

2024-03-18

0 評論 1621 瀏覽 0 收藏

39 分鐘

距離Sora發布，已經過去了一個月左右的時間，而在這一個月里，與AI相關的動態和事件十分密集。這篇文章里，作者將這一個月來發生的重要事件按照AI算力、AI模型、AI應用、AI融資這四個維度做了劃分，一起來看一下。

前幾天，距離Sora發布剛好一個月。這一個月時間可能是科技史上最密集的AI動態發布月。

在AI算力層，英偉達獨孤求敗，市值突破了2.2萬億美元，一躍成為全球市值第三大科技公司，僅次于微軟與蘋果。

但仍然有源源不斷的挑戰者出現，Groq、Cerebras都在近期發布了最新的AI芯片。他們會對英偉達構成威脅嗎？

在AI生成視頻領域，Sora開啟了AI視頻的“Midjourney時刻”，多模態模型元年開啟，比人們預期的時刻提前了至少半年。

在大語言模型層，除了OpenAI沒有發布大的產品更新之外，它的一眾競爭對手，從大廠的谷歌、蘋果，到AI獨角獸Anthropic、Mistral、Inflection，都發布了最新代的大模型。

在AI應用層，人們期待的AI原生“super app”似乎還沒有出現。A16z近期剛剛公布AI應用Top 100，ChatGPT仍然牢牢占據首位。

而且，A16z發現，與2023年9月發布的報告相比，榜單上超過40%的公司都是新公司。

具身智能是過去一個月最熱門的AI落地方向，英偉達成立了具身智能實驗室，并且投資了Figure AI。Figure AI的首款人形機器人產品，在演示Demo中已經可以實現端到端的自然語言交互。

今天也剛好是GPT-4發布一周年。但與去年GPT-4發布所帶來的一整年的熱度相比，人們對Sora的熱情似乎消退的更快。

一方面是因為Sora沒有公測，一切討論都僅限于官方的幾十個視頻與沒有技術細節的技術報告，另一方面是因為大家對于AI沖擊的感受閾值在變高，變得更加理性。

大模型改變了很多，但目前為止沒有改變的更多。對待大模型的態度，人們也被分成了技術信仰派與市場信仰派。

沒有人能準確預測行業的變化，但通過記錄與了解行業正在發生的信息，可以幫助我們更好地做出判斷。

以下是「甲子光年」匯總的Sora發布一個月以來發生的重要AI事件。

一、AI算力

1. Lambda完成3.2億美元C輪融資

2月16日，人工智能云服務提供商Lambda獲得了3.2億美元的C輪融資，用于構建基于GPU的服務，提供由數千個英偉達加速器組成的人工智能訓練集群。

該輪融資由多家風險投資基金領投，包括B Capital、SK Telecom、T. Rowe Price Associates, Inc.，以及現有投資者Crescent Cove、Mercato Partners、1517 Fund、Bloomberg Beta和Gradient Ventures等。

Lambda正準備部署“數以萬計”的英偉達GPU，包括目前最頂級的H100 Hopper加速器以及英偉達即將推出的G200 GPU加速器，后者的性能將是H100的兩倍。Lambda還希望部署英偉達的混合GH200 CPU/GPU超級芯片。

2. 英偉達首次公開目前最快AI超算：搭載4608個H100GPU

2月18日，英偉達首次向外界公布了其最新的面向企業的AI超級計算機Eos，同時也是英偉達目前速度最快的AI超級計算機。

Eos共配備了4608個英偉達H100 GPU，同時還配備了1152個英特爾Xeon Platinum 8480C處理器（每個CPU有56個內核）。Eos還采用了英偉達Mellanox Quantum-2 InfiniBand技術，數據傳輸速度高達400 Gb/s，對訓練大型AI模型和系統擴展至關重要。

英偉達公布數據顯示，在最新的全球Top500超級計算機當中，Eos位居全球第九，其峰值性能更是達到了188.65 Peta FLOPS。

3. 三星電子在硅谷成立新團隊，開發通用人工智能芯片

2月20日消息，知情人士透露，三星電子已在硅谷成立新團隊，開發通用人工智能芯片。據悉，谷歌前開發人員Woo Dong-hyuk將領導該團隊。

4. Groq發布LPU，推理速度較英偉達GPU提高十倍

2月23日，Groq推出了一款全新的AI芯片LPU，宣稱做到了“地表最強推理”——在Groq上運行大模型的推理速度，較英偉達GPU提高10倍，而成本只有其十分之一。

Groq的芯片采用成熟的14nm制程，搭載了230MB的SRAM來保證內存帶寬，片上內存帶寬達到了80TB/s。在算力層面，Gorq芯片的整型（8位）運算速度為750TOPs，浮點（16位）運算速度則為188TFLOPs。

Groq成立于2016年，由前谷歌員工Jonathan Ross創立。他曾發明了驅動谷歌機器學習軟件的張量處理單元（TPU），這兩項技術當時為AlphaGo提供了重要的技術支撐。

5. 字節跳動發布萬卡集群系統MegaScale論文

2月23日，字節跳動發布萬卡集群論文，展示了構建和部署 MegaScale 的設計、實施和工程經驗，這是一個用于訓練超過1萬個GPU規模的大型語言模型生產系統。

在12288個GPU上訓練175B LLM模型時，MegaScale實現了55.2%的模型FLOP利用率 (MFU)，與Megatron-LM相比，MFU提高了1.34倍。

6. 中國為人工智能初創企業提供14萬至28萬美元的“算力券”

為了支持蓬勃發展的人工智能行業，中國向初創企業提供“算力券”，來降低企業數據中心運營相關的成本。至少有17個中國城市政府承諾提供這些補貼，代金券價值從14萬美元到28萬美元不等。

7. Meta 推出2個24K GPU集群

3月13日，Meta披露了有關萬卡集群的硬件、網絡、存儲、設計、性能和軟件的詳細信息，并聲稱到2024年底將完成350000個英偉達H100 GPU集群的構建。屆時，其整個資源池計算能力將相當于近600000個H100。

8. Cerebras發布了世界上最快的芯片，擁有4萬億個晶體管

3月14日，Cerebras發布了大尺寸芯片WSE-3，包含4萬億個晶體管，在相同的功耗和價格下，WSE-3的性能是之前記錄保持者WSE-2的兩倍。

相比H100 GPU ，WSE-3大了57倍，內核數量增加了52倍，芯片內存增加了800倍，內存帶寬增加了7000倍，結構帶寬增加了3700倍以上。這些都是芯片實現高性能的基礎。

WSE-3是專為訓練業界最大的AI模型而打造的，基于5納米制程、將為Cerebras CS-3人工智能超級計算機提供動力，通過90萬個人工智能優化的計算核心，提供每秒125 petaflops峰值AI性能（1 petaflops是指每秒1萬億次浮點運算）。

二、AI模型

1. 大語言模型

谷歌發布多模態模型Gemini 1.5 Pro，支持100萬token上下文

2月16日，谷歌發布多模態大模型Gemini 1.5 Pro，建立在谷歌Transformer和MoE架構的領先研究之上。

通過一系列機器學習創新，谷歌增加了Gemini 1.5 Pro的上下文窗口容量，并實現在生產中運行高達100萬個Token，遠超32k的Gemini 1.0、128k的GPT-4 Turbo、200k的Claude 2.1。

Gemini 1.5 Pro可以一次性處理大量信息——包括1小時的視頻、11小時的音頻、超過30000行代碼的代碼庫或超過700000個單詞。

谷歌發布開源大模型Gemma

2月22日，谷歌推出了“開源”大模型Gemma。Gemma采用了與Gemini相同的技術，由谷歌DeepMind與谷歌其他團隊共同合作開發，在拉丁文中意為 “寶石”。

Gemma包括兩種權重規模的模型：Gemma 2B 與Gemma 7B，每種規模都有預訓練與指令微調版本。同時，谷歌還推出了一系列工具，旨在支持開發者創新，促進合作，并指導如何負責任地使用Gemma模型。

Mistral獲微軟投資，發布旗艦模型Mistral Large

2月27日，Mistral AI發布Mistral Large旗艦模型，并且推出對標ChatGPT的對話產品：Le Chat。

Mistral Large達到了頂級的推理能力。它可以用于復雜的多語言推理任務，包括文本理解、轉換和代碼生成。

據Mistral AI CEO Arthur Mensch透露，開發這款新模型的成本不到2000萬歐元（約合2200萬美元）。

同時，微軟宣布與Mistral AI達成深度合作，并對其進行了投資。未來，Mistral AI直接將模型資源放在微軟云當中售賣，成為OpenAI之后第二家在微軟Azure云平臺上提供商業AI模型的公司。

Anthropic發布Claude 3模型，全面超越GPT-4

3月4日，Anthropic推出了最新的Claude 3大模型。

Claude 3模型家族包括三種最先進的型號：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。Haiku、Sonnet和Opus分別指“俳句、十四行詩、音樂藝術大作”。

Opus和Sonnet現已可在claude.ai中使用，而 Claude API現已在159個國家/地區廣泛使用。Haiku在3月15日正式推出。

Anthropic由OpenAI前高管創立，投資者包括谷歌、Salesforce、亞馬遜、高通等科技巨頭，估值超過150億美元。

零一萬物發布并開源 Yi-9B，代碼數學綜合能力全面增強

3月6日，零一萬物開源了Yi-9B模型，是目前 Yi 系列模型中代碼和數學能力最強的模型。

Yi-9B的實際參數為8.8B，與Yi系列其他模型一樣，默認上下文長度是4K tokens。Yi-9B是在 Yi-6B （使用了3.1T tokens訓練）的基礎上，使用了0.8T tokens進行繼續訓練，使用截止至2023年6月的數據。

Inflection.ai發布 Inflection-2.5，升級對話模型Pi

3月7日，Inflection.ai推出Inflection-2.5，這是升級后的內部模型，它將原始能力與標志性個性和獨特的同理心微調結合在一起。Inflection-2.5現已向所有Pi用戶開放，可通過網頁、iOS、Android或桌面應用程序使用。

Inflection-2.5接近GPT-4的性能，但僅使用了40%的計算量用于訓練。每天有100萬活躍用戶和每月600萬活躍用戶與Pi交換了超過40億條消息。

Inflection.ai的大模型通過微軟Azure、CoreWeave上對用戶提供服務。

馬斯克宣布xAI本周開源Grok

馬斯克在去年成立了大模型公司xAI，并與去年11月發布AI聊天機器人Grok。

Grok基于Grok-1大模型，開發大約花了四個月的時間（包括2個月的訓練），上下文長度為8192，訓練數據截至2023年第三季度。Grok可以提供生成文本、代碼、郵件、信息檢索等功能。Grok對所有X Premium+訂閱用戶開放，每月費用為16美元。

3月11日，馬斯克宣布本周開源Grok。在這一帖子下面，有網友回復“OpenAI也應該這么做”。馬斯克則回復該評論稱：“OpenAI是個謊言。”

蘋果發布300億參數大語言模型MM1

3月14日，蘋果發布了一個300億參數的多模態大模型MM1。

通過細致的消融研究，作者們發現，對于大規模多模態預訓練，混合使用圖像標題、交錯的圖像-文本數據和純文本數據對于在多個基準測試中實現最先進的少次學習結果至關重要。此外，圖像編碼器、圖像分辨率和圖像標記數量對性能有顯著影響，而視覺-語言連接器的設計相對不那么重要。

研究結果表明，通過擴大模型規模，構建的MM1模型系列在預訓練指標上達到了最先進的水平，并在一系列多模態基準測試中的監督微調后取得了有競爭力的性能。大規模預訓練使得MM1具備了上下文學習、多圖像推理等吸引人的特性，能夠進行少次鏈式思維提示。

2. 多模態模型

Meta發布非生成路線視頻模型V-JEPA

2月15日，Meta公開發布視頻聯合嵌入預測架構 (V-JEPA) 模型。Meta的副總裁兼首席人工智能科學家Yann LeCun表示：“V-JEPA 是朝著更深入地理解世界邁出的一步，因此機器可以實現更通用的推理和規劃?！?/p>

他于2022年提出了最初的聯合嵌入預測架構 (JEPA)。 “我們的目標是建立先進的機器智能，它可以像人類一樣學習，形成周圍世界的內部模型，以便有效地學習、適應和制定計劃，以完成復雜的任務?！?/p>

Stability AI發布Stable Diffusion 3，與Sora同源技術

2月22日，Stability AI在早期預覽版中發布了 Stable Diffusion 3，這是Stability AI最強大的文本到圖像模型，在多主題提示、圖像質量和拼寫能力方面的性能得到了極大提高。Stable Diffusion 3模型套件目前的參數范圍為800M 到8B。

3月5日，Stability AI公布了Stable Diffusion 3的技術論文，采用了一種新的多模態DiT（MMDiT，Multimodal Diffusion Transformer）模型架構，對圖像與語言表示使用單獨的權重集。

谷歌Gemini文生圖功能緊急關閉

2月22日，谷歌宣布將暫停Gemini的人物圖像生成，努力解決與Gemini圖像生成功能相關的最新問題；將很快重新發布改進版本。

此前，Gemini在圖片中生成了各種性別、種族的人群，即使生成的結果與史實不符，例如以“美國開國元勛華盛頓”為主題的圖片中，出現了婦女和有色人種。

3月2日，50歲的谷歌聯合創始人謝爾蓋·布林在加州的“AGI之家”與企業家們進行了交談，談及此事時評價道：“我們在圖像生成方面搞砸得很徹底，我認為這主要由于沒有進行徹底的測試。出發點是好的，但結果卻讓很多人感到沮喪?！?/p>

谷歌發布基礎世界模型Genie

2月27日，谷歌發布了生成式AI的全新范式——生成式交互環境（Genie，Generative Interactive Environments）。

Genie是一個110億參數的基礎世界模型，可以通過單張圖像提示生成可玩的交互式環境。GenieAI是一個利用互聯網視頻訓練的基礎世界模型，可以從合成圖像、照片甚至素描中生成無限多的可玩（可控制動作的）世界。它的使用范圍廣泛，可以用于從圖像或文本生成整個互動世界，是訓練未來通用AI代理的有利工具。

螞蟻集團推出百靈大模型

2月28日，螞蟻集團推出20億參數多模態遙感基礎模型SkySense，其論文已被世界計算機視覺頂會CVPR 2024接收。

數據顯示，SkySense在17項測試場景中指標均超過國際同類產品，這也是迄今為止國際上參數規模最大、覆蓋任務最全、識別精度最高的多模態遙感基礎模型。SkySense可用于地貌、農作物觀測和解譯等，有效輔助農業生產和經營。

潞晨科技復現Sora并開源

3月4日，國內著名開源團隊Colossal-AI（潞晨科技旗下）根據Sora技術報告、VideoGPT、擴散Transformers等資料，復現了Sora模型架構方案并將其開源——Open-Sora。

值得一提的是，Colossal-AI還將復現成本降低了46%，同時將模型訓練輸入序列長度擴充至819K patches。目前，Open-Sora在Github超過1200顆星。

Midjourney封禁StabilityAI：惡意爬取數據，致服務器癱瘓24小時

3月7日，Midjourney封禁Stability AI引發了一場關于數據安全和道德責任的爭議。事件起因于Stability AI的數據收集工程師對Midjourney服務器發起了惡意攻擊，導致其服務中斷24小時。盡管Stability AI CEO Emad聲稱公司并未授權此行為，但Midjourney決定暫時封禁其員工使用其軟件。

華為諾亞發布0.6B文生圖模型PixArt-Σ，可直出4K圖像

3月10日，華為諾亞方舟實驗室聯合多個研究機構共同開發的項目，推出了一款名為PixArt-Σ的擴散變換器模型（DiT）。

PixArt-Σ 的進步有兩個方面。一是高質量訓練數據，引入了更高質量的圖像數據，配合更精確和詳細的圖像標題；二是高效的token壓縮：在DiT框架內提出了一個新的注意力模塊，能夠壓縮鍵和值，顯著提高效率，從而支持超高分辨率圖像的生成。

這些改進使得PixArt-Σ在模型大小（0.6B參數）上遠小于現有的文本到圖像擴散模型，如SDXL（2.6B參數）和SD Cascade（5.1B參數），同時在圖像質量和用戶提示遵循能力上都有了顯著提升。此外，PixArt-Σ生成4K圖像的能力，為電影和游戲等行業的高質量視覺內容制作提供了強大支持。

Pika推出自動生成音效功能Sound Effects

3月11日，Pika 發布了全新的功能Sound Effects，實現了視頻和音效的無縫生成。用戶可以通過簡單的操作，通過描述prompt或讓 AI 自動生成音效，為視頻增添更多氛圍。

Sound Effects的操作十分簡單，用戶只需一個 prompt或簡單的描述就能生成音效，使視頻更加生動。通過選擇不同的音效，用戶可以為視頻增添各種聲音，從車鳴聲到煙花聲，音效都與視頻畫面高度匹配。此外，用戶還可以在生成視頻后，針對單個視頻添加音效，提升視頻質量和趣味性。

Midjourney發布角色一致性新功能

3月12日，Midjourney推出了一項新功能，使得在生成多張圖片時，能夠保持同一人物的一致性。通過使用“-cref”（角色參考）標簽，可以保留輸入圖片中的角色特征，使得在不同場景中的臉部特征、體型和服裝保持一致。

此外，Midjourney還提供了“-cw”標簽，用戶可以通過這個標簽來調整與指定圖片的相似程度，從而微調角色的樣貌。

騰訊聯合清華、港科大推出圖生視頻大模型“Follow Your Click”

3月15日，騰訊和清華大學、香港科技大學聯合推出全新圖生視頻模型“Follow-Your-Click“，基于輸入模型的圖片，只需點擊對應區域，加上少量提示詞，就可以讓圖片中原本靜態的區域動起來，一鍵轉換成視頻。

據了解，本聯合項目組中的騰訊混元大模型團隊，正在持續研究和探索多模態技術，擁有行業領先的視頻生成能力。此前，騰訊混元大模型作為技術合作伙伴，支持《人民日報》打造原創視頻《江山如此多嬌》，生成中國大美河山的精美視頻片段，展示出了較強的內容理解、邏輯推理和畫面生成能力。

3. 生物模型

前Google DeepMind科學家聯手創建Biooptimus，構建首個通用生物學大模型

2月20日，總部位于巴黎的Biooptimus在獲得3500萬美元的種子輪融資，其使命是建立第一個用于生物學的通用人工智能基礎模型。這一新的開放科學模型將把不同規模的生物學與生成人工智能連接起來——從分子到細胞、組織和整個生物體。

Bioptimus聯合了一個由Google DeepMind alumni和Owkin科學家組成的團隊，其中AI生物技術初創公司Owkin本身就是一家法國獨角獸，他們將利用AWS計算和Owkin的數據生成功能，并訪問來自全球領先學術醫院的多模態患者數據。

三、AI應用

1. 具身智能

英偉達成立具身智能實驗室GEAR

2月24日，英偉達宣布成立通用具身智能體研究實驗室GEAR，標志著英偉達正式入局具身智能領域的研究，加速人工智能具身化進程。

機英偉達GEAR實驗室的聯合創始人Jim Fan博士在X平臺上表示：“我們相信，在未來，每一臺移動的機器都將是自主的，機器人和模擬智能體將像iPhone一樣無處不在。我們正在構建基礎智能體：一個具有通用能力的AI，可以在許多虛擬和現實的世界中學習如何熟練地行動。2024年將是屬于機器人、游戲AI和模擬的一年。”

Jim Fan還補充道：“我們有足夠的資金一次性解決機器人基礎模型、游戲基礎模型和生成式模擬。我們團隊可能是全球最有錢的具身智能實驗室。”

特斯拉人形機器人更新，步態達到最快

2月25日，特斯拉人形機器人Optimus發布更新，達到了有史以來最快的步態，速度約為 0.6m/s，比去年12月速度提升了30%以上。

Optimus改善了前庭系統、足部軌跡和地面接觸邏輯，升級了運動規劃器，并減少了機器人的循環延遲。Optimus整體上更加穩定、更加自信——即使在轉彎時也是如此。此外，還添加了輕微的軀干和手臂擺動。

Figure AI宣布獲得6.75億美元融資，估值達到26億美元

2月29日，具身智能公司Figure宣布獲得6.75億美元融資，估值達到26億美元。投資方包括微軟、OpenAI創業基金、英偉達、杰夫·貝索斯（通過Bezos Expeditions）、Parkway Venture Capital、英特爾、Align Ventures。

Figure AI還與OpenAI簽署了合作協議，為人形機器人開發下一代人工智能模型。Figure將利用Microsoft Azure進行人工智能基礎設施、培訓和存儲。

3月13日，Figure AI的第一款產品Figure 01發布Demo視頻，能夠實現端到端的機器人指令操作。其中，OpenAI模型提供高級視覺和語言智能，圖形神經網絡提供快速、低級、靈巧的機器人動作。

伯克利團隊發布具身智能論文，用訓練GPT的方法訓練人形機器人

3月3日，伯克利團隊發布論文，名為《Humanoid Locomotion as Next Token Prediction》，論文的核心思想，就是把OpenAI訓練ChatGPT時所用到的“預測下一個token”的思路，用在人形機器人的運動控制中。

該模型是一個通過自回歸預測訓練的causal transformer（因果轉換器）。

該模型即使只在27小時的行走數據上訓練，也能轉移到現實世界，并且能夠泛化到訓練期間未見過的命令，比如向后行走。這些發現為通過生成模型學習具有挑戰性的現實世界控制任務提供了一個有希望的路徑。

谷歌發布具身智能機器人RT-H

3月4日，谷歌DeepMind團隊發布論文，發布了最新版的 RT 機器人——RT-H，它能通過將復雜任務分解成簡單的語言指令，再將這些指令轉化為機器人行動，來提高任務執行的準確性和學習效率。

舉例來說，給定一項任務，如「蓋上開心果罐的蓋子」和場景圖像，RT-H會利用視覺語言模型（VLM）預測語言動作（motion），如「向前移動手臂」和「向右旋轉手臂」，然后根據這些語言動作，預測機器人的行動（action）。

這個行動層級（action hierarchy）對于提高機器人完成任務的準確性和學習效率非常有幫助，使得RT-H在一系列機器人任務中的表現都優于RT-2。

2. AI+應用

Perplexity接近敲定新融資，估值或翻番至10億美元

3月5日消息，知情人士透露，旨在挑戰谷歌網絡搜索主導地位的AI初創公司Perplexity即將敲定一筆新的融資交易，公司估值有望達到近10億美元，較幾個月前的最新融資估值大約翻番。

Perplexity利用先進的AI模型為搜索查詢提供直接答案，而不是提供網站鏈接列表，這也是谷歌正在研究的。知情人士稱，Perplexity最近的年收入超過1000萬美元。根據數據服務公司Similarweb的初步估計，該公司移動和桌面應用程序的訪問量在2月增長8.6%，達到約5000萬用戶。

兩個月前，Perplexity剛剛宣布已籌集到7400萬美元資金，得到亞馬遜前CEO貝索斯和風險投資公司Institutional Venture Partners的支持。這筆交易對這家初創公司的估值為5.2億美元。

華人團隊打造第一個AI軟件工程師Devin

3月13日，Cognition AI在X上推出了全球首個AI軟件工程師Devin。

Devin是一個自主代理（Autonomous Agent），掌握全棧技能，能自主學習不熟悉的技術，端到端地構建和部署應用程序，自己改bug，甚至還能訓練和微調自己的AI模型。

在SWE-bench基準測試中，它無需人類幫助，可解決13.86%的問題。相比之下，GPT-4只能處理1.74%的問題，且都需要人類提示告知處理哪些文件。據介紹，Devin已經成功通過一家AI公司的面試，并在Upwork上完成了實際工作。

此前，CognitionAI已經獲得了彼得·蒂爾的Founders Fund基金領投的2100萬美元A輪融資。另外根據彭博社記者報道，前Twitter高管Elad Gil也參與了對Cognition AI的投資。

DeepMind發布3D通用智能體SIMA

3月13日，Google DeepMind發布了適用于3D虛擬環境的通用智能體（A generalist AI agent for 3D virtual environments），名字命名為“SIMA”。

SIMA是一個針對游戲和3D虛擬環境的通用智能體。這標志著首次有一個智能體能夠證明它可以遵循自然語言指令，在大量游戲世界中執行廣泛任務，類似于人類的游玩方式。

SIMA僅依賴于3D環境提供的圖像和用戶給出的自然語言指令。通過鼠標和鍵盤的輸出，它在600項技能上進行評估，這些技能涵蓋了導航和對象交互等領域——例如“向左轉”或“砍倒樹”。

A16z發布消費級AI應用Top 100

3月13日，A16z發布了最新的全球AI產品的 Top100 榜單，分為網絡產品與移動產品。16z發現，與2023年9月發布的報告相比，榜單上超過40%的公司都是新公司。

四、AI融資

1. 傳月之暗面獲得8億美元融資

據知情人士對外透露，月之暗面近期獲得了8億美元新融資，其中阿里投資了7.9億美元，礪思資本投資1000萬美元。

小紅書、美團原計劃戰略投資，但阿里將月之暗面估值提高了50%，并且重倉持股40%，所以后者主動退出了。

本輪融資后，月之暗面估值已達約23億美元，為國內大模型領域的頭部企業之一。

2. 宇樹科技完成近10億元B2輪融資

2月23日，智能機器人公司宇樹科技Unitree宣布完成近10億元B2輪融資，本輪投資方包括美團、金石投資、源碼，老股東深創投、中網投、容億、敦鴻和米達鈞石跟投。宇樹科技Unitree表示，資金將主要用于產品研發，業務拓展以及團隊搭建等方面。

宇樹科技創立于2016年8月。宇樹科技創始人王興興2013年開始碩士在讀期間，通過改造無人機使用的盤式無刷電機，并針對其自研了小尺寸電機驅動器，并基于此，自研整機機械結構和控制算法等等，獨自設計開發了他的第一款產品——XDog。不同于當時波士頓動力機器人的高成本液壓驅動技術路線，XDog采用了高性能純電驅動，開創了全球低成本高性能足式機器人技術方案的先河。

3. 香港大模型公司WeituAI完成天使輪融資，估值一億美元

2月25日，多模態大模型初創公司香港Weitu AI 公司完成了天使輪融資，估值一億美金。天使輪投資人為擁有全球數億月活的互聯網科技公司和著名天使投資人。

據了解，該公司目前剛剛成立，超過半數成員來自北美名校畢業并擁有海外大廠的工作經驗。同時，目前的團隊成員中也包括了數位長期活躍在人工智能多模態領域的研究專家，以及去年初曾率隊研發國內首批中文大語言模型代表之一的技術負責人。

4. 多模態大模型企業聯匯科技宣布完成新一輪數億元戰略融資

3月1日，杭州聯匯科技股份有限公司（以下簡稱 “聯匯科技”）宣布完成新一輪數億元戰略融資，投資方由中國移動產業鏈發展基金中移和創投資、前海方舟（前海母基金管理機構）旗下中原前?；鸷妄R魯前?；鸬榷嗉翌^部國資與市場化機構組成。

據悉，本輪融資將主要用于多模態大模型及自主智能體的技術研發、產品創新及市場拓展，擴大其在運營商、能源電力、媒體等國家基礎行業與重點細分市場的領先優勢。

5. 新旦智能完成了千萬級別的天使輪融資

3月4日，總部位于深圳的AI初創公司新旦智能完成了千萬級別的天使輪融資，由全球化人工智能企業APUS與AI行業資深投資人周弘揚聯合投資。

相比國內其他大模型公司，新旦智能略顯年輕，但創始團隊陣容卻頗為豪華：這是一支由清華、伯克利、騰訊、Meta等頂尖學術與工程界精英組成的團隊，成員包括全球頂尖的開源AI社區知名開發者、資深騰訊云架構師等。

6. 傳阿里領投Minimax新一輪融資

3月5日，《科創板日報》報道稱通用大模型初創項目MiniMax正在進行新一輪大規模融資，阿里為其中的核心領投方。

7. 五源資本投資了一家華人AI視頻團隊

3月6日，兩位Deepmind的校友Yishu Miao和Ziyu Wang公開發布了他們的視頻生成工具Haiper，其底層有自己的AI模型。

Haiper在由Octopus Ventures領投、5Y Capital參與的種子輪融資中籌集了1380萬美元。在此之前，像Geoffrey Hinton和Nando de Freitas這樣的天使投資者幫助該公司在2022年4月籌集了540萬美元的前種子輪融資。

8. 愛詩科技完成億級人民幣A1輪融資，發布視頻大模型

3月11日，愛詩科技完成億級人民幣A1輪融資，本輪融資由國內一線投資機構達晨財智領投，光源資本擔任獨家財務顧問。

愛詩科技創立于2023年4月，專注解決AI視頻大模型及應用，海外版產品PixVerse于2024年1月正式上線，目前已是全球用戶量最大的國產AI視頻生成產品，并搭建了穩定的創作者生態，目前已處于全球視頻生成產品第一梯隊，國內版（愛詩視頻大模型）也于今日上線內測。本輪融資將用于人才建設和資源儲備，進一步鞏固愛詩科技產品技術護城河。