AIGC 語言圖像模型大一統!Meta將Transformer和Diffusion融合,多模態AI王者登場 昨天,Meta最新發布的Transfusion,能夠訓練生成文本和圖像的統一模型了!完美融合Transformer和擴散領域之后,語言模型和圖像大一統,又近了一步。也就是說,真正的多模態AI模型,可能很快就要來了! 新智元 MetaTransformer大模型
AIGC 大模型最強架構TTT問世!斯坦福UCSD等5年磨一劍, 一夜推翻Transformer 超越Transformer和Mamba的新架構,剛剛誕生了。斯坦福UCSD等機構研究者提出的TTT方法,直接替代了注意力機制,語言模型方法從此或將徹底改變。 新智元 Transformer大模型技術架構
AI人工智能 拯救Transformer推理能力!DeepMind新研究TransNAR:給模型嵌入「算法推理大腦」 DeepMind最近發表的一篇論文提出用混合架構的方法解決Transformer模型的推理缺陷。將Transformer的NLU技能與基于GNN的神經算法推理器(NAR)的強大算法推理能力相結合,可以實現更加泛化、穩健、準確的LLM推理。 新智元 TranNARTransformer算法推理
AI人工智能 大道至簡:這一輪人工智能(AI)突破的原因其實很「簡單」 大道至簡,本文用通俗易懂的語言解釋了Transformer的核心原理,對于我們這種沒有基礎的普通人,也是能快速理解的,也能對當前的大模型有更深入的認識。 南村小付 GPTTransformer技術原理
個人隨筆 還在卷長文本?谷歌最新論文直接把文本干到…無限長了 最近一段時間,有關長文本能力的探討被擺到了臺面上,而就在人們比拼上下文窗口時,谷歌發布了一篇論文,談到團隊發明了一種新的注意力技術,這項技術可以讓transformer大模型在有限的計算資源條件下處理無限長度的輸入。 硅星人 Transformer谷歌長文本
AI人工智能 馬斯克的Grok-1為什么不采用經典Transformer? 前段時間,馬斯克開源了大模型Grok-1的源代碼。開源本來是件好事,不過很多人發現Grok-1采用的是Mixture-of-Expert,而不是大家熟悉的Transformer架構。這是為什么呢?本文嘗試解答一下此類問題。 黃銳 Grok-1Transformer馬斯克
AI人工智能 Transformer神經網絡:GPT等AI大模型的基石 Transformer模型基于自注意力機制,摒棄了傳統的RNN和CNN結構,在自然語言處理任務中取得了顯著的成果,一定程度上是GPT的重要基石。這篇文章里,作者就對Transformer神經網絡做了解讀,一起來看一下。 AI小當家 GPTTransformer大模型
AI人工智能 AI基金年終盤點 | 一文看懂2024年AI趨勢 時間跨入2024,在這一年,AI行業可能會迎來怎樣的發展趨勢?這篇文章里,作者結合機構們發布的報告與預測做了整理,一起來看看,或許可以幫你獲得更多AI前瞻視野。 硅兔賽跑 A16ZAI趨勢Transformer
AI人工智能 大模型套殼祛魅:質疑套殼,理解套殼 有關“套殼”的爭論一直沒有停止,那么,當我們在談論套殼的時候,到底在談論什么?怎么厘清大模型套殼的邏輯?這篇文章里,作者結合訪談與論文,嘗試闡述哪些步驟、哪些環節存在套殼的空間。 甲子光年 GPTTransformer大模型
AI人工智能 Transformer能解釋一切嗎? Transformer的高內存消耗和高推理成本的局限性開始顯現出來,替代者躍躍欲試。本篇文章詳細利用各種數據介紹了Transformer的替代者以及各種理論知識,推薦想了解人工智能的同學閱讀。 硅星人 3年Transformer中級