AI人工智能 馬斯克的Grok-1為什么不采用經(jīng)典Transformer? 前段時(shí)間,馬斯克開源了大模型Grok-1的源代碼。開源本來是件好事,不過很多人發(fā)現(xiàn)Grok-1采用的是Mixture-of-Expert,而不是大家熟悉的Transformer架構(gòu)。這是為什么呢?本文嘗試解答一下此類問題。 黃銳 Grok-1Transformer馬斯克