一位AI從業者的十年

0 評論 444 瀏覽 0 收藏 14 分鐘

在AI技術飛速發展的十年中,一位AI從業者親歷了從圖像識別到大模型的變革。本文回顧了AI領域的重大突破,包括AlphaGo的勝利、深度學習的崛起、Transformer架構的革命性影響,以及大模型時代的到來。

2015年,我剛參加工作,第一個任務是識別圖片里的物品。傳統做法是,找到物品的特征,用機器學習設計特征工程,做成模版,拿著模版進行特征匹配。做了幾個月,效果差強人意。

突然一則新聞吸引了我的注意力,谷歌旗下的DeepMind開發了一款圍棋程序AlphaGo,要與世界冠軍李世石對弈。賽前大家并不看好AI,甚至人工智能專家李開復也覺得AI贏不了。事實讓眾人大跌眼鏡,AlphaGo以4:1大勝李世石。

這個結果給了我極大震撼,因為中國人知道圍棋的難度。19乘19的棋盤,狀態空間復雜度高達10的171次方,遠大于宇宙中原子的個數,單靠近似窮舉不可能解出答案。

我瘋了一般去尋找背后的故事。原來,AlphaGo的核心是卷積神經網絡。這是楊樂昆在1989年提出的一種圖像識別算法。為什么這個技術在二十多年后才被人重視?因為數據和算力不足。

直到2012年,深度學習之父辛頓的兩名學生在李飛飛主導的ImageNet超大規模視覺識別挑戰賽上一鳴驚人,人們才終于見識到威力。他倆基于吳恩達的工作,創造性的將英偉達的GPU用于訓練一個600萬參數的深度神經網絡AlexNet。AlexNet在學習了1000萬張李飛飛團隊辛苦標注的圖片后,將圖像識別的準確率提高了10%以上,遙遙領先于亞軍。

在AlexNet的基礎上,科學家們再接再厲,提出了一個又一個更深更大的網絡,ZFNet,VGGNet,GoogleNet,每年都在進步。

到了2015年,華人學者何愷明,曾經的廣東高考狀元,提出了152層的極深網絡ResNet,參數量過千萬,至此,AI的圖像識別準確率終于超過了人類。

了解到這些背景,我興奮得渾身發抖。開發人員再也不需要手工設計圖像特征,深度網絡通過海量數據學到的特征,遠勝資深專家的多年經驗。為了深入學習,我開始使用亞馬遜云服務AWS,很快就被英偉達的CUDA驚艷到了。

CUDA非常高效,吸引了眾多研究員和工程師,英偉達的開發人員也熱心解答各種Bug問題。漸漸的,越來越多的算法首發在CUDA上,更多的改進算法為了超越前者也只能用CUDA,形成了網絡效應,用的人越多越好用。

當年還沒有現在這么完善的深度學習框架,我入門靠的是華人學者賈揚清在寫畢業論文之余開發的Caffe。這位大神慷慨開源了他基于CUDA的研究框架,又在博士畢業后成為谷歌的TensorFlow和Meta的PyTorch兩大當今最流行框架的主要貢獻者。

有了這些武器,我總算可以把圖像識別算法換成深度卷積網絡,效果顯著,準確率飛升。但我知道永遠不能自滿,這是個眨眼十年的領域。

得益于科學家們的開源精神,網絡的架構不斷進化。2017年,谷歌提出了Transformer自注意力架構。所謂自注意力,簡單說就是只關心輸入之間的關系,而不再關注輸入和輸出的關系,這是一個顛覆性的變化。

這篇論文發布之前,雖然深度學習已經取得長足進展,但AI的各個分支,視覺,語音,語言理解等,還是相對割裂的,每個領域有自己的模型。之后,則是Transformer一統天下,各領域專家的知識整合以及多模態融合變得愈加輕松。

李飛飛的高徒安德烈,甚至驚嘆,也許人類偶然窺見了和自然界類似的強大架構,造物主沿著這個路徑復制,造就了今天的大千世界。

Transformers讓GPU并行運算的效率進一步大幅提升,2018年,OpenAI和谷歌相繼發布了參數量過億的GPT和BERT模型。

2020年初,OpenAI發表了著名的Scaling laws規模法則,指出更大的模型,更多的數據,更長時間的訓練是提升模型能力的可行路徑。

2022年底,ChatGPT橫空出世,參數量達到恐怖的1750億,模型大到違背了許多科學家的直覺。通常來說,如果一個模型訓練幾個月燒掉百萬美金,效果還沒有很大提升,研究員就放棄了。但伊利亞不是一般人,作為當年AlexNet的作者之一,他堅信規模法則,在燒了千萬美金之后,終于捅破天花板,看到了推理智能的大幅涌現。

曾經,為了實現一個簡單的小功能,我就需要訓練一個AI模型。要完成一個復雜的商業系統,需要多個AI模型的協作,以及大量的底層邏輯代碼。但現在,借助GPT大模型,實現功能只需要寫一句簡單的提示語,生產效率大大提高了。

全世界都看到了大模型的威力,根據斯坦福大學AI研究院的最新報告,2023年生成式AI的投資激增了8倍。訓練模型也越來越昂貴,谷歌為了追趕ChatGPT開發的Gemini模型,成本接近2億美金。大規模的金錢競賽,成了巨頭公司們的游戲。

在此背景下,依然堅持開源的英雄們,尤其值得尊敬。

著名開源社區HuggingFace的創始人分享了一個美妙故事,關于三大洲(歐洲,美國,中國)的人們如何合作共建并公開分享了一個緊湊高效,行業領先的AI模型。一個小團隊在法國巴黎發布了他們的第一個模型:Mistral 7B。該模型令人印象深刻,體積小,但在基準測試中表現出色,優于之前所有同尺寸的模型。而且是開源的,人們可以在其基礎上繼續開發。

瑞士伯爾尼的劉易斯和法國里昂的埃德都來自HuggingFace的模型微調團隊,他倆在喝咖啡時聊到了這個模型:一個來自美國加州斯坦福大學的研究團隊剛剛發布了一種新的方法,用這種方法微調Mistral怎么樣?嘿,這是個好主意,另一個人答道。他們剛剛開源了一個很棒的代碼庫,讓我們用起來吧!

第二天,他們開始深入研究HuggingFace上公開共享的數據集,偶然發現了兩個有趣的大型高質量微調數據集,它們來自中國清華大學的團隊OpenBMB,也開放了源碼:UltraFeedback和UltraChat。幾輪訓練實驗證實了這一直覺,由此產生的模型超級強大,是迄今為止他們在伯克利和斯坦福的基準測試(LMSYS和 Alpaca)中所見過的最強模型。

開源模型排行榜的大咖克雷門汀也被吸引了,她對模型能力的深入研究證實了這一模型擁有令人印象深刻的性能。團隊還邀請了康奈爾大學教授薩沙加入對話,他提議快速起草一份研究論文,整理并與社區分享所有細節。幾天后,起名龍卷風Zephyr的模型、論文和所有細節便席卷世人。

很快,世界各地的許多公司都開始使用它,有公司聲稱用它取代ChatGPT讓其節省了一半的費用。眾多研究人員在開源社區熱烈討論該模型和論文。

所有這些都在短短幾周內發生的,這得益于世界各地(歐洲,北美,中國)發布的知識,模型和數據集的開放訪問,以及人們在AI領域相互借鑒工作,為現實世界帶來價值的高效理念。開源社區的成就令人驚嘆,理念更令人神往。

當OpenAI不再Open,是這些胸懷技術開放理想的研究者,將大模型的秘密,展現給全世界。

進入2024年,大模型的進展依舊如火如荼:

1. Sora模型通過簡單描述生成栩栩如生的長視頻,成為全球焦點。OpenAI稱之為世界模擬器,能深刻理解運動中的物理規律。華人學者謝賽寧揭示了背后原理,來自他發表的基于Transformer架構的擴散模型DiT。

很快,潞晨科技和北京大學推出OpenSora,全面開源文生視頻的模型參數和訓練細節??焓止疽餐瞥隽丝伸`大模型,展示了圖生視頻和視頻續寫等功能,在頂級學術會議上引起積極反響。

2. 大模型的推理能力讓許多互聯網產品得到升級,Arc Search加Perplexity的AI瀏覽器可以改善用戶的搜索體驗,自動整合全網資訊,給出要點,回答問題的精準度大幅提升。

月之暗面的Kimi對話搜索引擎,被許多投資人推薦,因為其強大的文本總結能力和200萬漢字的超長上下文窗口,讓閱讀上市公司財報和資料的工作不再繁瑣。

3. GPT4o展示了在文本,圖像和語音上的多模態實時處理能力。上海人工智能實驗室和商湯科技聯合發布的書生大模型InternLMM,開源了開放世界理解,跨模態生成和多模態交互的能力,在全球開發者社區備受歡迎。

4.吳恩達力推智能體工作流,讓AI學會使用工具,亞馬遜的AWS,微軟的Azure,阿里巴巴的百煉,百度的文心和字節的扣子等各大云計算平臺都提供了便捷多樣的插件,讓AI如虎添翼。

5.端側AI開始落地,蘋果發布Apple Intelligence,在保護用戶隱私的同時,將大模型直接部署到用戶的手機里。因為某些客觀因素,中國的算力受到限制,反而催生了一些另辟蹊徑,以小博大的模型路線。面壁智能公司推出MiniCPM模型,只有24億參數,性能卻超越了比自己5倍大的巨人。

6.Mistral開源了混合專家模型架構,由多個專家子模型組成,回答特定領域的問題只需要調用相應的,整體推理消耗大大降低。美國的GPT和Claude降價了50%以上,中國公司發揚卷的精神,阿里的通義千問,幻方的DeepSeek等領先模型直接降價90%。各家大模型之間的競爭愈演愈烈,鹿死誰手,猶未可知。

展望未來,我是非常樂觀的。雖然當今世界并不太平,各種沖突矛盾不斷,但AI對生產力的促進是確定的。

有人擔心AI會讓很多人失業,但李飛飛認為,AI取代的是任務,而不是工作。每項工作都由大量任務組成,讓AI去完成繁重的任務,人類的創造力將進一步解放。

20年前,隨著生產力的提高,大部分國家開始實行一周五天工作制。在下一輪AI工業革命到來之際,一周休三天,也不是遙不可及的幻想。

作者:DrChuck

本文由人人都是產品經理作者【錦緞】,微信公眾號:【錦緞】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!