一位AI從業(yè)者的十年
在AI技術飛速發(fā)展的十年中,一位AI從業(yè)者親歷了從圖像識別到大模型的變革。本文回顧了AI領域的重大突破,包括AlphaGo的勝利、深度學習的崛起、Transformer架構的革命性影響,以及大模型時代的到來。
2015年,我剛參加工作,第一個任務是識別圖片里的物品。傳統(tǒng)做法是,找到物品的特征,用機器學習設計特征工程,做成模版,拿著模版進行特征匹配。做了幾個月,效果差強人意。
突然一則新聞吸引了我的注意力,谷歌旗下的DeepMind開發(fā)了一款圍棋程序AlphaGo,要與世界冠軍李世石對弈。賽前大家并不看好AI,甚至人工智能專家李開復也覺得AI贏不了。事實讓眾人大跌眼鏡,AlphaGo以4:1大勝李世石。
這個結果給了我極大震撼,因為中國人知道圍棋的難度。19乘19的棋盤,狀態(tài)空間復雜度高達10的171次方,遠大于宇宙中原子的個數(shù),單靠近似窮舉不可能解出答案。
我瘋了一般去尋找背后的故事。原來,AlphaGo的核心是卷積神經(jīng)網(wǎng)絡。這是楊樂昆在1989年提出的一種圖像識別算法。為什么這個技術在二十多年后才被人重視?因為數(shù)據(jù)和算力不足。
直到2012年,深度學習之父辛頓的兩名學生在李飛飛主導的ImageNet超大規(guī)模視覺識別挑戰(zhàn)賽上一鳴驚人,人們才終于見識到威力。他倆基于吳恩達的工作,創(chuàng)造性的將英偉達的GPU用于訓練一個600萬參數(shù)的深度神經(jīng)網(wǎng)絡AlexNet。AlexNet在學習了1000萬張李飛飛團隊辛苦標注的圖片后,將圖像識別的準確率提高了10%以上,遙遙領先于亞軍。
在AlexNet的基礎上,科學家們再接再厲,提出了一個又一個更深更大的網(wǎng)絡,ZFNet,VGGNet,GoogleNet,每年都在進步。
到了2015年,華人學者何愷明,曾經(jīng)的廣東高考狀元,提出了152層的極深網(wǎng)絡ResNet,參數(shù)量過千萬,至此,AI的圖像識別準確率終于超過了人類。
了解到這些背景,我興奮得渾身發(fā)抖。開發(fā)人員再也不需要手工設計圖像特征,深度網(wǎng)絡通過海量數(shù)據(jù)學到的特征,遠勝資深專家的多年經(jīng)驗。為了深入學習,我開始使用亞馬遜云服務AWS,很快就被英偉達的CUDA驚艷到了。
CUDA非常高效,吸引了眾多研究員和工程師,英偉達的開發(fā)人員也熱心解答各種Bug問題。漸漸的,越來越多的算法首發(fā)在CUDA上,更多的改進算法為了超越前者也只能用CUDA,形成了網(wǎng)絡效應,用的人越多越好用。
當年還沒有現(xiàn)在這么完善的深度學習框架,我入門靠的是華人學者賈揚清在寫畢業(yè)論文之余開發(fā)的Caffe。這位大神慷慨開源了他基于CUDA的研究框架,又在博士畢業(yè)后成為谷歌的TensorFlow和Meta的PyTorch兩大當今最流行框架的主要貢獻者。
有了這些武器,我總算可以把圖像識別算法換成深度卷積網(wǎng)絡,效果顯著,準確率飛升。但我知道永遠不能自滿,這是個眨眼十年的領域。
得益于科學家們的開源精神,網(wǎng)絡的架構不斷進化。2017年,谷歌提出了Transformer自注意力架構。所謂自注意力,簡單說就是只關心輸入之間的關系,而不再關注輸入和輸出的關系,這是一個顛覆性的變化。
這篇論文發(fā)布之前,雖然深度學習已經(jīng)取得長足進展,但AI的各個分支,視覺,語音,語言理解等,還是相對割裂的,每個領域有自己的模型。之后,則是Transformer一統(tǒng)天下,各領域專家的知識整合以及多模態(tài)融合變得愈加輕松。
李飛飛的高徒安德烈,甚至驚嘆,也許人類偶然窺見了和自然界類似的強大架構,造物主沿著這個路徑復制,造就了今天的大千世界。
Transformers讓GPU并行運算的效率進一步大幅提升,2018年,OpenAI和谷歌相繼發(fā)布了參數(shù)量過億的GPT和BERT模型。
2020年初,OpenAI發(fā)表了著名的Scaling laws規(guī)模法則,指出更大的模型,更多的數(shù)據(jù),更長時間的訓練是提升模型能力的可行路徑。
2022年底,ChatGPT橫空出世,參數(shù)量達到恐怖的1750億,模型大到違背了許多科學家的直覺。通常來說,如果一個模型訓練幾個月燒掉百萬美金,效果還沒有很大提升,研究員就放棄了。但伊利亞不是一般人,作為當年AlexNet的作者之一,他堅信規(guī)模法則,在燒了千萬美金之后,終于捅破天花板,看到了推理智能的大幅涌現(xiàn)。
曾經(jīng),為了實現(xiàn)一個簡單的小功能,我就需要訓練一個AI模型。要完成一個復雜的商業(yè)系統(tǒng),需要多個AI模型的協(xié)作,以及大量的底層邏輯代碼。但現(xiàn)在,借助GPT大模型,實現(xiàn)功能只需要寫一句簡單的提示語,生產(chǎn)效率大大提高了。
全世界都看到了大模型的威力,根據(jù)斯坦福大學AI研究院的最新報告,2023年生成式AI的投資激增了8倍。訓練模型也越來越昂貴,谷歌為了追趕ChatGPT開發(fā)的Gemini模型,成本接近2億美金。大規(guī)模的金錢競賽,成了巨頭公司們的游戲。
在此背景下,依然堅持開源的英雄們,尤其值得尊敬。
著名開源社區(qū)HuggingFace的創(chuàng)始人分享了一個美妙故事,關于三大洲(歐洲,美國,中國)的人們?nèi)绾魏献鞴步ú⒐_分享了一個緊湊高效,行業(yè)領先的AI模型。一個小團隊在法國巴黎發(fā)布了他們的第一個模型:Mistral 7B。該模型令人印象深刻,體積小,但在基準測試中表現(xiàn)出色,優(yōu)于之前所有同尺寸的模型。而且是開源的,人們可以在其基礎上繼續(xù)開發(fā)。
瑞士伯爾尼的劉易斯和法國里昂的埃德都來自HuggingFace的模型微調團隊,他倆在喝咖啡時聊到了這個模型:一個來自美國加州斯坦福大學的研究團隊剛剛發(fā)布了一種新的方法,用這種方法微調Mistral怎么樣?嘿,這是個好主意,另一個人答道。他們剛剛開源了一個很棒的代碼庫,讓我們用起來吧!
第二天,他們開始深入研究HuggingFace上公開共享的數(shù)據(jù)集,偶然發(fā)現(xiàn)了兩個有趣的大型高質量微調數(shù)據(jù)集,它們來自中國清華大學的團隊OpenBMB,也開放了源碼:UltraFeedback和UltraChat。幾輪訓練實驗證實了這一直覺,由此產(chǎn)生的模型超級強大,是迄今為止他們在伯克利和斯坦福的基準測試(LMSYS和 Alpaca)中所見過的最強模型。
開源模型排行榜的大咖克雷門汀也被吸引了,她對模型能力的深入研究證實了這一模型擁有令人印象深刻的性能。團隊還邀請了康奈爾大學教授薩沙加入對話,他提議快速起草一份研究論文,整理并與社區(qū)分享所有細節(jié)。幾天后,起名龍卷風Zephyr的模型、論文和所有細節(jié)便席卷世人。
很快,世界各地的許多公司都開始使用它,有公司聲稱用它取代ChatGPT讓其節(jié)省了一半的費用。眾多研究人員在開源社區(qū)熱烈討論該模型和論文。
所有這些都在短短幾周內(nèi)發(fā)生的,這得益于世界各地(歐洲,北美,中國)發(fā)布的知識,模型和數(shù)據(jù)集的開放訪問,以及人們在AI領域相互借鑒工作,為現(xiàn)實世界帶來價值的高效理念。開源社區(qū)的成就令人驚嘆,理念更令人神往。
當OpenAI不再Open,是這些胸懷技術開放理想的研究者,將大模型的秘密,展現(xiàn)給全世界。
進入2024年,大模型的進展依舊如火如荼:
1. Sora模型通過簡單描述生成栩栩如生的長視頻,成為全球焦點。OpenAI稱之為世界模擬器,能深刻理解運動中的物理規(guī)律。華人學者謝賽寧揭示了背后原理,來自他發(fā)表的基于Transformer架構的擴散模型DiT。
很快,潞晨科技和北京大學推出OpenSora,全面開源文生視頻的模型參數(shù)和訓練細節(jié)。快手公司也推出了可靈大模型,展示了圖生視頻和視頻續(xù)寫等功能,在頂級學術會議上引起積極反響。
2. 大模型的推理能力讓許多互聯(lián)網(wǎng)產(chǎn)品得到升級,Arc Search加Perplexity的AI瀏覽器可以改善用戶的搜索體驗,自動整合全網(wǎng)資訊,給出要點,回答問題的精準度大幅提升。
月之暗面的Kimi對話搜索引擎,被許多投資人推薦,因為其強大的文本總結能力和200萬漢字的超長上下文窗口,讓閱讀上市公司財報和資料的工作不再繁瑣。
3. GPT4o展示了在文本,圖像和語音上的多模態(tài)實時處理能力。上海人工智能實驗室和商湯科技聯(lián)合發(fā)布的書生大模型InternLMM,開源了開放世界理解,跨模態(tài)生成和多模態(tài)交互的能力,在全球開發(fā)者社區(qū)備受歡迎。
4.吳恩達力推智能體工作流,讓AI學會使用工具,亞馬遜的AWS,微軟的Azure,阿里巴巴的百煉,百度的文心和字節(jié)的扣子等各大云計算平臺都提供了便捷多樣的插件,讓AI如虎添翼。
5.端側AI開始落地,蘋果發(fā)布Apple Intelligence,在保護用戶隱私的同時,將大模型直接部署到用戶的手機里。因為某些客觀因素,中國的算力受到限制,反而催生了一些另辟蹊徑,以小博大的模型路線。面壁智能公司推出MiniCPM模型,只有24億參數(shù),性能卻超越了比自己5倍大的巨人。
6.Mistral開源了混合專家模型架構,由多個專家子模型組成,回答特定領域的問題只需要調用相應的,整體推理消耗大大降低。美國的GPT和Claude降價了50%以上,中國公司發(fā)揚卷的精神,阿里的通義千問,幻方的DeepSeek等領先模型直接降價90%。各家大模型之間的競爭愈演愈烈,鹿死誰手,猶未可知。
展望未來,我是非常樂觀的。雖然當今世界并不太平,各種沖突矛盾不斷,但AI對生產(chǎn)力的促進是確定的。
有人擔心AI會讓很多人失業(yè),但李飛飛認為,AI取代的是任務,而不是工作。每項工作都由大量任務組成,讓AI去完成繁重的任務,人類的創(chuàng)造力將進一步解放。
20年前,隨著生產(chǎn)力的提高,大部分國家開始實行一周五天工作制。在下一輪AI工業(yè)革命到來之際,一周休三天,也不是遙不可及的幻想。
作者:DrChuck
本文由人人都是產(chǎn)品經(jīng)理作者【錦緞】,微信公眾號:【錦緞】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!