中國AI荊棘之路,從荒蠻到繁榮
編輯導(dǎo)讀:科技之路從來不是一帆風(fēng)順的,它的發(fā)展過程往往是緩慢的、曲折的,要經(jīng)過不斷的探索和積累才能迎來科技發(fā)展的奇點(diǎn)。過了這個(gè)奇點(diǎn),它才會迎來指數(shù)級別的快速上揚(yáng)。中國AI的發(fā)展,正處于奇點(diǎn)之中。本文作者對此進(jìn)行了分析,與你分享。
科技之樹雖然碩果累累,但它的蘋果從來只會眷顧有足夠渴望與準(zhǔn)備的人?!?/p>
科技并不是勻速發(fā)展,而是在經(jīng)歷緩慢得讓人窒息的、壓抑的黑鐵時(shí)代,不斷求索之后,大量的積累的技術(shù)、經(jīng)驗(yàn)、數(shù)據(jù)、認(rèn)知終于在一個(gè)時(shí)代迎來共振,這個(gè)時(shí)代就會成為科技發(fā)展的奇點(diǎn)。過了這個(gè)奇點(diǎn),它才會迎來指數(shù)級別的快速上揚(yáng)。
這一次中國正好在奇點(diǎn)正在發(fā)生的時(shí)候,追上了其他先進(jìn)國度在AI基礎(chǔ)研究領(lǐng)域的腳步。這既是我們的幸運(yùn),也是我們不斷奮斗的結(jié)果。
從在AI領(lǐng)域毫無存在感,到今天成為AI頂會獎(jiǎng)項(xiàng)收割機(jī),中國的AI科研之路,由荒蠻走向繁榮,由荊棘走向花團(tuán)錦簇的今天——也是正在邁向人工智能黃金時(shí)代的白銀時(shí)代。
一、1930-1980年:漫長而艱難的黑鐵時(shí)代
語言學(xué)家諾姆·喬姆斯基(Noam Chomsky)曾經(jīng)指出,由于孩子們接觸到的數(shù)據(jù)總量較小,他們究竟是如何學(xué)會一門語言的,至今仍然是個(gè)巨大的謎。
為了讓機(jī)器學(xué)會小孩子可以輕易做到的事情,過去七十多年,無數(shù)科學(xué)家前赴后繼,投入到了“人工智能皇冠上的明珠” 的自然語言處理研究領(lǐng)域,通過構(gòu)建算法,使計(jì)算機(jī)可以自動分析、表征人類語言。
盡管人類從1946年就開始努力,但是很長一段時(shí)間里,進(jìn)展緩慢,人類就像出現(xiàn)希臘文明后經(jīng)歷漫長的中世紀(jì)一樣,在奇點(diǎn)出現(xiàn)之前,在AI研究領(lǐng)域也走過了一段堪稱黑鐵時(shí)代的幽暗之路。
到20世紀(jì)30—40年代,發(fā)生了兩件極其重要的事件:邏輯的數(shù)理化和智能可計(jì)算性思想(機(jī)器能思維),建立了計(jì)算與智能之間的理論關(guān)系;同時(shí)還有兩個(gè)不世出的天才橫空而出,為人工智能提供了完備的理論基礎(chǔ)。
被稱為“人工智能之父”的圖靈,于1936年創(chuàng)立了自動機(jī)理論,提出一個(gè)理論計(jì)算機(jī)模型,奠定電子計(jì)算機(jī)設(shè)計(jì)基礎(chǔ),后來被人稱為“圖靈機(jī)”。1950 年圖靈的論文“機(jī)器能思考嗎?”,也為即將問世的人工智能提供了科學(xué)性和開創(chuàng)性的構(gòu)思。
1948年,劃時(shí)代的“通信的一個(gè)數(shù)學(xué)理論”分成兩部分陸續(xù)發(fā)表,香農(nóng)通過借用熱力學(xué)中“熵”的概念,引入“信息熵”,證明熵與信息的不確定性有等價(jià)關(guān)系,奠定了今天大數(shù)據(jù)與機(jī)器智能的基石。
說個(gè)題外話,在二次世界大戰(zhàn)時(shí),香農(nóng)與比他大4歲的圖靈都是著名的密碼破譯者,幫助盟軍取得了二戰(zhàn)的勝利。
令人扼腕的是圖靈因?yàn)橥詰伲?952年被英國政府強(qiáng)行化學(xué)閹割,兩年后,圖靈不堪受辱自殺身亡??梢哉f是人工智能史上一大挫折。
1956 年夏季香農(nóng)等10位科學(xué)家,舉辦了一次長達(dá)兩個(gè)月的研討會,討論用機(jī)器模擬人類智能問題,首次使用“人工智能”這一術(shù)語。
20世紀(jì)50到70年代,人工智能雖然進(jìn)展有限,但在西方國家還是得到重視和發(fā)展。
過去在AI內(nèi)部存在兩大分支:一是傳統(tǒng)AI——基于規(guī)則,以符號邏輯為基礎(chǔ)的算法系統(tǒng);另一個(gè)則是建立在統(tǒng)計(jì)分布規(guī)律之上的并行分布式系統(tǒng),包括對大腦網(wǎng)絡(luò)的模擬,具有更強(qiáng)的容錯(cuò)能力以及學(xué)習(xí)能力。
但是在20世紀(jì)50年代到70年代,西方國家人工智能研究的主力還是在基于規(guī)則的方向空轉(zhuǎn),加上中國計(jì)算機(jī)科學(xué)當(dāng)時(shí)的停滯,人工智能經(jīng)歷了漫長而艱難的黑鐵時(shí)代。
二、1980-2010年:曙光漸露的青銅時(shí)代
80年代,基于統(tǒng)計(jì)分布規(guī)律的AI路線開始占據(jù)上風(fēng),讓人工智能研發(fā)之路逐漸出現(xiàn)了曙光。
IBM的Fred Jelinek就是一位使用統(tǒng)計(jì)方法研究語音識別與合成的著名學(xué)者,1988年12月,他在一個(gè)NCL會議上尖刻地表示:“每當(dāng)我解雇一個(gè)語言學(xué)家,語音識別系統(tǒng)的性能就會改善一些。”把基于規(guī)則研究人工智能的路線貶低到了一無是處的程度。
到了1989年,自然語言處理的發(fā)展才進(jìn)入了一個(gè)新的紀(jì)元,這個(gè)新紀(jì)元的重要標(biāo)志是,在基于規(guī)則的技術(shù)中引入了語料庫方法,其中包括統(tǒng)計(jì)方法,基于實(shí)例的方法,在語料庫中訓(xùn)練出自然語言處理的基礎(chǔ)組件詞表。事實(shí)上,裝載這些平行語言數(shù)據(jù)的第一個(gè)語料庫,是20世紀(jì)50年代建立的布朗美國英語語料庫。所以很多時(shí)候,奇點(diǎn)的出現(xiàn)是各種技術(shù)條件涌現(xiàn)融合的結(jié)果。
2003年一位德國科學(xué)家奧赫,在美國一次機(jī)器翻譯評比中獲得了最好的成績,他使用統(tǒng)計(jì)方法從雙語自動地獲取語言知識,建立了統(tǒng)計(jì)機(jī)器翻譯的規(guī)則,在很短時(shí)間之內(nèi)就構(gòu)造了阿拉伯語與漢語到英語的若干個(gè)翻譯系統(tǒng)。
偉大的希臘科學(xué)家阿基米德說過:“給我一個(gè)支點(diǎn),我就可以移動地球。”而奧赫說:“只要給我充分的并行語言數(shù)據(jù),那么對于任何的兩種語言,我就可以在幾個(gè)小時(shí)之內(nèi),給你構(gòu)造出一個(gè)機(jī)器翻譯系統(tǒng)?!?/strong>
這種建基于大規(guī)模文本處理基礎(chǔ)上的機(jī)器翻譯,是機(jī)器翻譯研究史上的一場革命,將自然語言處理推向了一個(gè)嶄新的階段。
也是這一年開始,人們開始看到了機(jī)器翻譯的曙光。過去三十年間,這顆自然語言處理的種子已經(jīng)長成了碩果累累的科學(xué)之樹。
人工智能研究真正取得突破的時(shí)候,正好碰上了中國思想大解放的八十年代,中國的人工智能研究也終于搖搖晃晃邁出了蹣跚的步履。
1978年,隨著“科學(xué)技術(shù)是生產(chǎn)力”的提出,中國人工智能也在醞釀著進(jìn)一步的解凍。著名數(shù)學(xué)家、中國科學(xué)院院士吳文俊提出的利用機(jī)器證明與發(fā)現(xiàn)幾何定理的新方法——幾何定理機(jī)器證明,獲得1978年全國科學(xué)大會重大科技成果獎(jiǎng)就是一個(gè)很好的征兆。
20世紀(jì)80年代初期,錢學(xué)森開始主張開展人工智能研究,中國的人工智能研究進(jìn)一步活躍起來。
改革開放后,自1980 年起中國大批派遣留學(xué)生赴西方發(fā)達(dá)國家研究現(xiàn)代科技,其中就包括人工智能學(xué)科領(lǐng)域。這些人工智能“海歸”專家,已成為中國人工智能研究與應(yīng)用的學(xué)術(shù)帶頭人和中堅(jiān)力量。
20世紀(jì)八九十年代,中國人工智能學(xué)會成立,《人工智能學(xué)報(bào)》創(chuàng)刊,清華大學(xué)出版社出版《人工智能及其應(yīng)用》著作,學(xué)界的人工智能研究開始陸續(xù)啟動。
同時(shí),國內(nèi)少數(shù)高校也開始開設(shè)各種人工智能類課程。經(jīng)過推廣與提高,30年前的人工智能星星之火如今已形成燎原之勢,數(shù)以百計(jì)的高校開設(shè)了各種層次的人工智能課程。
甚至有些人工智能基礎(chǔ)研究已經(jīng)開始斬獲國際獎(jiǎng)項(xiàng),1990年計(jì)算機(jī)科學(xué)與技術(shù)專家、中國科學(xué)院院士張鈸獲得ICL歐洲人工智能獎(jiǎng)。張鈸現(xiàn)在已經(jīng)任職清華大學(xué)人工智能研究院院長。
這只是中國成為國際AI頂會獎(jiǎng)項(xiàng)收割機(jī)的開篇。
三、2010年至今:顯山露水的白銀時(shí)代
2000年國際AI頂會ACL年會在中國香港舉辦時(shí),只有微軟中國研究院的論文來自中國大陸,到了2005年,來自大陸的論文也只有三篇。
直到2010年,百度引入國際著名人工智能專家王海峰,同年,王海峰一篇論文被 ACL 錄用。2013 年,王海峰出任ACL五十年來首位華人主席,并且促成了2015年ACL會議在中國舉辦。
今年ACL的年會主席是來自中國中科院自動化研究所的宗成慶,程序主席也有兩位華人科學(xué)家。
華人再一次擔(dān)任此重要職務(wù),中國人工智能的發(fā)展卻已經(jīng)不可同日而語。
在過去十年里,隨著中國生產(chǎn)、消費(fèi)、社會運(yùn)作的全面數(shù)字化與智能化,數(shù)據(jù)增長、算法革新、算力提升,讓人工智能從基礎(chǔ)研究到應(yīng)用都取得了突破性進(jìn)展,迎來了真正的繁榮時(shí)期。
與此同時(shí),華人科學(xué)家也從在NLP領(lǐng)域默默無聞,到頂會投稿量全球第一,論文質(zhì)量也取得了質(zhì)的飛躍,儼然成為了頂會論文收割機(jī)與AI基礎(chǔ)研究領(lǐng)域的主力軍。
今年3月份,華人學(xué)者彭泱獲得了2021 年算法頂會 ACM-SIAM 的最佳論文獎(jiǎng),他曾在中國南京大學(xué)就讀博士學(xué)位。
就在一個(gè)月前的另一個(gè)人工智能頂級學(xué)術(shù)會議AAAI上,來自中國的學(xué)者許晶晶成功入選“學(xué)術(shù)新星”。許晶晶在2020年從北大博士畢業(yè)后加入了字節(jié)跳動AI Lab團(tuán)隊(duì)。今年8月份,許晶晶更是與AI Lab團(tuán)隊(duì)其他成員一起摘得了ACL大會頒布的最佳論文。
字節(jié)跳動AI Lab贏得最佳論文,是ACL成立59年以來華人科學(xué)家團(tuán)隊(duì)第二次贏得最高獎(jiǎng)項(xiàng),此前由中科院計(jì)算所主導(dǎo)的研究項(xiàng)目曾被評為ACL 2019“最佳長論文”。
來自港中文、騰訊AI Lab合作的論文也入選了ACL 2021的杰出論文,是六篇杰出論文之一。
ACL大會由國際計(jì)算語言學(xué)協(xié)會主辦,是自然語言處理與計(jì)算語言學(xué)領(lǐng)域最高級別的學(xué)術(shù)會議。ACL學(xué)會成立于1962年,大會每年一屆,經(jīng)過嚴(yán)格的篩選和評審選出來的最佳論文,代表著該領(lǐng)域的最高水平和發(fā)展方向。
今年3月,倫敦帝國理工學(xué)院NLP學(xué)者M(jìn)arek Rei發(fā)布2020年度AI相關(guān)的論文統(tǒng)計(jì)顯示:在發(fā)表數(shù)量中,來自西湖大學(xué)的張?jiān)溃?020年一共發(fā)表了30篇文章,從2019年排名12,直接跳到了今年的第二位。
Marek Rei的統(tǒng)計(jì)數(shù)據(jù)覆蓋了12個(gè)2020年AI相關(guān)的權(quán)威會議和期刊。
在2012年至2020年整體的數(shù)量中,曾任職清華大學(xué)副教授的周明占據(jù)榜首,共發(fā)表128篇論文。張?jiān)牢涣械谌?/strong>
各個(gè)機(jī)構(gòu)的比較中,2020年,清華大學(xué)、北京大學(xué)、中國科學(xué)院,進(jìn)入了論文數(shù)總量前十,分列第六、第八、第十。而在2012-2020期間的論文總量統(tǒng)計(jì)中,只有清華、北大進(jìn)前十。
中國科技公司在AI領(lǐng)域的影響力也在逐漸彰顯。
著名咨詢公司Gartner 今年7月發(fā)布的云AI開發(fā)者服務(wù)報(bào)告中,國內(nèi)的阿里云、百度云、騰訊云全部入選,其中阿里云與微軟、谷歌、IBM、AWS一起躋身遠(yuǎn)見者象限。
也是在今年7月,由ACL舉辦的機(jī)器翻譯大賽上,字節(jié)跳動AI Lab研發(fā)的“并行翻譯”系統(tǒng),奪得德語到英語方向評比第一名。
在18年前曾讓人們看到了AI研究曙光的并行翻譯領(lǐng)域,18年后的今天,來自中國的“并行翻譯”系統(tǒng),首次擊敗了從左向右逐詞翻譯的傳統(tǒng)技術(shù),打破后者在機(jī)器翻譯領(lǐng)域的絕對統(tǒng)治地位。
值得關(guān)注的是,來自Marek Rei 教授的統(tǒng)計(jì)展示了美國在 AI 領(lǐng)域 “力壓群雄”的主導(dǎo)地位,接近4000篇論文,是排名第二中國的兩倍。
但是作為后來者,中國取得今天的成績,已經(jīng)很不容易,2010年之前,華人科學(xué)家出現(xiàn)在AI頂會優(yōu)質(zhì)論文中的身影還寥寥可數(shù),過去十年,中國人、華裔以及來自中國的機(jī)構(gòu)與企業(yè),在國際AI領(lǐng)域的存在已經(jīng)越來越難以忽視,華人開始在關(guān)鍵AI國際機(jī)構(gòu)重要任職,優(yōu)質(zhì)論文作者密集出現(xiàn),過去三年,華人科學(xué)家更是包攬了ACL兩年的最佳論文。
人工智能發(fā)展的七十多年,其實(shí)也是中國AI科研,由荒蠻走向繁榮的七十多年。
中國的人工智能已經(jīng)走在通向黃金時(shí)代的白銀時(shí)代,用王小波的話來說:“銀子是熱導(dǎo)最好的物質(zhì),在一塊銀子上,絕不會有一塊地方比另一塊更熱?!边@十年,從國家戰(zhàn)略、學(xué)術(shù)機(jī)構(gòu)到科技公司,中國在人工智能領(lǐng)域的努力與收獲都是全方位的。
文藝復(fù)興時(shí)代詩人但丁曾經(jīng)寫下這樣的名句:我們一起攀登,直到我透過一個(gè)圓洞看得見一些美麗的東西顯現(xiàn)在蒼穹。我們于是走出這里,看見了滿天繁星。
相信如詩人但丁所言,穿過科研無人區(qū)的幽暗圓洞,科學(xué)家將會帶領(lǐng)我們走向更廣闊壯美的星空。
作者:秋水筆彈,公眾號:秋水筆彈【ID:qiushuibitan】專注科技商業(yè)生態(tài)的思考洞察。
本文由 @秋水筆彈 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
- 目前還沒評論,等你發(fā)揮!