一篇文章了解機(jī)器學(xué)習(xí)

最近正在做一個(gè)機(jī)器學(xué)習(xí)相關(guān)的項(xiàng)目,在這之前自己也沒(méi)有接觸過(guò)機(jī)器學(xué)習(xí)。可謂邊做邊學(xué),在這里把自己的學(xué)習(xí)理解記錄下來(lái),同時(shí)也希望感興趣的同學(xué)可以通過(guò)這篇文章對(duì)機(jī)器學(xué)習(xí)有一個(gè)大致的了解。這篇文章沒(méi)有專(zhuān)業(yè)的技術(shù)語(yǔ)言,旨在讓機(jī)器學(xué)習(xí)之外的人能夠?qū)@門(mén)技術(shù)有一個(gè)初步的認(rèn)識(shí)。
背景
機(jī)器學(xué)習(xí)(Machine Learning)是一門(mén)專(zhuān)門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能的學(xué)科。1959年美國(guó)的塞繆爾(Samuel)設(shè)計(jì)了一個(gè)下棋程序,這個(gè)程序具有學(xué)習(xí)能力,它可以在不斷的對(duì)弈中改善自己的棋藝。4年后,這個(gè)程序戰(zhàn)勝了設(shè)計(jì)者本人。又過(guò)了3年,這個(gè)程序戰(zhàn)勝了美國(guó)一個(gè)保持8年之久的常勝不敗的冠軍。這個(gè)程序向人們展示了機(jī)器學(xué)習(xí)的能力。
機(jī)器學(xué)習(xí)的定義
機(jī)器學(xué)習(xí),顧名思義就是讓機(jī)器進(jìn)行“學(xué)習(xí)”,這個(gè)名字使用了擬人的手法。
但是計(jì)算機(jī)是死的,怎么可能像人一樣學(xué)習(xí)呢?
傳統(tǒng)的計(jì)算機(jī)程序,都是我們輸入一串指令后,它按照這個(gè)指令一步步的執(zhí)行,最終輸出一個(gè)明確的結(jié)果,具有明確的因果關(guān)系。但是機(jī)器學(xué)習(xí)卻完全不一樣,沒(méi)有明確的因果關(guān)系。它會(huì)根據(jù)你輸入的數(shù)據(jù)而不是指令來(lái)進(jìn)行學(xué)習(xí)和輸出結(jié)果,相關(guān)而不是因果的概念是機(jī)器學(xué)習(xí)的核心概念。
因此我們說(shuō),機(jī)器學(xué)習(xí)是一種讓計(jì)算機(jī)利用數(shù)據(jù)而不是指令來(lái)進(jìn)行各種工作的方法。
它是人工智能的核心,是使計(jì)算機(jī)智能化的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。
基于機(jī)器學(xué)習(xí)的文本分類(lèi)
文本分析一直是科學(xué)研究較為活躍的領(lǐng)域。畢竟創(chuàng)造所有人類(lèi)知識(shí)(文本表示)不是一項(xiàng)輕松的工作。
下面我通過(guò)機(jī)器學(xué)習(xí)在文本數(shù)據(jù)分析方面的應(yīng)用為例來(lái)簡(jiǎn)單的闡明具體什么是機(jī)器學(xué)習(xí)。如果你想簡(jiǎn)單的了解一下什么是機(jī)器學(xué)習(xí),那么看完這篇文章就足夠了。如果你想深入了解機(jī)器學(xué)習(xí)和人工智能,就需要多下功夫進(jìn)行研究和思考了。
文本分析,即是讓計(jì)算機(jī)對(duì)輸入的文本數(shù)據(jù)進(jìn)行分析,得到這篇文章的分析結(jié)果(如文本分類(lèi)、正負(fù)情緒等)。進(jìn)行分析的前提是,使用算法對(duì)文本數(shù)據(jù)進(jìn)行分詞和關(guān)鍵詞提取,同時(shí)系統(tǒng)建立一個(gè)語(yǔ)料庫(kù)。流程是,輸入文本數(shù)據(jù)后,系統(tǒng)對(duì)文本數(shù)據(jù)進(jìn)行分詞和關(guān)鍵詞的提?。P(guān)于分詞和關(guān)鍵詞提取的原理就不在這里展開(kāi)說(shuō)了,后續(xù)會(huì)抽時(shí)間進(jìn)行分享),得到關(guān)鍵詞數(shù)據(jù)后,與語(yǔ)料庫(kù)的數(shù)據(jù)進(jìn)行匹配,然后將匹配數(shù)據(jù)傳輸至分析引擎,得出分析結(jié)果。
這是目前行業(yè)中最基本的文本分析流程,這個(gè)流程本身是沒(méi)有任何問(wèn)題的,但是問(wèn)題就出在計(jì)算機(jī)沒(méi)有“自我”的意識(shí),不懂得如何根據(jù)實(shí)際環(huán)境等因素進(jìn)行靈活的變通,所以這樣分析出來(lái)的結(jié)果可能會(huì)出現(xiàn)不準(zhǔn)確的情況。舉一個(gè)簡(jiǎn)單的例子,比如有一句話(huà)話(huà)“資本主義好?呵呵!”如果直接讓計(jì)算機(jī)分析的話(huà),也許得出的結(jié)果就是歌頌資本主義。但實(shí)際的情況卻是批評(píng)資本主義。可以看到,在這種特定的環(huán)境下的分析判斷,展現(xiàn)出會(huì)思考的人類(lèi)的強(qiáng)大之處。
基于這樣的情況,我們需要引入機(jī)器學(xué)習(xí)的概念。傳統(tǒng)的計(jì)算機(jī)系統(tǒng),都是輸入A,得到的答案一定是B。但是通過(guò)機(jī)器不斷的學(xué)習(xí)后,同樣輸入A,但是得到的答案可能會(huì)是B1B2或者BC。這就是機(jī)器學(xué)習(xí)后帶來(lái)的變化,也正是機(jī)器學(xué)習(xí)的魅力所在。
先上一個(gè)關(guān)于文本分類(lèi)的機(jī)器學(xué)習(xí)架構(gòu)圖。
在圖中可以看到,對(duì)于分析引擎可以正確識(shí)別的將會(huì)直接輸出分析結(jié)果。對(duì)于分析引擎不能正確識(shí)別的,將通過(guò)人工干預(yù)的方式對(duì)分析結(jié)果進(jìn)行校正后再將正確結(jié)果進(jìn)行輸出。而機(jī)器學(xué)習(xí)引擎將對(duì)所有的這些歷史樣本數(shù)據(jù)進(jìn)行存儲(chǔ)。接著,我們將這些數(shù)據(jù)通過(guò)機(jī)器學(xué)習(xí)算法進(jìn)行處理,這個(gè)過(guò)程在機(jī)器學(xué)習(xí)中叫做“訓(xùn)練”,處理的結(jié)果可以被我們用來(lái)訓(xùn)練“模型”,當(dāng)輸入新的數(shù)據(jù)時(shí),我們即可以通過(guò)“模型”對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行處理。對(duì)新數(shù)據(jù)的處理過(guò)程在機(jī)器學(xué)習(xí)中叫做“預(yù)測(cè)”?!坝?xùn)練”與“預(yù)測(cè)”是機(jī)器學(xué)習(xí)的兩個(gè)過(guò)程,“模型”則是過(guò)程的中間輸出結(jié)果,“訓(xùn)練”產(chǎn)生“模型”,“模型”指導(dǎo) “預(yù)測(cè)”。
下面這張圖就是機(jī)器學(xué)習(xí)的過(guò)程與人類(lèi)歸納經(jīng)驗(yàn)的對(duì)比:
可見(jiàn),機(jī)器學(xué)習(xí)中的“訓(xùn)練”與“預(yù)測(cè)”過(guò)程可以對(duì)應(yīng)到人類(lèi)的“歸納”和“推測(cè)”過(guò)程。機(jī)器的“模型”通過(guò)歷史數(shù)據(jù)的積累學(xué)習(xí)具有了對(duì)新的問(wèn)題和具體情境給出判斷的能力,這正如人類(lèi)通過(guò)過(guò)往的生活經(jīng)驗(yàn)不斷歸納整理得出一定的規(guī)律而具有了利用這些知識(shí)對(duì)新的問(wèn)題進(jìn)行判斷能力。通過(guò)這樣的對(duì)應(yīng),我們可以發(fā)現(xiàn),機(jī)器學(xué)習(xí)的思想并不復(fù)雜,僅僅是對(duì)人類(lèi)在生活中學(xué)習(xí)成長(zhǎng)的一個(gè)模擬。由于機(jī)器學(xué)習(xí)不是基于編程形成的結(jié)果,因此它的處理過(guò)程不是因果的邏輯,而是通過(guò)歸納思想得出的相關(guān)性結(jié)論。
小結(jié)
機(jī)器學(xué)習(xí)即是用某些算法指導(dǎo)計(jì)算機(jī)利用已知的歷史數(shù)據(jù)得出適當(dāng)?shù)哪P?,并利用此模型?duì)新的情境給出判斷的過(guò)程。
以上,為個(gè)人理解,愿與大家多多交流!
本文由 @Yonwon?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!