數(shù)據(jù)科學(xué)邊界:數(shù)據(jù)不能解決什么?
我們現(xiàn)在已經(jīng)走過了很久的歷程,終于完成了這個系列的寫作,今天是我們的收官之作,我們聊點輕松的,今天沒有公式,沒有代碼。
-
- 如何構(gòu)建學(xué)科體系
- 數(shù)據(jù)世界觀
- 數(shù)據(jù)分析整體框架
- 問題分析/數(shù)據(jù)預(yù)處理/數(shù)據(jù)預(yù)分析
- 數(shù)據(jù)分析核心:建模
- 模型空間概述
- 數(shù)據(jù)科學(xué)邊界(這篇文章)
- ……
數(shù)據(jù)科學(xué) = 數(shù)學(xué)/統(tǒng)計學(xué) + 科學(xué)方法論 + 計算機 (+ 業(yè)務(wù)經(jīng)驗)
我們在剛剛接觸一個新奇的事物的時候,總有一種沖動:這種東西可以改變?nèi)钪妗?/strong>
比如:我們剛接觸區(qū)塊鏈的時候,啊,區(qū)塊鏈就要改變?nèi)钪媪?。其實區(qū)塊鏈也只是一種去中心化的分布式的數(shù)據(jù)庫技術(shù)而已,當我們問區(qū)塊鏈什么時候可以改變世界的時候,其實再問一種數(shù)據(jù)庫技術(shù)什么時候改變世界?
科學(xué)剛誕生的時候,人類世界開始了去魅的過程,越來愈多的事情被證偽,被科學(xué)拉下神壇,正當科學(xué)家們躊躇滿志的時候,馬克韋伯在一篇題為<作為學(xué)術(shù)的志業(yè)>的演講中說:我們這個時代必定是分裂的一代,一方面科學(xué)告訴我們事實是什么,卻無法告訴我們什么是善良,什么是美。
短短的一句話終結(jié)了科學(xué)萬能的神話,我們剛接觸數(shù)據(jù)科學(xué)的時候,也覺得這是個數(shù)據(jù)入侵一切的世界,今天我們就來看看數(shù)據(jù)科學(xué)不能解決什么?
科學(xué)的邊界:無法測量的對象,無法研究
這里先補充一點測量學(xué)的基礎(chǔ)知識,我們?nèi)绾螠y量一個研究對象呢?
測量主要考慮的倆個因素:效度和信度。
- 信度是指其可信度,既是在多大程度上是正確的(數(shù)據(jù)測量的穩(wěn)定性);
- 效度是指能夠多有效的表示所需表達的含義(映射的準確性)。
舉個栗子:以一份量表(測量智力,記憶力之類的標準化試卷)為例,其信度就是指同一個人在幾次參加同一份試卷的考試(假設(shè)此人并未有改變)分數(shù)不會有大的差異,而效度是指這份試卷能勾多大程度測量你的智力水平。再如:用一把尺子來量一個人的體重,其信度是有的,但是沒有效度。如果一個事物具有效度,那一定具有信度,反之則不然。
現(xiàn)實中,我們不一定可以找到有效測量對象的指標或者參照,即使找到了也不一定可以保證測量的穩(wěn)定性。
舉個栗子:科學(xué)是如何研究潛意識的,目前科學(xué)達到的最高的水平,也只是通過特定腦區(qū)的腦電波變化來反映潛意識。首先這個測量的效度就很低,腦電波變化如何能反映潛意識呢?同一潛意識活動如何穩(wěn)定的被測量?
科學(xué)的邊界:價值類問題 無法有效研究
關(guān)于這部分的論述,前人已經(jīng)做了精彩的論述,我援引韋伯在<學(xué)術(shù)與政治>中的論述。韋伯在書中談到的一個重點,是真善美統(tǒng)一性的瓦解。學(xué)術(shù)知識的目標是求真,發(fā)現(xiàn)自然世界與人類社會的事實真相。
在西方傳統(tǒng)的觀念中,真善美是一個和諧整體,發(fā)現(xiàn)了事實真相就能確立倫理的標準,由此分辨好壞對錯,而且還能確定美的本質(zhì),從而得以鑒別美與丑。但是現(xiàn)代學(xué)術(shù)的發(fā)展表明,真是一種事實判斷,而善或美都是價值判斷,三者背后沒有統(tǒng)一的依據(jù)。
如果一名學(xué)者在“表達自己的價值判斷,那么他對事實理解的完整性就終結(jié)了”。這意味著韋伯認同英國哲學(xué)家休謨的觀點,事實與價值屬于兩種不同的問題領(lǐng)域,前者是“實然”問題,關(guān)乎“實際上是什么”,而后者是“應(yīng)然問題,判斷“應(yīng)當是什么”,實然與應(yīng)然之間沒有邏輯的統(tǒng)一性。
比如:今天我穿了件藍色的上衣,這是一個事實陳述,大概不會有異議,假如你說這是綠色的,那么你要么是故意胡說,要么就是“色盲”。我們可以用儀器來測量衣服的“波長”,用數(shù)據(jù)證明這是物理學(xué)定義的“藍色”。
但還有另一種說法,說這種藍色“特別好看”,這就不是事實陳述,而是在做價值判斷了。 要是有人提出不同的判斷,堅持說這種藍色難看極了,你很難用同樣客觀有力的證據(jù)來反駁。
這個簡單的例子告訴我們兩個道理:
- 第一,美和真屬于不同的領(lǐng)域,沒有統(tǒng)一的判斷依據(jù);
- 第二,事實判斷具有客觀性,在原則上可以通過證據(jù)和理性辯論讓大家達成一致,而價值判斷具有很強的主觀色彩,理性辯論無法保證能解決爭議,達成共識。
計算機的邊界:圖靈機限制/摩爾定律限制/信息論假設(shè)
關(guān)機計算機的極限主要來自這幾個方面:
- 圖靈機的極限:圖靈機僅僅可以計算一部分問題,而圖靈機是今天計算機的原型.圖靈機無法計算一類讓自己無法停機的問題。
- 香農(nóng)信息論基本假設(shè):計算機無法隨機,無法表示無理數(shù)。
- 摩爾定律隨著芯片體積縮小而失效:摩爾定律是由英特爾(Intel)創(chuàng)始人之一戈登·摩爾(Gordon Moore)提出來的。
其內(nèi)容為:當價格不變時,集成電路上可容納的元器件的數(shù)目,約每隔18-24個月便會增加一倍,性能也將提升一倍。
換言之,每一美元所能買到的電腦性能,將每隔18-24個月翻一倍以上,這一定律揭示了信息技術(shù)進步的速度。 盡管這種趨勢已經(jīng)持續(xù)了超過半個世紀,摩爾定律仍應(yīng)該被認為是觀測或推測,而不是一個物理或自然法。
預(yù)計定律將持續(xù)到至少2015年或2020年。然而,2010年國際半導(dǎo)體技術(shù)發(fā)展路線圖的更新增長已經(jīng)放緩在2013年年底,之后的時間里晶體管數(shù)量密度預(yù)計只會每三年翻一番。
數(shù)學(xué)的邊界:哥德爾不完備性
1900年的巴黎,在世紀交替之際,希爾伯特提出了他著名的23個問題。其中第二個問題——算術(shù)系統(tǒng)的相容性——正是他那雄心勃勃的“希爾伯特計劃”的最后一步。這位數(shù)學(xué)界的巨人,打算讓整個數(shù)學(xué)體系矗立在一個堅實的地基上,一勞永逸地解決所有關(guān)于對數(shù)學(xué)可靠性的種種疑問。
一切都為了回答三個問題:
- 數(shù)學(xué)是完備的嗎?也就是說,面對那些正確的數(shù)學(xué)陳述,我們是否總能找出一個證明?數(shù)學(xué)真理是否總能被證明?
- 數(shù)學(xué)是一致的嗎?也就是說,數(shù)學(xué)是否前后一致,不會得出某個數(shù)學(xué)陳述又對又不對的結(jié)論?數(shù)學(xué)是否沒有內(nèi)部矛盾?
- 數(shù)學(xué)是可判定的嗎?也就是說,能夠找到一種方法,僅僅通過機械化的計算,就能判定某個數(shù)學(xué)陳述是對是錯?數(shù)學(xué)證明能否機械化?
希爾伯特明確提出這三個問題時,已是28年后的1928年。在這28年間,數(shù)學(xué)界在算術(shù)系統(tǒng)的相容性上沒有多少進展。但希爾伯特沒有等太久,僅僅三年后,哥德爾就得到了前兩個問題的答案,盡管這個答案不是希爾伯特所希望看到的。
哥德爾的答案分兩部分:
- 第一,任何包含了算術(shù)的數(shù)學(xué)系統(tǒng)都不可能同時擁有完備性和一致性,也就是說,如果一個數(shù)學(xué)系統(tǒng)包含了算術(shù)的話,要么它是自相矛盾的,要么存在一些命題,它們是真的,但我們卻無法證明。這說明,希爾伯特的前兩個問題不可能同時為真。在這里,“算術(shù)”有著精確的含義,就是皮亞諾公理,一組描述了自然數(shù)的公理。
- 第二,任何包含了算術(shù)的數(shù)學(xué)系統(tǒng),如果它是一致的,那么我們不能在它的內(nèi)部證明它本身的一致性。這說明,我們沒有希望解決第二個問題。
這就是著名的哥德爾不完備性定理,與其說它回答了希爾伯特的前兩個問題,不如說它闡述了為什么我們根本不可能解決這兩個問題。
哥德爾給出了數(shù)學(xué)的極限:在數(shù)學(xué)的領(lǐng)地上,有些東西我們不知道,也不可能知道。
尷尬的是,這就給數(shù)學(xué)家們心頭壓上了一塊大石:誰也不知道自己辛辛苦苦做了十幾年的題目,會不會突然有一天被證明是在現(xiàn)有數(shù)學(xué)體系中不可判定的。
測量的邊界:任何測量都有必然誤差
現(xiàn)實世界的對象其實無窮維度的,而測量的本質(zhì)是有限維度的映射,這些有限維度的選擇本身就帶有必然的主觀色彩,我們獲得了一些我們想要的知識,也一定忽略了很多信息。
因果性和相關(guān)性的鴻溝
在大家的意識中,因果關(guān)系是相關(guān)性正好等于100%,如果A發(fā)生,那么B一定發(fā)生,就是相關(guān)系數(shù)等于1。 假如我和你都是小學(xué)生,你和我肯定都在長個子,那么你長高,我也長高,在這5年之內(nèi),你長高我也長高的相關(guān)性是1。
大家都知道,因為我和你還在成長期。不是你長高,我也長高?;蛟S,你現(xiàn)在看到這里覺得很可笑,這不是誰都知道嗎。但是生活中,各種事情在我們的生活中存在很多,只是我們沒有意識到,還有這些事情沒有威脅我們的生存。
對因果關(guān)系,最前沿的定義是這樣的:
認知科學(xué)家珀爾給了一個這樣的定義:P(Y | do(X)) > P(Y),也就是說,如果你單方面對 X 做一個干預(yù)動作,導(dǎo)致 Y 的概率增加,那么就是 X 導(dǎo)致了 Y,這個可能是目前為止最合理的定義。
總結(jié)
接下來,我們總結(jié)一下數(shù)據(jù)科學(xué)的邊界:
世界上有很多問題,其中只有一小部分是數(shù)學(xué)問題。 在數(shù)學(xué)問題中,只有一小部分是有解的。在有解的問題中,只有一部分是理想狀態(tài)的圖靈機可以解決的。在后一類的問題中,又只有一部分是今天實際的計算機可以解決的,而人工智能可以解決的問題,又只是計算機可以解決問題的一部分,而數(shù)據(jù)科學(xué)只是這些學(xué)科的一個交叉而已。
科學(xué)沒有解決了所有問題,但是開啟了一個去魅的時代,我們更加看清了一些世界的真相。數(shù)據(jù)也不能解決所有問題,但是卻把天使帶到了人間,使普通人也能夠調(diào)用一代代偉人的智慧。
反思
整個過程可以概括為嘗試在一個工程學(xué)科建立像數(shù)學(xué)一樣的演繹體系,這可能是個失敗的,但對自己來說,也算是一個偉大的失敗。
雖然整個過程寫的我自己嘔心瀝血,耗盡心力,但其實并文章本身沒有為了人類的知識體系做出任何補丁和貢獻。
寫作的過程是一個不斷探索本質(zhì)的過程,寫作的過程不斷逼迫自己去思考,去建立概念之間的聯(lián)系,逼迫自己搞清楚以前模糊的概念,可能這樣的寫作對自己一個人的意義遠遠大于對其他人。
這個過程中也在反思,學(xué)習(xí)知識,我們到底是皓首窮經(jīng)的究根問底,還是拿來主義就好?
現(xiàn)在想到的一個折中方案是:
- 不能一直究根問底,畢竟我們的時間精力有限,任何學(xué)科的任何一個分支都有可能窮盡我們一生的精力;
- 在調(diào)用他人研究成果時 至少需要知道成果中概念的準確含義,成果的假設(shè),成果的結(jié)論,結(jié)論的限定,其他團體對結(jié)果的評價。
當然折中方案的基礎(chǔ)是,當要解決具體問題時,我們的信息源要足夠的高質(zhì)量,人文方面主要看大師,看人類社會公認的經(jīng)典之作,科學(xué)方面圍繞SCI等核心期刊和科學(xué)共同體公認的教材,配合一定的綜述性文獻。
至此我們可以區(qū)分出來,作為消費內(nèi)容的寫作,作為人類知識延續(xù)和傳播的寫作,作為自我反思的寫作,之間的區(qū)別。
這段時間的寫作告一段落,謝謝大家。
作者:小祁愛數(shù)據(jù),公眾號:小祁同學(xué)的成長故事
本文由 @小祁愛數(shù)據(jù) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!