這篇文章把數(shù)據(jù)講透了(一):數(shù)據(jù)來源
編輯導(dǎo)讀:隨著“數(shù)智化”時(shí)代的到來,我們生活中的方方面面都離不開數(shù)據(jù),而你真的了解數(shù)據(jù)嗎?本文將為你重新解讀數(shù)據(jù)的概念和價(jià)值,以及數(shù)據(jù)的價(jià)值是如何在“數(shù)智化”時(shí)代下一步一步得到運(yùn)用與升華的。因內(nèi)容頗多,我將分幾期為大家進(jìn)行講解。
一、前言
我們?nèi)粘I钪薪?jīng)常會聽到這樣的問題:你有數(shù)據(jù)支撐嗎?你的數(shù)據(jù)來源是哪兒?數(shù)據(jù)噪聲大嗎?
那么這里的“數(shù)據(jù)”究竟是怎樣的存在?
百度百科對數(shù)據(jù)定義很簡單:數(shù)據(jù)(data)是事實(shí)或觀察的結(jié)果,是對客觀事物的邏輯歸納,是用于表示客觀事物的未經(jīng)加工的原始素材。
而仔細(xì)想想,我們?nèi)粘V兴傅臄?shù)據(jù)真的是data嗎?其實(shí),我們更多指的是已經(jīng)形成體系、有邏輯結(jié)構(gòu)和實(shí)用性的“數(shù)據(jù)知識”。
所以,我們也不能把數(shù)據(jù)當(dāng)作一個(gè)簡單的概念,但其實(shí)“數(shù)據(jù)”里面還有很多學(xué)問。
下面先給大家引出四個(gè)“數(shù)據(jù)”相關(guān)的名詞概念,后面我會分別闡述它們“價(jià)值變現(xiàn)”的方法論。
你真的了解data、information、kownledge、insight是什么嗎?
- data(菜市場買來的菜):簡單的事實(shí),未處理的,無組織的,原始的。
- information(折菜、洗菜):經(jīng)過結(jié)構(gòu)化組織、處理的數(shù)據(jù),要根據(jù)“情景和語境”使其具有相關(guān)性和實(shí)用性。
- kownledge(下鍋炒菜):是通過學(xué)習(xí)和經(jīng)驗(yàn)聯(lián)系在一起的信息地圖,具有預(yù)測和決策和概括的能力。
- insight(已經(jīng)到能教別人做菜的程度):準(zhǔn)確而深刻地理解復(fù)雜問題或情況的能力(是可以借助工具實(shí)現(xiàn)的)。
今天,小陳就帶大家看看數(shù)據(jù)的來源及其具體類型,畢竟知己知彼,方能百戰(zhàn)不殆,有了今天的鋪墊我們才能在后面幾期的學(xué)習(xí)中,能容易上手~
二、數(shù)據(jù)來源(菜市場)
如果說,data是我們烹飪所需的原材料,那么確定數(shù)據(jù)來源就好比我們出去買菜之前要先確定去哪家菜市場買菜一樣;而且“菜市場”也是術(shù)業(yè)有專攻的!買海鮮去海鮮市場、買家禽要去禽類市場…數(shù)據(jù)也是一個(gè)道理,要通過你所需的領(lǐng)域,具體篩選數(shù)據(jù)來源,畢竟保證數(shù)據(jù)質(zhì)量是烹飪佳肴的第一步~
就像前面所述,數(shù)據(jù)是一個(gè)龐大的概念,我們想要利用好,首先要知道數(shù)據(jù)的類型,根據(jù)類型再去判斷來源和收集數(shù)據(jù)。
1. 按照結(jié)構(gòu)化程度區(qū)分?jǐn)?shù)據(jù)來源
1)非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù),是數(shù)據(jù)的最簡形式;我們身邊時(shí)時(shí)刻刻都有非結(jié)構(gòu)化數(shù)據(jù)的身影且?guī)缀跬偈挚傻茫淖?、圖片、聲音或視頻都屬于非結(jié)構(gòu)化數(shù)據(jù),這類數(shù)據(jù)通常存儲在文件存儲庫中(小白們,可以把它看作是計(jì)算機(jī)硬盤驅(qū)動器上一個(gè)組織良好的目錄)。
但,從這種形狀的數(shù)據(jù)中提取價(jià)值通常是最困難的;因?yàn)槲覀兪紫刃枰獜拿枋龌虺橄髷?shù)據(jù)中提取結(jié)構(gòu)化特性(例如,要使用文本,我們可能需要提取主題以及文本對主題的正面或負(fù)面評價(jià),而一千個(gè)讀者就會有一千個(gè)哈姆雷特,這類信息是極具主觀色彩的)。
目前,非常流行的文本挖掘技術(shù),它的數(shù)據(jù)來源就是我們此處所說的非結(jié)構(gòu)化數(shù)據(jù)。
2)結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù),顧名思義,是定義良好的表格數(shù)據(jù)(行和列),這意味著我們知道有哪些列以及它們包含什么類型的數(shù)據(jù);這些數(shù)據(jù)通常存儲在數(shù)據(jù)庫中,在數(shù)據(jù)庫中,我們可以使用SQL語言進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的篩選,并輕松創(chuàng)建數(shù)據(jù)集用于我們的數(shù)據(jù)科學(xué)解決方案。
3)半結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù),介于非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)之間,它雖然定義了一致的格式,但是結(jié)構(gòu)不是很嚴(yán)格,比如數(shù)據(jù)的一部分可能是不完整的或者是不同的類型;半結(jié)構(gòu)化數(shù)據(jù)通常存儲為文件,但是,某些類型的半結(jié)構(gòu)化數(shù)據(jù)(如JSON或XML)可以存儲在面向文檔的數(shù)據(jù)庫中。
2. 按照數(shù)據(jù)私密性區(qū)分?jǐn)?shù)據(jù)來源
1)組織內(nèi)的數(shù)據(jù)源(封閉數(shù)據(jù)源)
查找數(shù)據(jù)的第一個(gè)地方是組織內(nèi)部,大多數(shù)企業(yè)目前都有ERP、CRM、工作流管理等系統(tǒng)在運(yùn)行,這類系統(tǒng)通常使用數(shù)據(jù)庫以結(jié)構(gòu)化的方式存儲數(shù)據(jù);這些數(shù)據(jù)庫包含大量的數(shù)據(jù),您可以很容易地從中提取價(jià)值;例如,通過工作流管理系統(tǒng),您可以輕松地了解業(yè)務(wù)流程中的瓶頸,或者通過使用來自ERP系統(tǒng)的數(shù)據(jù),您可以進(jìn)行銷售預(yù)測。
2)公開的數(shù)據(jù)源(開源數(shù)據(jù)源)
除了對內(nèi)非公開數(shù)據(jù)以外,許多組織接收和發(fā)送大量的文件、圖片、聲音或視頻,這些在公網(wǎng)上傳播留存的數(shù)據(jù)則為公開的數(shù)據(jù)源;例如,你可以想象,一家保險(xiǎn)公司收到了很多可能附有圖片的索賠(紙質(zhì)的或PDF格式的),這些文件通常在處理前手動轉(zhuǎn)換為更結(jié)構(gòu)化的格式;但是,在這種轉(zhuǎn)換中會丟失一些信息,當(dāng)嘗試改進(jìn)我們的數(shù)據(jù)科學(xué)解決方案時(shí),我們可以使用這些文件來提取額外的數(shù)據(jù),比如情景概述。
后續(xù),我們可以使用這些額外的數(shù)據(jù)改進(jìn)欺詐性索賠檢測,這就是公開數(shù)據(jù)源的價(jià)值。
除此之外,其實(shí)業(yè)界還有很多數(shù)據(jù)來源分類法,例如是否為實(shí)時(shí)數(shù)據(jù)、一手?jǐn)?shù)據(jù)or二手?jǐn)?shù)據(jù)來源….
三、結(jié)語與下期預(yù)告
本期,小陳通過一個(gè)“買菜”的例子,讓大家對“數(shù)據(jù)”這個(gè)龐大的體系有了一個(gè)洞察,并通過“菜市場”這樣一個(gè)比喻,讓大家對數(shù)據(jù)來源有了一個(gè)整體的認(rèn)識。
下期,小陳講在數(shù)據(jù)來源的基礎(chǔ)上,為大家講解如何利用常用工具進(jìn)行數(shù)據(jù)清洗和采集!
本文由 @小陳同學(xué)ing. 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
- 目前還沒評論,等你發(fā)揮!