第六章:數(shù)據(jù)治理作用的數(shù)據(jù)分類是什么
數(shù)據(jù)治理在真正落地過程時(即數(shù)據(jù)管理的時候),針對的數(shù)據(jù)也需要明確一下,能夠治理哪種類型的數(shù)據(jù),哪種類型不在數(shù)據(jù)治理范圍內(nèi)。
本章我們主要對數(shù)據(jù)按照結(jié)構(gòu)和數(shù)據(jù)內(nèi)容上進行一個劃分,看看數(shù)據(jù)治理主要是針對哪類的數(shù)據(jù)。
一、從數(shù)據(jù)結(jié)構(gòu)上
從數(shù)據(jù)的結(jié)構(gòu)上來說,數(shù)據(jù)主要分成三種類型:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。
1. 結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)是指具有明確的結(jié)構(gòu)和格式,可以用固定的模式進行組織和存儲的數(shù)據(jù)。
通常它遵循特定的數(shù)據(jù)模型,比如關(guān)系型數(shù)據(jù)庫中的表結(jié)構(gòu),數(shù)據(jù)以行和列的形式呈現(xiàn),每一列都有明確的數(shù)據(jù)類型定義(如整數(shù)、字符串、日期等),便于進行高效的查詢、分析以及計算機程序的處理。
常見的結(jié)構(gòu)化數(shù)據(jù)來源包括企業(yè)的財務(wù)系統(tǒng)數(shù)據(jù)(如賬目明細、報表等)、客戶關(guān)系管理系統(tǒng)(CRM)中客戶的基本信息(姓名、聯(lián)系方式、地址等)。
2. 半結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu),但不像結(jié)構(gòu)化數(shù)據(jù)那樣嚴(yán)格遵循固定的模式。
它一般包含有標(biāo)簽或者標(biāo)記來對數(shù)據(jù)元素進行區(qū)分,但整體結(jié)構(gòu)相對靈活,可擴展性較強。
常見的表現(xiàn)形式有 XML(可擴展標(biāo)記語言)、JSON(JavaScript 對象表示法)格式的數(shù)據(jù),例如在網(wǎng)頁中,通過 HTML 標(biāo)簽來組織不同部分的內(nèi)容(標(biāo)題、正文等),其內(nèi)容結(jié)構(gòu)有一定條理但又不像數(shù)據(jù)庫表那樣固定,還有日志文件,有一些時間戳、事件類型等標(biāo)識,但每行記錄的具體詳細內(nèi)容長度、格式等可能有差異。
3. 非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)是指那些沒有固定結(jié)構(gòu),難以用傳統(tǒng)的數(shù)據(jù)庫表結(jié)構(gòu)等方式進行組織和存儲的數(shù)據(jù)。
這類數(shù)據(jù)形式多樣,通常以文本、圖像、音頻、視頻等形式存在。
比如員工寫的工作總結(jié)文檔(文本內(nèi)容隨意性大,沒有固定格式規(guī)范)、監(jiān)控攝像頭拍攝的視頻資料、會議的語音記錄等,其內(nèi)容理解和處理往往需要借助特定的技術(shù)手段(如自然語言處理用于文本分析、圖像識別技術(shù)用于圖像內(nèi)容解析等)。
二、從數(shù)據(jù)內(nèi)容上
如果從數(shù)據(jù)內(nèi)容上進行劃分大概可以劃分為四類:主數(shù)據(jù)、參考數(shù)據(jù)、事務(wù)數(shù)據(jù)(交易數(shù)據(jù))、統(tǒng)計分析數(shù)據(jù)。
有的也會將元數(shù)據(jù)放在這個分類中。但個人覺得元數(shù)據(jù)是另一個層面的數(shù)據(jù)。暫時不放在一起討論了。
1. 主數(shù)據(jù)
主數(shù)據(jù)又被稱為“黃金數(shù)據(jù)”。
主數(shù)據(jù)是企業(yè)內(nèi)用來描述核心業(yè)務(wù)實體的數(shù)據(jù),具有高穩(wěn)定性、跨業(yè)務(wù)流程和系統(tǒng)共享的特點。
它是企業(yè)運營的關(guān)鍵基礎(chǔ)信息,像企業(yè)中涉及的客戶、供應(yīng)商、員工、產(chǎn)品、資產(chǎn)等這些核心對象的基本信息都屬于主數(shù)據(jù)范疇。
主數(shù)據(jù)的準(zhǔn)確性、一致性和完整性至關(guān)重要,因為它會被多個業(yè)務(wù)部門和不同的業(yè)務(wù)系統(tǒng)所引用,一旦出現(xiàn)錯誤或不一致,可能會導(dǎo)致整個業(yè)務(wù)流程的混亂,比如在銷售部門、售后部門以及財務(wù)部門都會用到客戶的主數(shù)據(jù)來開展相應(yīng)業(yè)務(wù)工作。
主數(shù)據(jù)管理(MDM)是數(shù)據(jù)治理領(lǐng)域一個專門的話題,其主要目的是對關(guān)鍵業(yè)務(wù)實體(如員工、客戶、產(chǎn)品、供應(yīng)商等)建立統(tǒng)一視圖,讓客觀世界里本是同一個人或物,在數(shù)據(jù)世界里也能做到唯一識別,而不是在不同系統(tǒng)、不同業(yè)務(wù)中成為不同的人或物。
主數(shù)據(jù)治理的核心思想和數(shù)據(jù)治理的思路方法是一脈相承的,但是因為他過于重要,通常又被放在一個單獨的領(lǐng)域去獨立討論。如涉及到客戶主數(shù)據(jù)的時候,有ECIF系統(tǒng),ECIF是企業(yè)級客戶信息整合系統(tǒng)(Enterprise Customer Information Facility)。
個人也曾經(jīng)參與過一個ECIF系統(tǒng)的建設(shè),當(dāng)時主要是使用客戶的三證信息(證件類型、證件號碼、姓名,忘了是否包含性別了。)生成唯一的一個ECIF_ID來保證不同系統(tǒng)里面的客戶判斷是否是同一個人。這種過程其實是使用工程化的思路來保證不同系統(tǒng)里面的關(guān)鍵主數(shù)據(jù)的唯一性。每一次也主要針對一類主數(shù)據(jù)。這類主數(shù)據(jù)確定之后,不同業(yè)務(wù)系統(tǒng)中如何進行接入或者更新,都是需要從系統(tǒng)工程改造層面進行考慮的,而不僅僅是數(shù)據(jù)治理層面了。
所以主數(shù)據(jù)的治理雖然在核心思路上和數(shù)據(jù)治理是一致的,過程也都需要數(shù)據(jù)集成、數(shù)據(jù)清洗,保證數(shù)據(jù)質(zhì)量,但是在實現(xiàn)的時候更加偏工程化的實現(xiàn),還是更加偏數(shù)據(jù)治理的來實現(xiàn),確實是一個需要考慮的過程。目前個人也沒有特別好的思路。只能說主數(shù)據(jù)是數(shù)據(jù)治理中的一個重要部分。至于說是否將主數(shù)據(jù)直接包含在數(shù)據(jù)治理過程中,需要考慮定義好的。
聽說華為是因為財務(wù)主數(shù)據(jù)的不一致,在進行結(jié)算的時候不能對齊,所以才啟動的華為數(shù)據(jù)治理。也就有了華為那本《華為數(shù)據(jù)治理之道》。不過像上面說的,是否將主數(shù)據(jù)都包含在數(shù)據(jù)治理領(lǐng)域,包含哪些類型的主數(shù)據(jù),確實需要仔細討論一下。
2. 參考數(shù)據(jù)
參考數(shù)據(jù)通常是一組相對固定的、用于對其他數(shù)據(jù)進行分類、描述、參照的數(shù)據(jù)集合。
它起到了一種標(biāo)準(zhǔn)、規(guī)范或者代碼表的作用,幫助企業(yè)確保數(shù)據(jù)錄入和使用的一致性。
參考數(shù)據(jù)一般變動頻率較低,用于給業(yè)務(wù)操作和數(shù)據(jù)記錄提供標(biāo)準(zhǔn)選項。
例如,國家地區(qū)代碼表(用特定代碼對應(yīng)不同的國家和地區(qū))、性別分類(用特定代碼或值表示男、女等)、學(xué)歷層次分類(如小學(xué)、初中、高中、本科等)都屬于參考數(shù)據(jù),它能讓不同業(yè)務(wù)人員在填寫相關(guān)信息時按照統(tǒng)一標(biāo)準(zhǔn)來執(zhí)行,便于后續(xù)的數(shù)據(jù)統(tǒng)計與分析。
一般參考數(shù)據(jù)也會有一些國家標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)等等。提供參考??梢灾苯邮褂眠@些標(biāo)準(zhǔn)。
3. 事務(wù)數(shù)據(jù)
事務(wù)數(shù)據(jù),或者稱為交易數(shù)據(jù)。
事務(wù)數(shù)據(jù)是企業(yè)在日常業(yè)務(wù)運營過程中,由具體業(yè)務(wù)活動所產(chǎn)生的數(shù)據(jù),它記錄了業(yè)務(wù)事件的詳細情況,通常與業(yè)務(wù)流程緊密相關(guān),且數(shù)據(jù)量往往隨著業(yè)務(wù)的開展不斷增長。
例如訂單的下單記錄、庫存的出入庫記錄、財務(wù)的每一筆收支記錄等都屬于事務(wù)數(shù)據(jù)。它能夠反映企業(yè)業(yè)務(wù)的動態(tài)變化情況,是后續(xù)進行業(yè)務(wù)分析、審計、流程優(yōu)化等工作的重要依據(jù)。
4. 統(tǒng)計分析數(shù)據(jù)
統(tǒng)計分析數(shù)據(jù)大部分是一種指標(biāo)數(shù)據(jù)。
統(tǒng)計分析數(shù)據(jù)是對企業(yè)業(yè)務(wù)活動進行統(tǒng)計分析。且分析的數(shù)據(jù)主要是對事務(wù)數(shù)據(jù)進行匯總加工。
指標(biāo)數(shù)據(jù)是數(shù)據(jù)治理的重點,指標(biāo)的數(shù)據(jù)流分析、指標(biāo)數(shù)值的波動性、平衡性監(jiān)控,幾乎是各個企業(yè)做數(shù)據(jù)治理時一定會做的。
三、從數(shù)據(jù)來源上劃分
從數(shù)據(jù)來源上劃分,又分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)。
1. 內(nèi)部數(shù)據(jù)
是企業(yè)或組織自身運營過程中產(chǎn)生的數(shù)據(jù),比如企業(yè)內(nèi)部的生產(chǎn)數(shù)據(jù)(產(chǎn)量、生產(chǎn)時間、工藝參數(shù)等)、銷售數(shù)據(jù)(訂單數(shù)量、銷售額、客戶信息等)、人力資源數(shù)據(jù)(員工基本信息、考勤情況、績效情況等),這些數(shù)據(jù)反映了組織內(nèi)部的業(yè)務(wù)開展、管理等各方面狀態(tài),是進行內(nèi)部管理分析、決策的重要依據(jù)。
2. 外部數(shù)據(jù)
來自于企業(yè)或組織外部的環(huán)境,包括宏觀經(jīng)濟數(shù)據(jù)(如國家 GDP 增長數(shù)據(jù)、通貨膨脹率等)、行業(yè)數(shù)據(jù)(如行業(yè)平均利潤率、市場占有率分布等)、市場調(diào)研數(shù)據(jù)(通過外部調(diào)研機構(gòu)收集的消費者偏好、市場需求情況等),外部數(shù)據(jù)有助于企業(yè)了解所處的大環(huán)境,對比自身與行業(yè)整體情況,輔助制定戰(zhàn)略、規(guī)劃等。
四、數(shù)據(jù)治理作用的數(shù)據(jù)分類是什么
我們在數(shù)據(jù)治理過程中,數(shù)據(jù)治理針對哪類的數(shù)據(jù)?
從數(shù)據(jù)結(jié)構(gòu)上,數(shù)據(jù)治理主要針對的是結(jié)構(gòu)化的數(shù)據(jù),部分半結(jié)構(gòu)化的數(shù)據(jù)在轉(zhuǎn)換為固定結(jié)構(gòu)之后,也可以在數(shù)據(jù)治理范圍內(nèi)。但是針對非結(jié)構(gòu)化數(shù)據(jù)的治理,一般不在范圍內(nèi)。但是,非結(jié)構(gòu)化數(shù)據(jù)的治理也是一個特別的領(lǐng)域,這部分如何治理也是需要研究的。
從數(shù)據(jù)內(nèi)容上,數(shù)據(jù)治理主要針對的是業(yè)務(wù)數(shù)據(jù)和統(tǒng)計分析數(shù)據(jù)。參考數(shù)據(jù)不絕對,有時候可以放在維度中進行考慮。針對主數(shù)據(jù),就需要特別考慮一下,在治理思路上數(shù)據(jù)治理和主數(shù)據(jù)治理是相同的。但是是否將主數(shù)據(jù)治理也納入到數(shù)據(jù)治理的整個過程中,確實需要慎重考慮的。是更加偏工程化的每次進行一類主數(shù)據(jù)的治理,還是在數(shù)據(jù)治理中統(tǒng)一進行全部主數(shù)據(jù)治理。是需要在項目之初考慮清楚的。
從數(shù)據(jù)來源上,數(shù)據(jù)治理對于內(nèi)部數(shù)據(jù)還是外部數(shù)據(jù),只要在數(shù)據(jù)結(jié)構(gòu)上試用,其實都是在數(shù)據(jù)治理的范圍內(nèi)的。不過針對外部數(shù)據(jù)的時候,需要更多的考慮數(shù)據(jù)的權(quán)限、隱私等等。
五、總結(jié)
本章對數(shù)據(jù)從不同的維度,進行了一個分類。討論一下個人認(rèn)為數(shù)據(jù)治理針對哪類的數(shù)據(jù)更加適合。算是在說起數(shù)據(jù)治理的時候,能夠更加明確知道作用的數(shù)據(jù)類型是什么。
本文由人人都是產(chǎn)品經(jīng)理作者【數(shù)據(jù)小吏】,微信公眾號:【數(shù)據(jù)小吏】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!