解密OneEntity體系

0 評論 2923 瀏覽 1 收藏 10 分鐘

為打破數(shù)據(jù)孤島,創(chuàng)造更大的數(shù)據(jù)價值,阿里設(shè)計了OneEntity,來提供全域數(shù)據(jù)與服務(wù)。本文作者分析了創(chuàng)造OneEntity的原因和價值,解析了OneEntity體系。

前幾篇你跟草帽小子一起了解了阿里數(shù)據(jù)中臺的建設(shè)計劃,接下來我們一起來解密OneEntity體系。

一、數(shù)據(jù)孤島

阿里巴巴作為一家包含多條業(yè)務(wù)線的公司,如電商、金融、廣告、文化、教育、娛樂、設(shè)備和社交等領(lǐng)域,數(shù)據(jù)區(qū)域包含國內(nèi)、國外;數(shù)據(jù)場景包含線上的人貨場錢、線下的人貨場錢位置等數(shù)據(jù),以及物流、用餐、咨詢、影視、出行、閱讀、音樂和健康等相關(guān)數(shù)據(jù)。

僅是與人相關(guān)的數(shù)據(jù)就包含業(yè)務(wù)賬號信息、PC cookie、無線IMEI與IDFA等設(shè)備標志、身份屬性等。

而隨著人們互聯(lián)網(wǎng)行為的多樣化,如果每天都有數(shù)千億條實體數(shù)據(jù)產(chǎn)生,而這些數(shù)據(jù)都分屬于不同業(yè)務(wù)單元,那么數(shù)據(jù)就很容易孤立。

阿里巴巴云上數(shù)據(jù)中臺之道04——解密OneEntity體系

草帽小子思考:以前總是不理解數(shù)據(jù)孤島這一部分,明明已經(jīng)建立了onedata體系,做好了各業(yè)務(wù)線數(shù)據(jù)接入,ODS層數(shù)據(jù)全面接管,明明數(shù)據(jù)都匯總到了一塊,為何還說數(shù)據(jù)孤島呢?

直到真正開始做用戶畫像這一工作才發(fā)現(xiàn),底層的指標體系往往是直接面向各個業(yè)務(wù)線內(nèi),缺乏一個業(yè)務(wù)線間的關(guān)聯(lián),這是由業(yè)務(wù)局限性導(dǎo)致的。比如說,你是淘寶的運營人員,那你會關(guān)注釘釘?shù)闹笜梭w系是怎樣的嗎?

答案是顯然不會。

那這樣就產(chǎn)生了數(shù)據(jù)的斷層,單是從底層的指標層,用戶在釘釘?shù)男袨榱?xí)慣,淘寶的人員是無法獲知的。那如果我作為淘寶的人員,既想知道他在淘寶上購物行為,也想知道他在釘釘、支付寶、優(yōu)酷等地方的行為習(xí)慣,又該從何得知呢?

二、數(shù)據(jù)只有融通才能真正產(chǎn)生價值

為打破數(shù)據(jù)孤島,創(chuàng)造更大的數(shù)據(jù)價值,阿里設(shè)計了OneEntity來提供全域數(shù)據(jù)與服務(wù)。OneEntity體系主要包含統(tǒng)一實體、全域標簽、全域關(guān)系、全域行為4大類。

阿里巴巴云上數(shù)據(jù)中臺之道04——解密OneEntity體系

1. OneEntity統(tǒng)一實體

將若干個實體歸攏到一起,并命名為OneEntity,可分為一般質(zhì)量、高質(zhì)量、高價值OneEntity。

2. GProfile全域標簽

基于歸攏后的數(shù)據(jù)對OneEntity進行貼標簽的操作。在OneEntity體系中,如何為OneEntity貼上標簽并找出高質(zhì)量、高價值的OneEntity是最常見的問題。

這幾離不開標簽的萃取能力,那阿里是怎么萃取標簽的呢?

阿里巴巴云上數(shù)據(jù)中臺之道04——解密OneEntity體系

(1)有效

一方面,主動去找人口學(xué)、社會學(xué)等學(xué)科的教授,學(xué)習(xí)與“人”相關(guān)的理論知識;

另一方面,調(diào)研了很多業(yè)界的標簽分類體系,取長補短。

最終,將“人”的立體刻畫劃分為“人的核心屬性”和“人的向往與需求”2大部分,具體包含4大類:

人的核心屬性,可分為自然屬性、社會屬性。

  • 自然屬性:是指人的肉體存在及其特征,是人自出生后自然存在的,一般不會因人為因素發(fā)生較大的改變。例如“性別”“生肖”“年齡”“身高”“體重”等。
  • 社會屬性:指人在實踐活動基礎(chǔ)上產(chǎn)生的一切社會關(guān)系的總和。人一旦進入社會就會產(chǎn)生社會屬性。例如經(jīng)濟狀況、家庭狀況、社會地位、政治宗教、地理位置、價值觀等。

人的向往與需求,可分為興趣偏好、行為消費偏好。

  • 興趣偏好:是人堆非物化對象的內(nèi)在心理向往與外在行為表達,是一種法子內(nèi)心的本能喜好,與物質(zhì)無必然關(guān)系。例如渴望愛情、需要安全感、討厭臟亂環(huán)境等。
  • 行為消費偏好:是人對物化對象的需求與外在行為表達,涉及各行業(yè),與物質(zhì)世界存在千絲萬縷的聯(lián)系。例如母嬰行業(yè)偏好、美妝行業(yè)偏好、洗護行業(yè)偏好、家裝行業(yè)偏好等。

在以上四大類的基礎(chǔ)上,我們又嘗試根據(jù)不同的業(yè)務(wù)形態(tài)進一步細分二級、三級分類。

(2)高速

標簽的萃取工作包含:數(shù)據(jù)采集;清洗,去噪聲并統(tǒng)一;反復(fù)試用并確定最佳算法及模型;為模型選擇計算因子并對模型中的每一個計算因子調(diào)配權(quán)重;產(chǎn)出標簽質(zhì)量評估報告以輔助驗收。

我們隨機抽查了若干個在用的標簽,預(yù)估工作量和工作周期,一個有價值的標簽的萃取,平均耗時2周。

慢的主要原因,一是由于萃取流程復(fù)雜,每個標簽萃取都依賴底層的基礎(chǔ)數(shù)據(jù),而較少依賴上一層匯總的數(shù)據(jù)中間層數(shù)據(jù);二是大量重復(fù)的人力,對應(yīng)的標簽萃取邏輯時可以復(fù)用的,包含算法的選擇、模型訓(xùn)練和計算因子的加權(quán)等,但由于不同人來做,造成了很多重復(fù)工作。

標簽萃取過程復(fù)雜,那有什么可以參考的流程呢?

阿里巴巴云上數(shù)據(jù)中臺之道04——解密OneEntity體系

首先,數(shù)據(jù)源層面:建設(shè)一套完整的數(shù)據(jù)源,以O(shè)neEntity體系為核心,將OneEntity相關(guān)實體及其行為全部串聯(lián)起來,與存量的標簽一起作為數(shù)據(jù)源。

其次,標簽計算層面:將標簽萃取邏輯沉淀為2種,分別對應(yīng)到偏好類標簽和分類預(yù)測類標簽的工具型產(chǎn)品的生產(chǎn)過程中,包含計算因子、權(quán)重等業(yè)務(wù)規(guī)則、數(shù)據(jù)樣本選擇、模型與算法選擇等。

最后,標簽監(jiān)測層面:沉淀質(zhì)量評估報告和生產(chǎn)監(jiān)測、上線等管理流程。

當一整套工具型產(chǎn)品上線之后,批量生產(chǎn)十幾個同類型標簽只需要2天左右,這是因為在補足數(shù)據(jù)源、確定業(yè)務(wù)規(guī)則、選擇數(shù)據(jù)樣本、選擇算法與模型的過程中,減少了大量的代碼開發(fā)與模型訓(xùn)練的工作。

在這個過程中,參與的角色也發(fā)生了變化,從原本的以數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)倉工程師、數(shù)據(jù)科學(xué)家為主導(dǎo),轉(zhuǎn)變?yōu)閷I(yè)務(wù)更為熟悉的業(yè)務(wù)人員、數(shù)據(jù)分析師為主導(dǎo)。

3. GRelation全域關(guān)系

找到對象的關(guān)聯(lián)關(guān)系,當OneEntity代表人時,就可以找出他的親屬、朋友、校友和同事等;當OneEntity代表商品時,就可以找出他的上下游商品/貨等。

4. GBehavior全域行為

將與OneEntity相關(guān)的實習(xí)及行為關(guān)聯(lián)起來,形成一套用戶行為體系。如:

  • 姓名、郵箱、地址等,這是現(xiàn)實世界中的唯一標志,就像OneEntity代表著你在大數(shù)據(jù)世界里的唯一標志。
  • 籍貫、年齡、政治面貌、宗教信仰等,這是現(xiàn)實世界中的標簽畫像
  • 父母、子女、夫妻等,天生或后天產(chǎn)生的一系列關(guān)系,代表著GRelation在大數(shù)據(jù)世界中的關(guān)系
  • 何年何月讀大學(xué)、何年何月第一次參加工作、何年何月獲得某項獎勵以及證明人是誰等

在大數(shù)據(jù)的世界里,將孤島數(shù)據(jù)實現(xiàn)融通并加以萃取,可以圍繞一個主題展開全面剖析。

專欄作家

草帽小子,公眾號:一個數(shù)據(jù)人的自留地,人人都是產(chǎn)品經(jīng)理專欄作家?!洞髷?shù)據(jù)實踐之路:數(shù)據(jù)中臺+數(shù)據(jù)分析+產(chǎn)品應(yīng)用》書籍作者,專注用戶畫像領(lǐng)域。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!