數(shù)據(jù)產(chǎn)品經(jīng)理必備技能之工具篇

4 評論 43989 瀏覽 375 收藏 10 分鐘

“工欲善其事,必先利其器”,作為一名數(shù)據(jù)產(chǎn)品經(jīng)理,不論是做數(shù)據(jù)分析,還是搭建數(shù)據(jù)平臺,你必須要掌握很多工具,這樣才能得心應手。下面,將從簡單的 Excel 說起,到R,再到數(shù)據(jù)平臺需要的工具和技術,由易到難,幫你在工具上全方位掌握數(shù)據(jù)產(chǎn)品經(jīng)理的必備技能。

數(shù)據(jù)分析利器—Excel

相信每個人都會用一些 Excel的簡單功能,可是,作為一名數(shù)據(jù)產(chǎn)品經(jīng)理,僅僅掌握這些功能是不能滿足大數(shù)據(jù)量分析需求的。首先你要掌握以下一些常用函數(shù):

  • 日期函數(shù):day,month,year,date,today,weekday,weeknum
  • 數(shù)學函數(shù):product,rand,round,sum,sumif,sumproduct
  • 統(tǒng)計函數(shù):large,small,max,min,rank,count,countif,average,averageif
  • 查找和引用函數(shù):choose,match,index,column,row,vlookup,hlookup,lookup,offset
  • 文本函數(shù):find,search,text,value,left,right,mid,len
  • 邏輯函數(shù):and,or,if,false,true

掌握了這些函數(shù),就可以對經(jīng)常分析的業(yè)務建立一個數(shù)據(jù)模板,例如業(yè)務大盤日報,這樣就省去了手動計算大量數(shù)據(jù)的麻煩,根據(jù)模板自動更新新增數(shù)據(jù),直接顯示結果。

接下來說一下Excel數(shù)據(jù)分析非常好用的另一個利器—數(shù)據(jù)透視表,它可以快速的把大量數(shù)據(jù)生成可以分析和展現(xiàn)的報表,而且可以隨意組織選擇各種維度和值,就像一個魔方,你可以自由組合查看不同角度的不同結果,它把復雜的公式轉化成了簡單的數(shù)據(jù)分析,非常實用易上手。通過數(shù)據(jù)透視表,你可以實現(xiàn)以下幾種功能:

  • 自動計算分類間的數(shù)據(jù)匯總,計數(shù),最大值,最小值,平均值等。
  • 自動排序、分組以及分組。
  • 分析環(huán)比、同比、定基比等。
  • 根據(jù)業(yè)務邏輯進行個性化分析。

數(shù)據(jù)分析及可視化強大語言—R

R是一種為統(tǒng)計計算和繪圖而生的語言和環(huán)境,它是一套開源的數(shù)據(jù)分析解決方案。其功能包括:數(shù)據(jù)存儲和處理系統(tǒng);數(shù)組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統(tǒng)計分析工具;優(yōu)秀的統(tǒng)計制圖功能;簡便而強大的編程語言:可操縱數(shù)據(jù)的輸入和輸入,可實現(xiàn)分支、循環(huán),用戶可自定義功能 。

與其說R是一種統(tǒng)計軟件,還不如說R是一種數(shù)學計算的環(huán)境,因為R并不是僅僅提供若干統(tǒng)計程序、使用者只需指定數(shù)據(jù)庫和若干參數(shù)便可進行一個統(tǒng)計分析。

R的思想是:它可以提供一些集成的統(tǒng)計工具,但更大量的是它提供各種數(shù)學計算、統(tǒng)計計算的函數(shù),從而使使用者能靈活機動的進行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法。 R內(nèi)建多種統(tǒng)計學及數(shù)字分析功能。

R其實還是一個蠻專業(yè)的一個工具,要想了解更多的R語言知識,可以去官網(wǎng) http://www.rproject.cn/ 下載安裝程序和資料進行深入學習。

搭建數(shù)據(jù)平臺必備—Hadoop

Hadoop是一個分布式系統(tǒng)基礎架構,現(xiàn)在被廣泛的應用于大數(shù)據(jù)平臺的開發(fā)中,對處理海量數(shù)據(jù),有著其他技術無可匹敵的優(yōu)勢。

Google File System、Map-Reduce與BigTable被譽為分布式計算的三駕馬車,其中 Google File System用來解決數(shù)據(jù)存儲的問題,采用N多臺廉價的電腦,使用冗余的方式,來取得讀寫速度與數(shù)據(jù)安全并存的結果。 Map-Reduce說白了就是函數(shù)式編程,把所有的函數(shù)都分為兩類,Map和Reduce,Map用來將數(shù)據(jù)分成多份,分開處理,Reduce將處理的結果進行歸并,得到最終的結果。 BigTable是在分布式系統(tǒng)上存儲結構化數(shù)據(jù)的一個解決方案,解決了巨大的Table的管理、負載均衡的問題。

下面兩張圖有助于從大致框架和結構上理解Hadoop。

QQ截圖20161124225222

Hadoop體系架構

QQ截圖20161124225333

Hadoop核心設計

除了Hadoop體系架構那些基礎工具外,數(shù)據(jù)產(chǎn)品經(jīng)理還需要對以下幾個基礎工具做一些了解。

  • ELASTIC SEARCH:基于Lucene的搜索服務器。提供了一個分布式多用戶能力的全文搜索引擎,基于RESTful web接口。Elasticsearch作為Apache許可條款下的開放源碼發(fā)布,是當前流行的企業(yè)級搜索引擎。設計用于云計算中,能夠達到實時搜索,穩(wěn)定,可靠,快速,安裝使用方便。
  • Memcached:Memcached 是一個高性能的分布式內(nèi)存對象緩存系統(tǒng),用于動態(tài)Web應用以減輕數(shù)據(jù)庫負載。它通過在內(nèi)存中緩存數(shù)據(jù)和對象來減少讀取數(shù)據(jù)庫的次數(shù),從而提高動態(tài)、數(shù)據(jù)庫驅(qū)動網(wǎng)站的速度。一般的使用目的是,通過緩存數(shù)據(jù)庫查詢結果,減少數(shù)據(jù)庫訪問次數(shù),以提高動態(tài)Web應用的速度、提高可擴展。
  • Redis:開源的使用ANSI C語言編寫、支持網(wǎng)絡、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫,并提供多種語言的API。 為了保證效率,數(shù)據(jù)都是緩存在內(nèi)存中,區(qū)別的是Redis會周期性的把更新的數(shù)據(jù)寫入磁盤或者把修改操作寫入追加的記錄文件,并且在此基礎上實現(xiàn)了主從同步。 Redis的出現(xiàn),很大程度補償了Memcached這類key/value存儲的不足,在部分場合可以對關系數(shù)據(jù)庫起到很好的補充作用。
  • Kafka:Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費者規(guī)模的網(wǎng)站中的所有動作流數(shù)據(jù)。 這種動作(網(wǎng)頁瀏覽,搜索和其他用戶的行動)是在現(xiàn)代網(wǎng)絡上的許多社會功能的一個關鍵因素。 這些數(shù)據(jù)通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。 對于像Hadoop的一樣的日志數(shù)據(jù)和離線分析系統(tǒng),但又要求實時處理的限制,這是一個可行的解決方案。

Kafka集群可以在一個指定的時間內(nèi)保持所有發(fā)布上來的消息,不管這些消息有沒有被消費。打個比方,如果這個時間設置為兩天,那么在消息發(fā)布的兩天以內(nèi),這條消息都是可以被消費的,但是在兩天后,這條消息就會被系統(tǒng)丟棄以釋放空間。Kafka的性能不會受數(shù)據(jù)量的大小影響,因此保持大量的數(shù)據(jù)不是一個問題。

  • Storm:Storm是分布式數(shù)據(jù)處理的框架,本身幾乎不提供復雜事件計算。Storm用于實時處理,就好比 Hadoop 用于批處理。Storm保證每個消息都會得到處理,而且它在一個小集群中,每秒可以處理數(shù)以百萬計的消息。

Storm 應用領域包括實時分析、在線機器學習、信息流處理(例如,可以使用Storm 處理新的數(shù)據(jù)和快速更新數(shù)據(jù)庫)、連續(xù)性的計算(例如,使用Storm 連續(xù)查詢,然后將結果返回給客戶端,如將微博上的熱門話題轉發(fā)給用戶)、分布式RPC(遠過程調(diào)用協(xié)議,通過網(wǎng)絡從遠程計算機程序上請求服務)、ETL(Extraction Transformation Loading,數(shù)據(jù)抽取、轉換和加載)等。

相信掌握了上面提到的常用工具后,無論是數(shù)據(jù)分析,還是大數(shù)據(jù)平臺的打架,都能夠很快很容易的上手,同時在數(shù)據(jù)產(chǎn)品經(jīng)理的成長道路上又邁出一大步。

 

本文由 @徐鵬 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 應該備注內(nèi)容來自《數(shù)據(jù)產(chǎn)品經(jīng)理修煉手冊》

    回復
  2. 我覺得知道這些技術和框架是干嘛的、有啥用、有啥限制就行,無需到會用的程度,你是產(chǎn)品,不是開發(fā),不要本末倒置。

    來自浙江 回復
  3. 大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實戰(zhàn)訓練營》終于上線啦!

    本課程非常適合新手數(shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運營等人群。

    課程會從基礎概念,到核心技能,再通過典型數(shù)據(jù)分析平臺的實戰(zhàn),幫助大家構建完整的知識體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。

    學完后你會掌握怎么建指標體系、指標字典,如何設計數(shù)據(jù)埋點、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺等實際工作技能~

    現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領取福利優(yōu)惠吧!

    來自廣東 回復
  4. 哇,這些工具你都會使用嗎?

    來自廣東 回復