Amazon SageMaker Canvas產(chǎn)品測(cè)評(píng)——人人都是“業(yè)務(wù)分析師”
編輯導(dǎo)語(yǔ):可能每個(gè)人的日常工作中,都或多或少地會(huì)涉及到業(yè)務(wù)分析模塊,那么在社會(huì)普遍對(duì)效率有所追求的情況下,我們?cè)谌粘I(yè)務(wù)中,是否可以借用工具來(lái)實(shí)現(xiàn)業(yè)務(wù)分析價(jià)值的最大化?也許,亞馬遜云科技推出的Amazon SageMaker Canvas就屬于這類型工具之一。本文作者就對(duì)其進(jìn)行了測(cè)評(píng)體驗(yàn),一起來(lái)看一下吧。
一、事實(shí)是,我們都在做業(yè)務(wù)分析
無(wú)論你是否意識(shí)到,我們每天的工作實(shí)際上都包含了業(yè)務(wù)分析。
試著想象以下這些場(chǎng)景:
- 移動(dòng)游戲運(yùn)營(yíng)想提升付費(fèi)用戶比例,會(huì)通過(guò)分析用戶使用行為,得出影響付費(fèi)的因素,從而采取針對(duì)性的運(yùn)營(yíng)手段。
- 超市老板進(jìn)貨時(shí),會(huì)綜合考慮以往銷售情況、地段、季節(jié)等因素,分析出每件商品要備的庫(kù)存量。
- 房屋中介在管理客戶時(shí),會(huì)根據(jù)客戶的個(gè)人情況、背景資料和意向信息分類跟進(jìn),提升成交量。
盡管上述場(chǎng)景的主人公都并非專業(yè)的業(yè)務(wù)分析師(business analyst),但他們知道怎樣讓自己做出更聰明的判斷。
而這恰恰就是業(yè)務(wù)分析的本質(zhì):通過(guò)收集和處理業(yè)務(wù)數(shù)據(jù),分析得出某種趨勢(shì)、模式或根本原因,并根據(jù)這些洞察做出數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)決策 [1]。
二、可是問(wèn)題是……
盡管我們都或多或少在用自己的方式,通過(guò)“業(yè)務(wù)分析”來(lái)完成工作,但是問(wèn)題也在一一浮現(xiàn)。
1. 期望更進(jìn)一步
數(shù)據(jù)量大、影響因素多、缺乏專業(yè)的建模能力等等,都會(huì)使我們?cè)趯?shí)際分析業(yè)務(wù)時(shí)往往停留在表面,而錯(cuò)過(guò)了挖掘背后更深的洞見(jiàn)。
比如,在分析影響用戶付費(fèi)的因素時(shí),我們的運(yùn)營(yíng)同學(xué)定位到多種相關(guān)的行為指標(biāo):
- 用戶來(lái)源:來(lái)源于渠道A的用戶付費(fèi)比例更高;
- 日均活躍時(shí)長(zhǎng):活躍的用戶付費(fèi)比例更高;
- 日均互動(dòng)數(shù):互動(dòng)多的用戶付費(fèi)比例更高;
- 是否參與激勵(lì)活動(dòng):參與過(guò)的用戶付費(fèi)比例更高。
以上的結(jié)論雖能幫我們判斷出哪些特性的用戶更具有付費(fèi)意愿,但想進(jìn)一步知道:哪些指標(biāo)影響更大,指標(biāo)間是否會(huì)相互影響,能否在下次運(yùn)營(yíng)活動(dòng)前就能預(yù)測(cè)出最終效果,往往還是無(wú)從下手。
2. 結(jié)論對(duì)么?能不能快速驗(yàn)證
或許憑借業(yè)務(wù)經(jīng)驗(yàn),我們能覺(jué)察出某一指標(biāo)是決定用戶付費(fèi)的關(guān)鍵因素,或是能預(yù)估到下一個(gè)季度的銷售情況。
但問(wèn)題是:能否通過(guò)數(shù)據(jù)來(lái)快速驗(yàn)證我們的結(jié)論;或者是否有更專業(yè)的方法來(lái)論證我們的猜想。
3. 溝通的成本
此外,當(dāng)我們期望將自己的洞察分享給團(tuán)隊(duì)其他伙伴,又開(kāi)始思考要怎樣有效地闡明自己的判斷。
或是當(dāng)我們的洞察可以提煉出一套能長(zhǎng)期執(zhí)行的決策模型時(shí),要如何讓數(shù)據(jù)科學(xué)家或算法工程師在此基礎(chǔ)上進(jìn)一步優(yōu)化并部署發(fā)布。
三、更好的方式:工具助力分析
幸運(yùn)的是,很多專業(yè)的服務(wù)團(tuán)隊(duì)也發(fā)現(xiàn)了以上這些問(wèn)題,從不同角度為我們提供了解決方案。
1. 入門(mén)級(jí)全能選手:Excel
Excel絕對(duì)是人手一個(gè)的必備辦公軟件,它簡(jiǎn)單易用,也是很多原始數(shù)據(jù)的存儲(chǔ)格式,方便加工處理。我們可以通過(guò)簡(jiǎn)單的函數(shù)處理、數(shù)據(jù)透視以及可視化圖標(biāo)等功能,快速地發(fā)掘數(shù)據(jù)中一些潛在的信息。適用于數(shù)據(jù)量不大,較簡(jiǎn)單的統(tǒng)計(jì)、分析和預(yù)測(cè)。
2. 專精可視化分析:Tableau、PowerBI
主打拖拽操作和全程可視化,幫助我們?cè)跀?shù)據(jù)準(zhǔn)備(包括多表合并、數(shù)據(jù)清理等)和數(shù)據(jù)展現(xiàn)上實(shí)現(xiàn)自助,大大降低普通用戶與數(shù)據(jù)交互的門(mén)檻。更適合團(tuán)隊(duì)內(nèi)共享數(shù)據(jù)洞察。
3. 分析預(yù)測(cè)大師:Python、各大公司提供的云上AI服務(wù)、專業(yè)BI軟件等
相較于前2類,這一類產(chǎn)品我們可能比較陌生,多是數(shù)據(jù)科學(xué)家在使用。
雖然它們?cè)诤A繑?shù)據(jù)處理、統(tǒng)計(jì)預(yù)測(cè)、數(shù)據(jù)建模、數(shù)據(jù)挖掘等方面具有絕對(duì)的優(yōu)勢(shì),但也正因?yàn)閷I(yè)度過(guò)高,需要編寫(xiě)代碼或機(jī)器學(xué)習(xí)等專業(yè)知識(shí),一般人很難上手。
所以不會(huì)寫(xiě)代碼、零經(jīng)驗(yàn)就真的無(wú)法享受到機(jī)器學(xué)習(xí)帶來(lái)的超強(qiáng)助攻么?
不慌,亞馬遜云科技為我們帶來(lái)了解決方案:
亞馬遜云科技的機(jī)器學(xué)習(xí)服務(wù)下的SageMaker Canvas平臺(tái),主打0代碼機(jī)器學(xué)習(xí)預(yù)測(cè)服務(wù),讓普通從業(yè)者也能方便地構(gòu)建機(jī)器學(xué)習(xí)模型來(lái)獲取洞察和進(jìn)行預(yù)測(cè)。
接下來(lái),就一起來(lái)體驗(yàn)下 Amazon SageMaker Canvas (下面簡(jiǎn)稱Canvas)的實(shí)操效果吧。
四、Canvas初體驗(yàn)
體驗(yàn)官:未接觸過(guò)機(jī)器學(xué)習(xí)的產(chǎn)品經(jīng)理。
體驗(yàn)場(chǎng)景:這里設(shè)想了2個(gè)場(chǎng)景,分別看看Canvas在業(yè)務(wù)獲取洞察和進(jìn)行預(yù)測(cè)上的表現(xiàn)。
場(chǎng)景一:獲取洞察
1)背景
公司引入外部供應(yīng)商承接項(xiàng)目時(shí),往往會(huì)先經(jīng)過(guò)競(jìng)標(biāo)流程。
競(jìng)標(biāo)時(shí)會(huì)將同樣的測(cè)試任務(wù)指派給多個(gè)供應(yīng)商完成,依據(jù)返回的效果判斷最終哪幾個(gè)供應(yīng)商中標(biāo)。
2)目標(biāo)
哪些是決定供應(yīng)商是否中標(biāo)的關(guān)鍵因素。
3)體驗(yàn)過(guò)程
① 數(shù)據(jù)導(dǎo)入
通過(guò)業(yè)務(wù)分析篩選出可能影響供應(yīng)商中標(biāo)的字段包括:
- task_id:任務(wù)編號(hào)(一個(gè)任務(wù)可以指派給多個(gè)供應(yīng)商)
- total_num:任務(wù)的數(shù)據(jù)總量
- task_type:任務(wù)類型
- if_standard:是否為標(biāo)準(zhǔn)任務(wù)(標(biāo)準(zhǔn)任務(wù)才有報(bào)價(jià)單價(jià))
- unit_price:供應(yīng)商報(bào)價(jià)的單價(jià)
- tech_percent:技術(shù)分占比;技術(shù)分占比高表示更注重技術(shù)評(píng)分
- busi_percent:商務(wù)分占比;商務(wù)分占比高表示更注重價(jià)格便宜
- supplier_id:供應(yīng)商編號(hào)
- bid_result:是否中標(biāo)
- est_time:預(yù)計(jì)任務(wù)總工期
- deliver_time:本次交付的時(shí)間
- deliver_score:本次交付的技術(shù)評(píng)分
取的是最近3個(gè)月的數(shù)據(jù),一共是一個(gè)csv文件,共12列*1068行。
來(lái)到Canvas平臺(tái),先按指引配置了支持本地上傳能力后,直接將表拖拽上傳就OK了。
整體的數(shù)據(jù)導(dǎo)入流程還是比較順暢的。不過(guò)因?yàn)槲易铋_(kāi)始的原始數(shù)據(jù)是中文的,而Canvas暫時(shí)不支持中文字符的顯示,所以這里又返回重新處理了一遍數(shù)據(jù)。
② 創(chuàng)建模型
切換到【Build】模塊后,可以方便地在下方預(yù)覽關(guān)聯(lián)的數(shù)據(jù)集字段:包括字段的缺失比例、是否有和數(shù)據(jù)類型不匹配的值、有多少唯一值、平均數(shù)/眾數(shù)等等??梢院芎玫貛椭覀兛焖倭私庹w數(shù)據(jù)情況。
當(dāng)選擇好目標(biāo)字段“bid_result”后,系統(tǒng)會(huì)根據(jù)所選目標(biāo)列的類型自動(dòng)推薦合適的模型“2 category prediction”;當(dāng)然你也可以根據(jù)實(shí)際情況進(jìn)行修改。目前看到Canvas給出的模型大類包括:分類預(yù)測(cè)、數(shù)值模型和時(shí)間序列預(yù)測(cè)。
可以在quick build之前先預(yù)覽模型,快速獲得模型預(yù)估準(zhǔn)確率和各個(gè)字段的影響分值。
可以看出,影響供應(yīng)商是否中標(biāo)的最重要的前3個(gè)因素是supplier_id、deliver_score和deliver_time,而最不重要的2個(gè)因素是task_id和if_standard。
這樣的結(jié)論基本符合實(shí)際情況:
- 一些供應(yīng)商的交付能力比較高,所以更容易中標(biāo)。
- 供應(yīng)商得分和交付時(shí)間本身就是定標(biāo)時(shí)的重點(diǎn)考核依據(jù)。
- 而任務(wù)編號(hào)以及是否屬于標(biāo)準(zhǔn)任務(wù)屬于任務(wù)本身的屬性,應(yīng)該影響比較小。
我們可以綜合Canvas給出的字段影響分值以及業(yè)務(wù)實(shí)際情況,來(lái)篩選最終用于訓(xùn)練的字段:
比如我嘗試取消勾選了impact值最小的task_id和if_standard,更新后發(fā)現(xiàn)模型預(yù)測(cè)準(zhǔn)確性反而降低了。這也許是因?yàn)樵趯?shí)際情況,任務(wù)編號(hào)或是否屬于標(biāo)準(zhǔn)任務(wù)可能會(huì)影響供應(yīng)商的選擇范圍。
又取消勾選了那些在試標(biāo)前未知的因素(包括est_time、deliver_score和deliver_time),現(xiàn)在最重要的前3個(gè)因素變成了供應(yīng)商編號(hào)、報(bào)價(jià)單價(jià)和任務(wù)總數(shù)據(jù)量。
有一點(diǎn)疑惑的是,我發(fā)現(xiàn)系統(tǒng)會(huì)自動(dòng)給出字段的數(shù)據(jù)類型且不支持修改。但是有部分字段的數(shù)據(jù)類型是不符合預(yù)期的:比如supplier_id被判斷為了numeric類型,但該字段本身應(yīng)該屬于categorical,這可能是因?yàn)閟upplier_id的取值是數(shù)字的原因。
想了解錯(cuò)誤的數(shù)據(jù)類型會(huì)不會(huì)對(duì)模型準(zhǔn)確率造成影響,所以我又新建了一個(gè)模型,將supplier_id的取值修改為了N1、N2、N3…,這時(shí)data type成功變成了categorical。但預(yù)覽后發(fā)現(xiàn)模型的預(yù)測(cè)準(zhǔn)確率其實(shí)沒(méi)有太大的變化。
確認(rèn)沒(méi)有影響后,使用quick build看下最終生成的模型效果。
③ 模型分析
Quick Build得到的模型準(zhǔn)確率和Preview Model一致,但是可以看到各個(gè)字段更詳細(xì)的影響度分布和模型評(píng)分。
a)supplier_id
supplier_id的影響度是用箱型圖呈現(xiàn)的??梢钥吹焦?yīng)商N(yùn)1最易中標(biāo),供應(yīng)商N(yùn)2和N3相對(duì)容易中標(biāo),供應(yīng)商N(yùn)5和N8則相對(duì)不容易中標(biāo)。這一洞察能引導(dǎo)我們進(jìn)一步分析這些供應(yīng)商的能力或資質(zhì)有哪些差異,從而更早篩選出能力優(yōu)的供應(yīng)商。
b)unit_price
報(bào)價(jià)這一塊沒(méi)有得到很好的洞察,貌似整體看都是偏向中標(biāo)的。
還是之前的那個(gè)疑問(wèn),unit_price的數(shù)據(jù)類型為什么會(huì)被系統(tǒng)自動(dòng)定義為Categorical(分類)呢,是因?yàn)樗膗nique取值只有46個(gè)么?
c)total_num
total_num的影響度是用散點(diǎn)圖呈現(xiàn)的。粗略看,好像是任務(wù)總數(shù)據(jù)量過(guò)大時(shí)不容易中標(biāo)。
不過(guò)因?yàn)檫^(guò)多的點(diǎn)集中在1~200001這個(gè)區(qū)間,不容易看出當(dāng)任務(wù)總數(shù)據(jù)量少時(shí)的影響。這里如果能支持調(diào)節(jié)橫坐標(biāo)區(qū)間的話,可能會(huì)更加方便。
最后來(lái)看一下模型的混淆矩陣(誤差矩陣):
總體來(lái)說(shuō),生成的模型在預(yù)測(cè)未中標(biāo)時(shí)的準(zhǔn)確率更高(可能是因?yàn)樵紨?shù)據(jù)里Yes的比例更高吧)。
④ 模型預(yù)測(cè)
從上面的分析模塊,可以大致獲得以下2個(gè)洞察:
- 供應(yīng)商N(yùn)1相對(duì)容易中標(biāo),供應(yīng)商N(yùn)5和N8則相對(duì)不容易中標(biāo);
- 任務(wù)總數(shù)據(jù)量過(guò)大時(shí)不容易中標(biāo)(相對(duì)影響較?。?。
我們可以通過(guò)【Predict】這個(gè)模塊快速驗(yàn)證一下。
預(yù)測(cè)方式包括2種:批量預(yù)測(cè)和單行預(yù)測(cè)。
a)單行預(yù)測(cè)
各個(gè)字段的默認(rèn)值應(yīng)該取的是平均數(shù)/眾數(shù)。右側(cè)顯示當(dāng)前輸入值下的中標(biāo)結(jié)果預(yù)測(cè)以及平均預(yù)測(cè)結(jié)果。
當(dāng)修改supplier_id到N8后,可以看到當(dāng)前場(chǎng)景中標(biāo)結(jié)果預(yù)測(cè)是No,與猜測(cè)一致。
當(dāng)修改total_num到1000000后,預(yù)測(cè)結(jié)果沒(méi)變。但是新的預(yù)測(cè)值相對(duì)于平均預(yù)測(cè)結(jié)果來(lái)說(shuō),No的概率變高了一點(diǎn)。
可以看到,單行預(yù)測(cè)能方便地更改輸入值來(lái)更新對(duì)應(yīng)的預(yù)測(cè)結(jié)果,以及觀察新的預(yù)測(cè)值相對(duì)于平均預(yù)測(cè)結(jié)果的變化情況。
b)批量預(yù)測(cè)
可以選擇一個(gè)字段匹配的數(shù)據(jù)集來(lái)批量生成預(yù)測(cè)值以及對(duì)應(yīng)的概率。因?yàn)檫@里我用的是已有數(shù)據(jù),可以對(duì)比看到準(zhǔn)確率還是挺高的,并且和洞察基本吻合。
場(chǎng)景二:預(yù)測(cè)
1)背景
超市老板進(jìn)貨時(shí),會(huì)綜合考慮以往銷售情況、店鋪位置、季節(jié)等因素,來(lái)預(yù)估未來(lái)各個(gè)商品的銷售情況,從而提前準(zhǔn)備合適的庫(kù)存。
2)目標(biāo)
預(yù)測(cè)未來(lái)7天各個(gè)店鋪不同類別商品的銷售量。
3)體驗(yàn)過(guò)程
① 數(shù)據(jù)導(dǎo)入
這里用的數(shù)據(jù)來(lái)源是kaggle上的store sales數(shù)據(jù) [2]。
影響物品銷售量的因素包括:
- 時(shí)間——季節(jié)或周期性波動(dòng)
- 是否有促銷活動(dòng)
- 店鋪位置
- 商品種類
- 歷史銷售情況
- 一些其他可能的影響:比如工資漲幅、地震、油價(jià)等。
由于Canvas的免費(fèi)測(cè)試單元格只有100w,所以先線下對(duì)數(shù)據(jù)做了簡(jiǎn)化處理。
最終選擇了3個(gè)表。
train.csv
- prod_id:商品編號(hào)(包含店鋪信息和商品類別)
- sell_date:銷售日期
- store_nbr:店鋪編號(hào)
- prod_family:商品類別;共6個(gè)
- prod_sales:商品銷售額
- onpromotion:打折幅度
一共是6列*32670行。
stores.csv
- store_nbr:店鋪編號(hào)
- store_city:店鋪所在城市;共6個(gè)
- store_type:店鋪分類;共4類
一共是3列*15行。
holidays_events.csv
- sell_date:銷售日期
- holiday_type:節(jié)假日類型;共2類
一共是2列*84行。
因?yàn)閿?shù)據(jù)來(lái)源于3個(gè)不同的表,所以這次嘗試了一下Canvas的join功能。
Join預(yù)覽這里的統(tǒng)計(jì)只是顯示前100個(gè)的,這里給體驗(yàn)造成了2個(gè)阻礙:
- 當(dāng)我看到holiday_type的Distinct values為0時(shí),一開(kāi)始以為3個(gè)表join沒(méi)有成功。
- 不能直觀看到不同的join方式所形成的數(shù)據(jù)集差異。
字段名這里是可編輯框,但實(shí)際是不支持修改的。如果像Tableau那樣支持修改的話,會(huì)更方便。
數(shù)據(jù)導(dǎo)入這里還有一個(gè)問(wèn)題是后來(lái)發(fā)現(xiàn)的:到了生成模型的時(shí)候,遇到了一個(gè)這樣的錯(cuò)誤提示“Field state should not contains a reserved word”。
上網(wǎng)搜索后才發(fā)現(xiàn)預(yù)測(cè)模型對(duì)上傳的數(shù)據(jù)集字段名有一些限制,所以又要返回第一步進(jìn)行修改。這個(gè)如果能在一開(kāi)始導(dǎo)入的時(shí)候做好提醒,或者出錯(cuò)后能直接修改字段名就好了。
最終join完成后,3張表變成了一個(gè)9列*33660行的大表,可以進(jìn)入下一步了。
② 創(chuàng)建模型
這里的數(shù)據(jù)集字段預(yù)覽出現(xiàn)了一個(gè)提示:onpromotion這個(gè)字段有“Missing Values”,提示說(shuō)源數(shù)據(jù)集中的某些字段缺少未來(lái)值,可能會(huì)造成預(yù)測(cè)準(zhǔn)確度偏低,建議更新數(shù)據(jù)集。
這個(gè)提示還是有點(diǎn)疑惑的:比如為什么只有onpromotion需要給出未來(lái)值,返回后更新數(shù)據(jù)集的入口在哪里。在查詢了使用手冊(cè) [3]后也沒(méi)有得到很好的說(shuō)明,所以暫時(shí)沒(méi)有做處理。
看了一下目標(biāo)字段prod_sales有42%的值為0,總體分布圖呈現(xiàn)右偏斜。
這里還發(fā)現(xiàn)了新功能“數(shù)據(jù)清洗”,可以快速為一些缺少值的數(shù)據(jù)設(shè)置默認(rèn)值。
最后為時(shí)間序列預(yù)測(cè)模型配置好參數(shù)后,直接standard build(暫僅支持)就好了。
③ 模型分析
可能是因?yàn)闆](méi)有處理missing value的問(wèn)題,最后生成的模型準(zhǔn)確率比較低。
時(shí)間序列預(yù)測(cè)模型的分析維度和二分類預(yù)測(cè)不太一致,它主要是選取了2個(gè)維度:
- 模型整體的WAPE準(zhǔn)確度(加權(quán)絕對(duì)百分比誤差 [4])
- 各字段對(duì)預(yù)測(cè)值的影響度:onpromotion、holiday_type和store_city會(huì)提升預(yù)測(cè)值;而prod_family和store_type會(huì)降低預(yù)測(cè)值。
可以理解打折促銷以及節(jié)假日能提升商品的銷量;但是為何店鋪所在地能提升銷量,而商品類型和店鋪類型會(huì)降低銷量,就需要進(jìn)一步分析了。
④ 模型預(yù)測(cè)
最后來(lái)看看模型預(yù)測(cè)的效果吧。
預(yù)測(cè)方式也包括2種:全部預(yù)測(cè)和單行預(yù)測(cè)。
a)單行預(yù)測(cè)
這里只需要選擇待預(yù)測(cè)的字段值(某個(gè)店鋪的某類商品)就可以自動(dòng)生成相應(yīng)的時(shí)間序列預(yù)測(cè)模型。
因?yàn)槲抑芭渲玫念A(yù)測(cè)天數(shù)是7,這里展示了14天的數(shù)據(jù)(包括預(yù)測(cè)前7天)。
紫色的線為給出的預(yù)測(cè)值,還有對(duì)應(yīng)的上下限。預(yù)測(cè)結(jié)果總體還是比較直觀的,但是由于之前未處理missing數(shù)據(jù)的原因,預(yù)測(cè)準(zhǔn)確度不高。
b)全部預(yù)測(cè)
點(diǎn)擊后需要運(yùn)行的時(shí)間比較久,而且這里沒(méi)有限制多次預(yù)測(cè),不知道會(huì)不會(huì)影響預(yù)測(cè)速度。
耐心等待后發(fā)現(xiàn)最后效果如下:P50應(yīng)該是給出的預(yù)測(cè)結(jié)果,p10和p90是對(duì)應(yīng)的上下限。
整體評(píng)價(jià)
整體來(lái)說(shuō),作為一個(gè)小白用戶能全靠自己摸索走完整個(gè)模型創(chuàng)建、分析和預(yù)測(cè)的流程,實(shí)際體會(huì)一下機(jī)器學(xué)習(xí)在業(yè)務(wù)分析中的作用,還是很有成就感的。
當(dāng)然出于對(duì)產(chǎn)品能不斷優(yōu)化完善的期望,這里從用戶體驗(yàn)和產(chǎn)品功能2個(gè)角度給出了個(gè)人評(píng)價(jià)。
1)用戶體驗(yàn)
① 加分項(xiàng)
- 易用性強(qiáng):點(diǎn)擊式、可視化界面操作,小白用戶也能快速上手。
- 流程易學(xué):能一步步引導(dǎo)用戶完成 數(shù)據(jù)選擇 – 創(chuàng)建模型 – 模型分析 – 模型預(yù)測(cè) 4個(gè)步驟。
- 布局合理:頁(yè)面設(shè)計(jì)(圖標(biāo)、提示文案、按鈕等)十分清晰合理,能快速找到所需的信息和功能。
② 待提升項(xiàng)
a)提示不夠及時(shí)
- 比如模型已經(jīng)開(kāi)始運(yùn)行了,等待幾分鐘后卻提示要新增配置forecast。
- 或者模型運(yùn)行后告知字段和系統(tǒng)保留字段有沖突,要返回第一步修改數(shù)據(jù)。
b)容錯(cuò)性一般
比如誤點(diǎn)了standard build或多次點(diǎn)擊prediction后不支持取消,需要等待幾小時(shí)。
c)有一定的學(xué)習(xí)成本
- 對(duì)于非專業(yè)數(shù)據(jù)分析人員,一些提示或說(shuō)明比較迷惑。
- 普通用戶可能不知道如何通過(guò)箱型圖、散點(diǎn)圖、混淆矩陣等進(jìn)行分析獲取洞察。
d)對(duì)中文的支持度不夠好
- 平臺(tái)目前全英文展示,部分提示或說(shuō)明理解起來(lái)比較困難。
- 不支持帶中文字符的源數(shù)據(jù)。
- 時(shí)間序列模型的節(jié)假日模式也不支持中國(guó)。
e)延遲感偏強(qiáng)
部分操作響應(yīng)速度比較慢,也遇到過(guò)幾次長(zhǎng)時(shí)間loading的情況。
2)產(chǎn)品功能
① 超預(yù)期
a)數(shù)據(jù)導(dǎo)入
靈活度高:可支持多個(gè)數(shù)據(jù)表自由join。
b)創(chuàng)建模型
- 可視化程度高:用戶可以方便地預(yù)覽數(shù)據(jù)集字段的各項(xiàng)統(tǒng)計(jì)指標(biāo)。
- 自動(dòng)化程度高:可以根據(jù)用戶所選的預(yù)測(cè)目標(biāo)列準(zhǔn)確推薦最合適的訓(xùn)練模型。
- 模型預(yù)覽能力:能快速獲得模型預(yù)估準(zhǔn)確率和各個(gè)字段的影響分值。
- 支持Quick build和Standard build2種方式,滿足不同場(chǎng)景的模型創(chuàng)建需求。
c)模型分析
- 可視化指標(biāo)豐富:包括各個(gè)字段的影響度分布箱型圖、散點(diǎn)圖、模型整體的混淆矩陣等。
- 能方便地復(fù)制或下載數(shù)據(jù)圖表,與他人共享。
d)模型預(yù)測(cè)
支持批量和單行2種方式,滿足不同場(chǎng)景的預(yù)測(cè)需求。
② 待滿足
a)數(shù)據(jù)導(dǎo)入
沒(méi)有發(fā)現(xiàn)支持更新數(shù)據(jù)的入口。
b)創(chuàng)建模型
- 對(duì)已導(dǎo)入數(shù)據(jù)的處理能力較弱。
- 缺少不同模型對(duì)原數(shù)據(jù)要求的說(shuō)明。
- 不支持設(shè)置目標(biāo)預(yù)測(cè)對(duì)象為組合列。
c)模型分析
- 不能給出進(jìn)一步優(yōu)化預(yù)測(cè)準(zhǔn)確率的建議。
- 支持用戶自定義分析的配置較少。
- 一些專業(yè)的統(tǒng)計(jì)圖表缺少像Tableau數(shù)據(jù)解釋 [5] 類似的功能,幫助用戶更好地發(fā)現(xiàn)洞察。
d)模型預(yù)測(cè)
- 預(yù)測(cè)失敗時(shí)缺乏解釋或指引,只能重試。
- 缺少對(duì)預(yù)測(cè)結(jié)果較為詳細(xì)的說(shuō)明,比如一些新增的字段含義是什么、為什么批量預(yù)測(cè)表最后有多行空值等。
五、總結(jié)
回歸最開(kāi)始的問(wèn)題,Canvas真的能使普通從業(yè)者進(jìn)行專業(yè)的業(yè)務(wù)分析,方便地構(gòu)建機(jī)器學(xué)習(xí)模型來(lái)獲取洞察和進(jìn)行預(yù)測(cè)么?
從體驗(yàn)結(jié)果來(lái)看,能,但也不全能。
現(xiàn)階段,Canvas的確能做到讓普通用戶也能0代碼通過(guò)機(jī)器學(xué)習(xí)從已有數(shù)據(jù)分析生成可用的預(yù)測(cè)模型。但最終能否獲取有價(jià)值的洞察,預(yù)測(cè)是否準(zhǔn)確,仍會(huì)受很多因素的影響:比如輸入數(shù)據(jù)的質(zhì)量、用戶自身的統(tǒng)計(jì)學(xué)知識(shí)和分析能力等等。
從普通業(yè)務(wù)人員到真正的業(yè)務(wù)分析師,工具只是我們強(qiáng)大的助手,正如Amazon SageMaker Canvas 并非智者本身而是其引路人。
引用
[1]?https://www.oracle.com/cn/business-analytics/what-is-business-analytics/
[2] https://www.kaggle.com/competitions/store-sales-time-series-forecasting/data
[3] https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-make-time-series-forecast.html
[4] https://aws.amazon.com/cn/blogs/china/measuring-forecast-model-accuracy-to-optimize-your-business-objectives-with-amazon-forecast/
[5] https://help.tableau.com/current/pro/desktop/zh-cn/explain_data_basics.htm
本文由 @咯咯咯 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Pexels,基于CC0協(xié)議。
很漲知識(shí)的一篇文章!就是小白的我看著還是比較懵的哈哈