從轉(zhuǎn)基因到搜索產(chǎn)品的優(yōu)化 — 閑話Bucket Testing

0 評(píng)論 4251 瀏覽 5 收藏 11 分鐘

1、優(yōu)化改良無(wú)處不在

如果要回顧即將遠(yuǎn)去的2010年,公眾最關(guān)注的話題有哪些,相信“轉(zhuǎn)基因水稻”必定榜上有名。對(duì)于這些通過(guò)基因工程,被人為創(chuàng)造出來(lái)的新物種,科學(xué)家雖然能保證高產(chǎn)與抗蟲(chóng)害能力,但是不能證明食用后對(duì)人體沒(méi)有損害,這多少有些令人尷尬;而農(nóng)業(yè)部在前景不明朗情況下批準(zhǔn)商業(yè)化種植,則把公眾推向了高風(fēng)險(xiǎn)境地。不過(guò),拋開(kāi)轉(zhuǎn)基因技術(shù)所帶來(lái)的食品安全風(fēng)險(xiǎn),它與雜交、輻射變異在本質(zhì)上是類(lèi)似的,都是通過(guò)嘗試著的改變生物的基因,來(lái)選拔良種。由于人們對(duì)于基因如何表達(dá)為生物性狀的機(jī)理不是完全了解,加之基因在雜交過(guò)程中本身存在隨機(jī)因素。這使得尋找良種的過(guò)程中需要不斷嘗試。因此,不論是孟山都公司通過(guò)基因工程來(lái)改造水稻種子,還是袁隆平老師通過(guò)不同水稻品種的雜交來(lái)培育優(yōu)質(zhì)水稻,其實(shí)在方法論上都是一致的:挑選一些樣本,然后施加各種各樣的變化因素,通過(guò)觀察,找到最佳的樣本。

圖1. 袁隆平的雜交水稻實(shí)驗(yàn),可以看作是一種BTS實(shí)踐(圖片來(lái)自網(wǎng)絡(luò))

2、搜索產(chǎn)品的優(yōu)化

在互聯(lián)網(wǎng)領(lǐng)域尤其是搜索領(lǐng)域,我們同樣也面臨著與選育良種類(lèi)似的問(wèn)題,即如何對(duì)一個(gè)搜索產(chǎn)品施加各種變化,從而發(fā)現(xiàn)效果最好的版本。說(shuō)的再具體一點(diǎn),為了尋找到效果最好的搜索產(chǎn)品,我們應(yīng)該嘗試著去改變搜索產(chǎn)品的哪些方面,以及在每個(gè)方面施加哪些可能的變化。

這問(wèn)題不像看上去的那樣簡(jiǎn)單。首先,這個(gè)效果的定義,含義可就豐富了。淘寶搜索首先要考慮搜索結(jié)果與用戶(hù)query之間的相關(guān)性;除了相關(guān)性要求之外,對(duì)于淘寶搜索而言,是不是能有效的促進(jìn)成交,也是要重點(diǎn)考慮的效果之一;此外,如果在搜索結(jié)果中,大量存在假冒偽劣產(chǎn)品,那這個(gè)效果也是要打折扣的;另外,如果大部分的搜索結(jié)果里,都是那些大賣(mài)家在拋頭露面,中小賣(mài)家沒(méi)有展現(xiàn)機(jī)會(huì),對(duì)于淘寶生態(tài)圈的長(zhǎng)期發(fā)展也是不利的。因此,淘寶搜索所考慮的效果問(wèn)題要比一般意義上的搜索引擎更加復(fù)雜。其次,搜索產(chǎn)品的哪些方面可以做改動(dòng),如果要一一列舉就太多了。事實(shí)上,搜索產(chǎn)品的任何一個(gè)地方的不完善,都有可能降低搜索產(chǎn)品的整體效果。筆者試著將淘寶搜索產(chǎn)品的可變化因素整理成一個(gè)圖,希望各位看官能有一個(gè)感性的認(rèn)知。

淘寶搜索產(chǎn)品的可變化因素

圖2. 淘寶搜索產(chǎn)品的可變化因素

3、分桶測(cè)試 (Bucket Testing, BTS)

諸位看官可能已經(jīng)意識(shí)到了,如何優(yōu)化一個(gè)搜索產(chǎn)品,實(shí)際情況應(yīng)該比我上面說(shuō)的更加復(fù)雜,這真是一個(gè)壞消息;不過(guò)我們也有一個(gè)好消息,因?yàn)閷?duì)于這個(gè)問(wèn)題的答案,業(yè)界已經(jīng)有答案了,這就是分桶測(cè)試(bucket testing),簡(jiǎn)稱(chēng)BTS。

所謂的分桶測(cè)試,是讓不同的用戶(hù)在訪問(wèn)特定的互聯(lián)網(wǎng)產(chǎn)品的時(shí)候,由系統(tǒng)來(lái)決定用戶(hù)的分組號(hào)(我們稱(chēng)為bucket id),然后根據(jù)分組號(hào),令用戶(hù)看到的是不同的產(chǎn)品版本,用戶(hù)在不同版本產(chǎn)品下的行為將被記錄下來(lái),這些行為數(shù)據(jù)通過(guò)數(shù)據(jù)分析形成一系列指標(biāo),而通過(guò)這些指標(biāo)的比較,最后就形成了各版本之間孰優(yōu)孰劣的結(jié)論。

3.1 A/B測(cè)試 (A/B Testing)

分桶測(cè)試的最簡(jiǎn)單形式,稱(chēng)為A/B testing。即設(shè)定一個(gè)基準(zhǔn)桶,再設(shè)定一個(gè)或以上的測(cè)試桶。然后考察測(cè)試桶與基準(zhǔn)桶之間在各項(xiàng)指標(biāo)上的差異,最后確定測(cè)試桶的效果。這種方法論,很容易在現(xiàn)實(shí)生活中找到影子。其實(shí),改革初期建立的深圳特區(qū),就是一場(chǎng)偉大的A/B testing,基準(zhǔn)桶就是中國(guó)內(nèi)地,測(cè)試桶就是深圳,當(dāng)時(shí)各自的用戶(hù)量是9億 vs 30萬(wàn)(以當(dāng)時(shí)的人口計(jì)算)。對(duì)于A/B testing而言,測(cè)試桶的用戶(hù)量、流量都不會(huì)太大,這是為了確保BTS萬(wàn)一失敗,對(duì)于整體系統(tǒng)的影響盡量小。當(dāng)然,測(cè)試桶的用戶(hù)量、流量也不能太少,否則測(cè)試效果容易受到未知因素的干擾,而變得不穩(wěn)定。對(duì)于A/B testing而言,判斷測(cè)試組與基準(zhǔn)組孰優(yōu)孰劣非常簡(jiǎn)單,只要將二者的指標(biāo)進(jìn)行對(duì)比即可。但是,如果版本中包含多個(gè)因素,那么確定每個(gè)因素的貢獻(xiàn),就不好評(píng)估了。這就好比,我們不能僅僅根據(jù)內(nèi)地與深圳的GDP差異,就能斷定是因?yàn)楫?dāng)時(shí)良好的投資環(huán)境,還是地理因素,或其它什么因素,是導(dǎo)致了深圳當(dāng)時(shí)成功的主要因素。所以,利用A/B測(cè)試,我們往往只能知道how,而不能知道why。

建立經(jīng)濟(jì)特區(qū),本質(zhì)就是 A/B 測(cè)試(圖片來(lái)自網(wǎng)絡(luò))

圖3. 建立經(jīng)濟(jì)特區(qū),本質(zhì)就是 A/B 測(cè)試(圖片來(lái)自網(wǎng)絡(luò))

如果經(jīng)濟(jì)特區(qū)的例子還是不夠直接的話,我們來(lái)看下奧巴馬同學(xué)的例子吧。奧巴馬的競(jìng)選團(tuán)隊(duì)如何在總統(tǒng)競(jìng)選中將互聯(lián)網(wǎng)手段發(fā)揮到極致的,我們就不費(fèi)口水介紹了,單說(shuō)一下他們是如何改善競(jìng)選網(wǎng)站的吧??聪聢D,在奧巴馬競(jìng)選網(wǎng)站上有一個(gè)贈(zèng)送競(jìng)選T恤的頁(yè)面,用戶(hù)只要捐款達(dá)到一定數(shù)額就會(huì)贈(zèng)送一件T恤。顯然,如果T恤廣告圖片(下圖紅框處)足夠抓眼球的話,那捐款率可就ceng ceng的往上漲啊。所以?shī)W巴馬團(tuán)隊(duì)在廣告圖片的設(shè)計(jì)上可是花了不少心血,方法嘛自然是A/B測(cè)試咯,他們一共為測(cè)試組設(shè)計(jì)了4種變化(A~D),然后借助于 Google Website Optimizer 對(duì)用戶(hù)點(diǎn)擊行為的分析,選出最佳的形式。


圖4. 奧巴馬競(jìng)選團(tuán)隊(duì)利用A/B測(cè)試來(lái)改進(jìn)競(jìng)選宣傳的效果(圖片來(lái)自網(wǎng)絡(luò))

3.2 多變量測(cè)試 (Multivariate Testing)

分桶測(cè)試的高級(jí)形式,是多變量測(cè)試。在多變量測(cè)試中,每個(gè)可以改變的地方稱(chēng)為因素,而每種因素的可能具有的狀態(tài)稱(chēng)為水平。比如,你想同時(shí)改變某個(gè)搜索產(chǎn)品的按鈕顏色、排序算法、索引數(shù)據(jù)這3個(gè)地方,那你需要一個(gè)3因素的多變量測(cè)試。如果,按鈕的顏色為3種,那“按鈕顏色”這個(gè)因素是3水平的。多變量測(cè)試允許你在同一時(shí)間測(cè)試多個(gè)要素處于不同水平時(shí)對(duì)于搜索產(chǎn)品的影響。通過(guò)多變量測(cè)試,你能十分清楚的看到不同的變化組合,對(duì)最終效果的影響。

舉例而言,如果對(duì)某個(gè)搜索產(chǎn)品進(jìn)行BTS測(cè)試的范圍為:3種按鈕顏色、2種排序算法和2種索引數(shù)據(jù),那么該如何確定效果最佳的搭配呢?一般,我們會(huì)進(jìn)行排列組合,產(chǎn)生不同的版本,使得每個(gè)版本對(duì)應(yīng)一種水平的組合,這樣我們就要構(gòu)造3*2*2=12種版本參加BTS測(cè)試。接下來(lái)我們只要確定好每個(gè)版本的流量分配即可,即哪些桶對(duì)應(yīng)哪個(gè)版本。

最后,也是最有難度的地方在于,如何通過(guò)各版本的指標(biāo)分析,來(lái)確定哪個(gè)版本最好、每個(gè)因素貢獻(xiàn)程度以及結(jié)論的可靠性。這將比A/B測(cè)試要復(fù)雜的多,建議各位看官在有興趣嘗試之前,回顧一下統(tǒng)計(jì)學(xué)的假設(shè)檢驗(yàn)、實(shí)驗(yàn)設(shè)計(jì)方面的知識(shí)。限于篇幅,這里我們就不展開(kāi)。

最后說(shuō)明下,多變量測(cè)試的威力在于同一時(shí)間內(nèi)可以進(jìn)行多個(gè)因素的測(cè)試,可以為我們節(jié)省時(shí)間,但在使用這個(gè)工具的時(shí)候,切忌貪心,不要同時(shí)進(jìn)行太多因素的測(cè)試。這是因?yàn)?,在一定時(shí)間內(nèi),網(wǎng)絡(luò)流量是有限的,而同時(shí)進(jìn)行太多的測(cè)試,就要?jiǎng)?chuàng)建大量的版本,這將攤薄每個(gè)版本能夠得到的流量。而流量不足時(shí),會(huì)導(dǎo)致統(tǒng)計(jì)指標(biāo)的可靠性變差。

來(lái)源:搜索技術(shù)博客-淘寶

 

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!