亚洲欧美日韩精品久久亚洲区,欧美日韩精品一区二区视频,欧美日韩在线亚洲综合国产人

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

從轉(zhuǎn)基因到搜索產(chǎn)品的優(yōu)化 — 閑話Bucket Testing

包子哥

2013-05-05

0 評(píng)論 4251 瀏覽 5 收藏

11 分鐘

1、優(yōu)化改良無(wú)處不在

如果要回顧即將遠(yuǎn)去的2010年，公眾最關(guān)注的話題有哪些，相信“轉(zhuǎn)基因水稻”必定榜上有名。對(duì)于這些通過(guò)基因工程，被人為創(chuàng)造出來(lái)的新物種，科學(xué)家雖然能保證高產(chǎn)與抗蟲(chóng)害能力，但是不能證明食用后對(duì)人體沒(méi)有損害，這多少有些令人尷尬；而農(nóng)業(yè)部在前景不明朗情況下批準(zhǔn)商業(yè)化種植，則把公眾推向了高風(fēng)險(xiǎn)境地。不過(guò)，拋開(kāi)轉(zhuǎn)基因技術(shù)所帶來(lái)的食品安全風(fēng)險(xiǎn)，它與雜交、輻射變異在本質(zhì)上是類(lèi)似的，都是通過(guò)嘗試著的改變生物的基因，來(lái)選拔良種。由于人們對(duì)于基因如何表達(dá)為生物性狀的機(jī)理不是完全了解，加之基因在雜交過(guò)程中本身存在隨機(jī)因素。這使得尋找良種的過(guò)程中需要不斷嘗試。因此，不論是孟山都公司通過(guò)基因工程來(lái)改造水稻種子，還是袁隆平老師通過(guò)不同水稻品種的雜交來(lái)培育優(yōu)質(zhì)水稻，其實(shí)在方法論上都是一致的：挑選一些樣本，然后施加各種各樣的變化因素，通過(guò)觀察，找到最佳的樣本。

圖1. 袁隆平的雜交水稻實(shí)驗(yàn)，可以看作是一種BTS實(shí)踐（圖片來(lái)自網(wǎng)絡(luò)）

2、搜索產(chǎn)品的優(yōu)化

在互聯(lián)網(wǎng)領(lǐng)域尤其是搜索領(lǐng)域，我們同樣也面臨著與選育良種類(lèi)似的問(wèn)題，即如何對(duì)一個(gè)搜索產(chǎn)品施加各種變化，從而發(fā)現(xiàn)效果最好的版本。說(shuō)的再具體一點(diǎn)，為了尋找到效果最好的搜索產(chǎn)品，我們應(yīng)該嘗試著去改變搜索產(chǎn)品的哪些方面，以及在每個(gè)方面施加哪些可能的變化。

這問(wèn)題不像看上去的那樣簡(jiǎn)單。首先，這個(gè)效果的定義，含義可就豐富了。淘寶搜索首先要考慮搜索結(jié)果與用戶(hù)query之間的相關(guān)性；除了相關(guān)性要求之外，對(duì)于淘寶搜索而言，是不是能有效的促進(jìn)成交，也是要重點(diǎn)考慮的效果之一；此外，如果在搜索結(jié)果中，大量存在假冒偽劣產(chǎn)品，那這個(gè)效果也是要打折扣的；另外，如果大部分的搜索結(jié)果里，都是那些大賣(mài)家在拋頭露面，中小賣(mài)家沒(méi)有展現(xiàn)機(jī)會(huì)，對(duì)于淘寶生態(tài)圈的長(zhǎng)期發(fā)展也是不利的。因此，淘寶搜索所考慮的效果問(wèn)題要比一般意義上的搜索引擎更加復(fù)雜。其次，搜索產(chǎn)品的哪些方面可以做改動(dòng)，如果要一一列舉就太多了。事實(shí)上，搜索產(chǎn)品的任何一個(gè)地方的不完善，都有可能降低搜索產(chǎn)品的整體效果。筆者試著將淘寶搜索產(chǎn)品的可變化因素整理成一個(gè)圖，希望各位看官能有一個(gè)感性的認(rèn)知。

圖2. 淘寶搜索產(chǎn)品的可變化因素

3、分桶測(cè)試 (Bucket Testing, BTS)

諸位看官可能已經(jīng)意識(shí)到了，如何優(yōu)化一個(gè)搜索產(chǎn)品，實(shí)際情況應(yīng)該比我上面說(shuō)的更加復(fù)雜，這真是一個(gè)壞消息；不過(guò)我們也有一個(gè)好消息，因?yàn)閷?duì)于這個(gè)問(wèn)題的答案，業(yè)界已經(jīng)有答案了，這就是分桶測(cè)試(bucket testing)，簡(jiǎn)稱(chēng)BTS。

所謂的分桶測(cè)試，是讓不同的用戶(hù)在訪問(wèn)特定的互聯(lián)網(wǎng)產(chǎn)品的時(shí)候，由系統(tǒng)來(lái)決定用戶(hù)的分組號(hào)（我們稱(chēng)為bucket id），然后根據(jù)分組號(hào)，令用戶(hù)看到的是不同的產(chǎn)品版本，用戶(hù)在不同版本產(chǎn)品下的行為將被記錄下來(lái)，這些行為數(shù)據(jù)通過(guò)數(shù)據(jù)分析形成一系列指標(biāo)，而通過(guò)這些指標(biāo)的比較，最后就形成了各版本之間孰優(yōu)孰劣的結(jié)論。

3.1 A/B測(cè)試 (A/B Testing)

分桶測(cè)試的最簡(jiǎn)單形式，稱(chēng)為A/B testing。即設(shè)定一個(gè)基準(zhǔn)桶，再設(shè)定一個(gè)或以上的測(cè)試桶。然后考察測(cè)試桶與基準(zhǔn)桶之間在各項(xiàng)指標(biāo)上的差異，最后確定測(cè)試桶的效果。這種方法論，很容易在現(xiàn)實(shí)生活中找到影子。其實(shí)，改革初期建立的深圳特區(qū)，就是一場(chǎng)偉大的A/B testing，基準(zhǔn)桶就是中國(guó)內(nèi)地，測(cè)試桶就是深圳，當(dāng)時(shí)各自的用戶(hù)量是9億 vs 30萬(wàn)（以當(dāng)時(shí)的人口計(jì)算）。對(duì)于A/B testing而言，測(cè)試桶的用戶(hù)量、流量都不會(huì)太大，這是為了確保BTS萬(wàn)一失敗，對(duì)于整體系統(tǒng)的影響盡量小。當(dāng)然，測(cè)試桶的用戶(hù)量、流量也不能太少，否則測(cè)試效果容易受到未知因素的干擾，而變得不穩(wěn)定。對(duì)于A/B testing而言，判斷測(cè)試組與基準(zhǔn)組孰優(yōu)孰劣非常簡(jiǎn)單，只要將二者的指標(biāo)進(jìn)行對(duì)比即可。但是，如果版本中包含多個(gè)因素，那么確定每個(gè)因素的貢獻(xiàn)，就不好評(píng)估了。這就好比，我們不能僅僅根據(jù)內(nèi)地與深圳的GDP差異，就能斷定是因?yàn)楫?dāng)時(shí)良好的投資環(huán)境，還是地理因素，或其它什么因素，是導(dǎo)致了深圳當(dāng)時(shí)成功的主要因素。所以，利用A/B測(cè)試，我們往往只能知道how，而不能知道why。

圖3. 建立經(jīng)濟(jì)特區(qū)，本質(zhì)就是 A/B 測(cè)試（圖片來(lái)自網(wǎng)絡(luò)）

如果經(jīng)濟(jì)特區(qū)的例子還是不夠直接的話，我們來(lái)看下奧巴馬同學(xué)的例子吧。奧巴馬的競(jìng)選團(tuán)隊(duì)如何在總統(tǒng)競(jìng)選中將互聯(lián)網(wǎng)手段發(fā)揮到極致的，我們就不費(fèi)口水介紹了，單說(shuō)一下他們是如何改善競(jìng)選網(wǎng)站的吧?？聪聢D，在奧巴馬競(jìng)選網(wǎng)站上有一個(gè)贈(zèng)送競(jìng)選T恤的頁(yè)面，用戶(hù)只要捐款達(dá)到一定數(shù)額就會(huì)贈(zèng)送一件T恤。顯然，如果T恤廣告圖片（下圖紅框處）足夠抓眼球的話，那捐款率可就ceng ceng的往上漲啊。所以?shī)W巴馬團(tuán)隊(duì)在廣告圖片的設(shè)計(jì)上可是花了不少心血，方法嘛自然是A/B測(cè)試咯，他們一共為測(cè)試組設(shè)計(jì)了4種變化(A~D)，然后借助于 Google Website Optimizer 對(duì)用戶(hù)點(diǎn)擊行為的分析，選出最佳的形式。

圖4. 奧巴馬競(jìng)選團(tuán)隊(duì)利用A/B測(cè)試來(lái)改進(jìn)競(jìng)選宣傳的效果（圖片來(lái)自網(wǎng)絡(luò)）

3.2 多變量測(cè)試 (Multivariate Testing)

分桶測(cè)試的高級(jí)形式，是多變量測(cè)試。在多變量測(cè)試中，每個(gè)可以改變的地方稱(chēng)為因素，而每種因素的可能具有的狀態(tài)稱(chēng)為水平。比如，你想同時(shí)改變某個(gè)搜索產(chǎn)品的按鈕顏色、排序算法、索引數(shù)據(jù)這3個(gè)地方，那你需要一個(gè)3因素的多變量測(cè)試。如果，按鈕的顏色為3種，那“按鈕顏色”這個(gè)因素是3水平的。多變量測(cè)試允許你在同一時(shí)間測(cè)試多個(gè)要素處于不同水平時(shí)對(duì)于搜索產(chǎn)品的影響。通過(guò)多變量測(cè)試，你能十分清楚的看到不同的變化組合，對(duì)最終效果的影響。

舉例而言，如果對(duì)某個(gè)搜索產(chǎn)品進(jìn)行BTS測(cè)試的范圍為：3種按鈕顏色、2種排序算法和2種索引數(shù)據(jù)，那么該如何確定效果最佳的搭配呢？一般，我們會(huì)進(jìn)行排列組合，產(chǎn)生不同的版本，使得每個(gè)版本對(duì)應(yīng)一種水平的組合，這樣我們就要構(gòu)造3*2*2=12種版本參加BTS測(cè)試。接下來(lái)我們只要確定好每個(gè)版本的流量分配即可，即哪些桶對(duì)應(yīng)哪個(gè)版本。

最后，也是最有難度的地方在于，如何通過(guò)各版本的指標(biāo)分析，來(lái)確定哪個(gè)版本最好、每個(gè)因素貢獻(xiàn)程度以及結(jié)論的可靠性。這將比A/B測(cè)試要復(fù)雜的多，建議各位看官在有興趣嘗試之前，回顧一下統(tǒng)計(jì)學(xué)的假設(shè)檢驗(yàn)、實(shí)驗(yàn)設(shè)計(jì)方面的知識(shí)。限于篇幅，這里我們就不展開(kāi)。

最后說(shuō)明下，多變量測(cè)試的威力在于同一時(shí)間內(nèi)可以進(jìn)行多個(gè)因素的測(cè)試，可以為我們節(jié)省時(shí)間，但在使用這個(gè)工具的時(shí)候，切忌貪心，不要同時(shí)進(jìn)行太多因素的測(cè)試。這是因?yàn)?，在一定時(shí)間內(nèi)，網(wǎng)絡(luò)流量是有限的，而同時(shí)進(jìn)行太多的測(cè)試，就要?jiǎng)?chuàng)建大量的版本，這將攤薄每個(gè)版本能夠得到的流量。而流量不足時(shí)，會(huì)導(dǎo)致統(tǒng)計(jì)指標(biāo)的可靠性變差。

來(lái)源：搜索技術(shù)博客-淘寶