A/B 測(cè)試中 12 個(gè)常見(jiàn)的誤區(qū)(上)

3 評(píng)論 4566 瀏覽 26 收藏 11 分鐘

文章為大家梳理一些運(yùn)用A/B 測(cè)試時(shí)12個(gè)常見(jiàn)的誤區(qū),本文為上篇,一起看看~

A/B 測(cè)試是一項(xiàng)很有趣的測(cè)試內(nèi)容,使用者可以通過(guò)優(yōu)質(zhì)的工具去完成產(chǎn)品中的 A/B 測(cè)試。但其實(shí),A/B 測(cè)試并不僅僅是建立一個(gè)測(cè)試,很多公司在使用 A/B 測(cè)試時(shí)都存在一定的誤區(qū),都在不經(jīng)意間浪費(fèi)著時(shí)間和金錢(qián)且不自知。

下面,本文將為大家梳理一些運(yùn)用A/B 測(cè)試時(shí)常見(jiàn)的誤區(qū):

一、太早停止A/B 測(cè)試

如果樣本量足夠大,統(tǒng)計(jì)顯著性是版本 A 優(yōu)于版本 B 的最好證據(jù),50% 的統(tǒng)計(jì)顯著性代表一種隨機(jī)的結(jié)果。如果你只要求有 50% 的統(tǒng)計(jì)顯著性,那么你可能要考慮離職了,因?yàn)槠鋵?shí)這個(gè)數(shù)字達(dá)到 75% 也不能說(shuō)明什么。

任何一個(gè)經(jīng)驗(yàn)豐富的測(cè)試人員都有過(guò)這樣的經(jīng)歷,你通過(guò) A/B 測(cè)試去檢測(cè)你的產(chǎn)品功能,最終將一個(gè)置信度達(dá)到 80% 的產(chǎn)品推向各大市場(chǎng),但最終發(fā)現(xiàn),市場(chǎng)卻并不買(mǎi)賬。于是你想,那下次把數(shù)字達(dá)到90% 怎么樣?這樣就會(huì)很好了吧?其實(shí)比達(dá)到 90% 更重要的是,你要找到其中的真相。

真相>勝利

作為一個(gè)專(zhuān)業(yè)的職場(chǎng)人士,你的工作就是找出真相。你必須先把自我放在一邊,執(zhí)著于你的假設(shè)或設(shè)計(jì)是人之常情,如果當(dāng)你的假設(shè)沒(méi)有出現(xiàn)顯著的差異性時(shí),這可能會(huì)對(duì)你造成很?chē)?yán)重的打擊。真理高于一切,否則一切都失去了意義。

這里有一個(gè)常見(jiàn)的場(chǎng)景,即使對(duì)于經(jīng)常進(jìn)行 A/B 測(cè)試的公司也是如此,公司進(jìn)行一個(gè)又一個(gè)的測(cè)試,持續(xù)了 12 個(gè)月,好不容易挑選出“獲勝者”,然后將它們推出市場(chǎng)。結(jié)果一年后發(fā)現(xiàn),他們網(wǎng)站的轉(zhuǎn)化率和剛開(kāi)始時(shí)一樣……

為什么?基本是因?yàn)闇y(cè)試停止得太早或樣本量太小。這里有一個(gè)關(guān)于何時(shí)停止 A/B 測(cè)試解釋?zhuān)?jiǎn)而言之需要滿足這三個(gè)條件,才能說(shuō)明測(cè)試已經(jīng)完成:

  1. 足夠的樣本大小。實(shí)驗(yàn)要有足夠的被試參與,你需要為你的 A/B 測(cè)試預(yù)先估算出足夠的樣本量。
  2. 要運(yùn)行多個(gè)銷(xiāo)售周期(通常為 2-4 周)。如果你只是在幾天內(nèi)就停止測(cè)試(或者在達(dá)到所需的樣本量之后就停止),那么你獲得的這個(gè)樣本結(jié)果,并不具有代表性。
  3. 統(tǒng)計(jì)學(xué)的顯著性至少要達(dá)到 95%(p≤0.05)。值得注意的是,p 值沒(méi)有辦法告訴我們 B 比 A 的方案好。

這里有一個(gè)經(jīng)典的例子來(lái)說(shuō)明我的觀點(diǎn),下表為開(kāi)始測(cè)試兩天后的結(jié)果:

A/B 測(cè)試中 12 個(gè)常見(jiàn)的誤區(qū)(上)

圖 1. 圖片來(lái)源于網(wǎng)絡(luò)

我構(gòu)建的新版本損失慘重,我構(gòu)建的版本并沒(méi)有太大的優(yōu)勢(shì),而我的客戶也已經(jīng)開(kāi)始準(zhǔn)備停用這個(gè)方案。但是,由于樣本量太小(每次變化只有 100 多次訪問(wèn)),通過(guò)我的堅(jiān)持不懈,這是 10 天后的結(jié)果:

A/B 測(cè)試中 12 個(gè)常見(jiàn)的誤區(qū)(上)

圖 2. 圖片來(lái)源于網(wǎng)絡(luò)

你沒(méi)看錯(cuò),我制造的版本現(xiàn)在以 95% 的置信率獲勝。

有些A / B測(cè)試結(jié)束得過(guò)早,這就需要我們仔細(xì)檢查各種數(shù)據(jù)。而最糟糕的事情就是,因?yàn)椴粶?zhǔn)確的數(shù)據(jù),讓你損失了大量的時(shí)間與金錢(qián)。

需要多大的樣本量?

通過(guò)上面的介紹,我們都不希望根據(jù)較小的樣本量得出結(jié)論。理想的狀態(tài)下,一個(gè)好的測(cè)試版本最好能發(fā)生至少 350-400 次轉(zhuǎn)換數(shù)據(jù)。但是,這個(gè)數(shù)字不是定值。我們不要被一個(gè)號(hào)碼困住,因?yàn)槲覀兪种械氖强茖W(xué),而不是魔術(shù)。

所以,你一定要提前估算出測(cè)試所需要的樣本量。那么即使這樣做了,但置信度還是低于 95% 怎么辦?那么可以從細(xì)分領(lǐng)域下手,但你仍需要為每個(gè)測(cè)試的細(xì)節(jié)提供足夠的樣本量。無(wú)論如何,你都需要不斷修改你的假設(shè)并進(jìn)行新的測(cè)試。

二、測(cè)試的單位不是“周”

假設(shè)你有一個(gè)高流量網(wǎng)站,你在三天內(nèi)實(shí)現(xiàn)了 98% 的置信度,并且每次都發(fā)生了至少 350 次的轉(zhuǎn)換數(shù)據(jù)。

這樣能算完成了測(cè)試嗎?不,我們需要排除周期性因素并測(cè)試整整一周。如果你從上周一開(kāi)始測(cè)試,那么這個(gè)測(cè)試需要在下周一停止。

為什么?因?yàn)槟愕霓D(zhuǎn)化率可能會(huì)因“今天是星期幾”而有很大差異。如果你一次不測(cè)試整整一周,那么你的結(jié)果就會(huì)出現(xiàn)偏差。所以,你需要以“周”為單位,在你的網(wǎng)站上運(yùn)行“每日轉(zhuǎn)化次數(shù)”的報(bào)告,觀察到底能產(chǎn)生多少波動(dòng)。

下面是一個(gè)例子:

A/B 測(cè)試中 12 個(gè)常見(jiàn)的誤區(qū)(上)

圖 3. 圖片來(lái)源于網(wǎng)絡(luò)

你看到上表中的內(nèi)容了嗎?

星期四的收入比星期六和星期日的總和還多出 2 倍,星期四的轉(zhuǎn)換率幾乎是星期六的 2 倍。如果我們沒(méi)有以“周”為單位進(jìn)行測(cè)試,那么結(jié)果將是不準(zhǔn)確的,所以,必須開(kāi)始一次運(yùn)行七天的測(cè)試。如果在這七天內(nèi)沒(méi)有出現(xiàn)差異顯著的結(jié)果,則再運(yùn)行七天。如果 14 天都沒(méi)有達(dá)到,那么就運(yùn)行到第 21 天。

多數(shù)情況下,你需要至少運(yùn)行兩周的測(cè)試(我的個(gè)人最低時(shí)間是四周,因?yàn)閮芍芡ǔJ遣粶?zhǔn)確的),然后,如果你需要延長(zhǎng)測(cè)試時(shí)間,則應(yīng)用七天規(guī)則逐步疊加。

注意外部因素

如果你在雙十一等一些購(gòu)物季獲得了良好的測(cè)試結(jié)果,那么你一定要在購(gòu)物季結(jié)束后再次進(jìn)行重復(fù)的測(cè)試。另外,如果你的公司鋪設(shè)了一些電視廣告或者其他大型活動(dòng),都可能會(huì)影響你的測(cè)試結(jié)果。你必須要了解你的公司正在做什么,因?yàn)橥獠恳蛩貢?huì)影響到你的測(cè)試結(jié)果。

三、沒(méi)有足夠的流量也進(jìn)行 A/B 測(cè)試

如果你每月只能完成一次或兩次銷(xiāo)售,然后進(jìn)行測(cè)試,結(jié)果顯示 B 方案比 A 方案的轉(zhuǎn)化率高 15%,這樣的結(jié)果準(zhǔn)確嗎?

當(dāng)然不。許多人都喜歡用 A / B 測(cè)試來(lái)驗(yàn)證假設(shè),但流量較小的情況下,即使版本 B 的效果再好,也可能需要數(shù)月才能達(dá)到統(tǒng)計(jì)顯著性。

不基于假設(shè)就進(jìn)行測(cè)試

我喜歡意大利面,但我對(duì)意大利面條柔韌度的測(cè)試卻沒(méi)多大興趣,比如將它扔在墻上,看它是否粘住墻壁?

這其實(shí)是一種隨意的測(cè)試想法,而測(cè)試這種隨機(jī)想法需要付出巨大代價(jià),它會(huì)浪費(fèi)你寶貴的時(shí)間和流量,所以永遠(yuǎn)不要那樣做。你需要有一個(gè)假設(shè)。假設(shè)的提出要根據(jù)有限的證據(jù),這個(gè)證據(jù)可以通過(guò)實(shí)驗(yàn)去被證明,并且作為一個(gè)新的研究起點(diǎn)。

如果你在沒(méi)有明確假設(shè)的情況下進(jìn)行 A/B 測(cè)試,然后發(fā)現(xiàn) B 方案的轉(zhuǎn)化率高了 15%,可是你從中學(xué)到了什么?

什么沒(méi)有。我們需要了解我們的受眾,獲得合理的假設(shè),這將有助于我們更好地改進(jìn)貼合實(shí)際的測(cè)試。

四、不利用大數(shù)據(jù)分析平臺(tái)

測(cè)試的平均值往往包含著謊言。如果 A 方案比 B 方案的轉(zhuǎn)化率高出 10%,但也并不能代表全部。你需要將其中的指標(biāo)再次進(jìn)行分割測(cè)試,去分析其中的各項(xiàng)細(xì)分指標(biāo)。你可以使用一些優(yōu)質(zhì)的大數(shù)據(jù)分析工具,利用各種分析模型,對(duì)數(shù)據(jù)進(jìn)行細(xì)致地分析和處理。

A/B 測(cè)試中 12 個(gè)常見(jiàn)的誤區(qū)(上)

圖 4. 圖片來(lái)源于神策數(shù)據(jù)

五、為了不值得的問(wèn)題進(jìn)行測(cè)試

你測(cè)試過(guò)用戶喜歡什么顏色,對(duì)嗎?

請(qǐng)趕快停止吧。世界上哪里有最好的顏色,因?yàn)轭伾冀K與視覺(jué)層次結(jié)構(gòu)有關(guān)。當(dāng)然,你可以在網(wǎng)上找到有人通過(guò)測(cè)試顏色從而獲得收益,但這些結(jié)果很多都是顯而易見(jiàn)的,所以,不要把時(shí)間浪費(fèi)在這些測(cè)試上。

余下的 6 個(gè)誤區(qū),未完待續(xù),歡迎大家持續(xù)關(guān)注。

 

原文來(lái)源:https://conversionxl.com

原文作者:Peep Laja

翻譯:研如玉,神策數(shù)據(jù)·用戶行為洞察研究院 公眾號(hào)(ID:SDResearch)

本文由 @研如玉 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 測(cè)試用例

    來(lái)自河北 回復(fù)
  2. 前文描述的說(shuō)會(huì)收到星期幾的因素所影響數(shù)據(jù),其實(shí)是不正確的,因?yàn)榧热皇亲鯝B Test,他的對(duì)比因素是相同的
    也就是說(shuō),實(shí)驗(yàn)組和對(duì)照組都是星期一 或 星期六等,判斷一個(gè)AB平臺(tái)是否準(zhǔn)確,具有可參考意義,要看樣本的分流是否平均
    還要根據(jù)樣本數(shù),設(shè)定置信區(qū)間,當(dāng)樣本數(shù)小的情況下,數(shù)據(jù)波動(dòng)的范圍會(huì)較大,但如果是非常大的樣本數(shù),比如100萬(wàn)對(duì)比100萬(wàn)的數(shù)據(jù),即使是1-2天,0.1%的數(shù)據(jù)也是顯著置信的~

    來(lái)自上海 回復(fù)
    1. 嗯嗯 是把可能出現(xiàn)的誤區(qū)都提出來(lái)了呢 ~

      來(lái)自北京 回復(fù)