一个人看的www高清免费播放 ,丁香色婷婷国产精品视频,欧美性xxxxx极品少妇直播

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

A/B 測(cè)試中 12 個(gè)常見(jiàn)的誤區(qū)（上）

王瑞秋

2019-08-01

3 評(píng)論 4566 瀏覽 26 收藏

11 分鐘

文章為大家梳理一些運(yùn)用A/B 測(cè)試時(shí)12個(gè)常見(jiàn)的誤區(qū)，本文為上篇，一起看看~

A/B 測(cè)試是一項(xiàng)很有趣的測(cè)試內(nèi)容，使用者可以通過(guò)優(yōu)質(zhì)的工具去完成產(chǎn)品中的 A/B 測(cè)試。但其實(shí)，A/B 測(cè)試并不僅僅是建立一個(gè)測(cè)試，很多公司在使用 A/B 測(cè)試時(shí)都存在一定的誤區(qū)，都在不經(jīng)意間浪費(fèi)著時(shí)間和金錢(qián)且不自知。

下面，本文將為大家梳理一些運(yùn)用A/B 測(cè)試時(shí)常見(jiàn)的誤區(qū)：

一、太早停止A/B 測(cè)試

如果樣本量足夠大，統(tǒng)計(jì)顯著性是版本 A 優(yōu)于版本 B 的最好證據(jù)，50% 的統(tǒng)計(jì)顯著性代表一種隨機(jī)的結(jié)果。如果你只要求有 50% 的統(tǒng)計(jì)顯著性，那么你可能要考慮離職了，因?yàn)槠鋵?shí)這個(gè)數(shù)字達(dá)到 75% 也不能說(shuō)明什么。

任何一個(gè)經(jīng)驗(yàn)豐富的測(cè)試人員都有過(guò)這樣的經(jīng)歷，你通過(guò) A/B 測(cè)試去檢測(cè)你的產(chǎn)品功能，最終將一個(gè)置信度達(dá)到 80% 的產(chǎn)品推向各大市場(chǎng)，但最終發(fā)現(xiàn)，市場(chǎng)卻并不買(mǎi)賬。于是你想，那下次把數(shù)字達(dá)到90% 怎么樣？這樣就會(huì)很好了吧？其實(shí)比達(dá)到 90% 更重要的是，你要找到其中的真相。

真相>勝利

作為一個(gè)專(zhuān)業(yè)的職場(chǎng)人士，你的工作就是找出真相。你必須先把自我放在一邊，執(zhí)著于你的假設(shè)或設(shè)計(jì)是人之常情，如果當(dāng)你的假設(shè)沒(méi)有出現(xiàn)顯著的差異性時(shí)，這可能會(huì)對(duì)你造成很?chē)?yán)重的打擊。真理高于一切，否則一切都失去了意義。

這里有一個(gè)常見(jiàn)的場(chǎng)景，即使對(duì)于經(jīng)常進(jìn)行 A/B 測(cè)試的公司也是如此，公司進(jìn)行一個(gè)又一個(gè)的測(cè)試，持續(xù)了 12 個(gè)月，好不容易挑選出“獲勝者”，然后將它們推出市場(chǎng)。結(jié)果一年后發(fā)現(xiàn)，他們網(wǎng)站的轉(zhuǎn)化率和剛開(kāi)始時(shí)一樣……

為什么？基本是因?yàn)闇y(cè)試停止得太早或樣本量太小。這里有一個(gè)關(guān)于何時(shí)停止 A/B 測(cè)試解釋?zhuān)?jiǎn)而言之需要滿足這三個(gè)條件，才能說(shuō)明測(cè)試已經(jīng)完成：

足夠的樣本大小。實(shí)驗(yàn)要有足夠的被試參與，你需要為你的 A/B 測(cè)試預(yù)先估算出足夠的樣本量。
要運(yùn)行多個(gè)銷(xiāo)售周期(通常為 2-4 周)。如果你只是在幾天內(nèi)就停止測(cè)試（或者在達(dá)到所需的樣本量之后就停止），那么你獲得的這個(gè)樣本結(jié)果，并不具有代表性。
統(tǒng)計(jì)學(xué)的顯著性至少要達(dá)到 95%（p≤0.05）。值得注意的是，p 值沒(méi)有辦法告訴我們 B 比 A 的方案好。

這里有一個(gè)經(jīng)典的例子來(lái)說(shuō)明我的觀點(diǎn)，下表為開(kāi)始測(cè)試兩天后的結(jié)果：

A/B 測(cè)試中 12 個(gè)常見(jiàn)的誤區(qū)（上）

圖 1. 圖片來(lái)源于網(wǎng)絡(luò)

我構(gòu)建的新版本損失慘重，我構(gòu)建的版本并沒(méi)有太大的優(yōu)勢(shì)，而我的客戶也已經(jīng)開(kāi)始準(zhǔn)備停用這個(gè)方案。但是，由于樣本量太小（每次變化只有 100 多次訪問(wèn)），通過(guò)我的堅(jiān)持不懈，這是 10 天后的結(jié)果：

A/B 測(cè)試中 12 個(gè)常見(jiàn)的誤區(qū)（上）

圖 2. 圖片來(lái)源于網(wǎng)絡(luò)

你沒(méi)看錯(cuò)，我制造的版本現(xiàn)在以 95％的置信率獲勝。

有些A / B測(cè)試結(jié)束得過(guò)早，這就需要我們仔細(xì)檢查各種數(shù)據(jù)。而最糟糕的事情就是，因?yàn)椴粶?zhǔn)確的數(shù)據(jù)，讓你損失了大量的時(shí)間與金錢(qián)。

需要多大的樣本量？

通過(guò)上面的介紹，我們都不希望根據(jù)較小的樣本量得出結(jié)論。理想的狀態(tài)下，一個(gè)好的測(cè)試版本最好能發(fā)生至少 350-400 次轉(zhuǎn)換數(shù)據(jù)。但是，這個(gè)數(shù)字不是定值。我們不要被一個(gè)號(hào)碼困住，因?yàn)槲覀兪种械氖强茖W(xué)，而不是魔術(shù)。

所以，你一定要提前估算出測(cè)試所需要的樣本量。那么即使這樣做了，但置信度還是低于 95％怎么辦？那么可以從細(xì)分領(lǐng)域下手，但你仍需要為每個(gè)測(cè)試的細(xì)節(jié)提供足夠的樣本量。無(wú)論如何，你都需要不斷修改你的假設(shè)并進(jìn)行新的測(cè)試。

二、測(cè)試的單位不是“周”

假設(shè)你有一個(gè)高流量網(wǎng)站，你在三天內(nèi)實(shí)現(xiàn)了 98％的置信度，并且每次都發(fā)生了至少 350 次的轉(zhuǎn)換數(shù)據(jù)。

這樣能算完成了測(cè)試嗎？不，我們需要排除周期性因素并測(cè)試整整一周。如果你從上周一開(kāi)始測(cè)試，那么這個(gè)測(cè)試需要在下周一停止。

為什么？因?yàn)槟愕霓D(zhuǎn)化率可能會(huì)因“今天是星期幾”而有很大差異。如果你一次不測(cè)試整整一周，那么你的結(jié)果就會(huì)出現(xiàn)偏差。所以，你需要以“周”為單位，在你的網(wǎng)站上運(yùn)行“每日轉(zhuǎn)化次數(shù)”的報(bào)告，觀察到底能產(chǎn)生多少波動(dòng)。

下面是一個(gè)例子：

A/B 測(cè)試中 12 個(gè)常見(jiàn)的誤區(qū)（上）

圖 3. 圖片來(lái)源于網(wǎng)絡(luò)

你看到上表中的內(nèi)容了嗎？

星期四的收入比星期六和星期日的總和還多出 2 倍，星期四的轉(zhuǎn)換率幾乎是星期六的 2 倍。如果我們沒(méi)有以“周”為單位進(jìn)行測(cè)試，那么結(jié)果將是不準(zhǔn)確的，所以，必須開(kāi)始一次運(yùn)行七天的測(cè)試。如果在這七天內(nèi)沒(méi)有出現(xiàn)差異顯著的結(jié)果，則再運(yùn)行七天。如果 14 天都沒(méi)有達(dá)到，那么就運(yùn)行到第 21 天。

多數(shù)情況下，你需要至少運(yùn)行兩周的測(cè)試（我的個(gè)人最低時(shí)間是四周，因?yàn)閮芍芡ǔＪ遣粶?zhǔn)確的），然后，如果你需要延長(zhǎng)測(cè)試時(shí)間，則應(yīng)用七天規(guī)則逐步疊加。

注意外部因素

如果你在雙十一等一些購(gòu)物季獲得了良好的測(cè)試結(jié)果，那么你一定要在購(gòu)物季結(jié)束后再次進(jìn)行重復(fù)的測(cè)試。另外，如果你的公司鋪設(shè)了一些電視廣告或者其他大型活動(dòng)，都可能會(huì)影響你的測(cè)試結(jié)果。你必須要了解你的公司正在做什么，因?yàn)橥獠恳蛩貢?huì)影響到你的測(cè)試結(jié)果。

三、沒(méi)有足夠的流量也進(jìn)行 A/B 測(cè)試

如果你每月只能完成一次或兩次銷(xiāo)售，然后進(jìn)行測(cè)試，結(jié)果顯示 B 方案比 A 方案的轉(zhuǎn)化率高 15%，這樣的結(jié)果準(zhǔn)確嗎？

當(dāng)然不。許多人都喜歡用 A / B 測(cè)試來(lái)驗(yàn)證假設(shè)，但流量較小的情況下，即使版本 B 的效果再好，也可能需要數(shù)月才能達(dá)到統(tǒng)計(jì)顯著性。

不基于假設(shè)就進(jìn)行測(cè)試

我喜歡意大利面，但我對(duì)意大利面條柔韌度的測(cè)試卻沒(méi)多大興趣，比如將它扔在墻上，看它是否粘住墻壁？

這其實(shí)是一種隨意的測(cè)試想法，而測(cè)試這種隨機(jī)想法需要付出巨大代價(jià)，它會(huì)浪費(fèi)你寶貴的時(shí)間和流量，所以永遠(yuǎn)不要那樣做。你需要有一個(gè)假設(shè)。假設(shè)的提出要根據(jù)有限的證據(jù)，這個(gè)證據(jù)可以通過(guò)實(shí)驗(yàn)去被證明，并且作為一個(gè)新的研究起點(diǎn)。

如果你在沒(méi)有明確假設(shè)的情況下進(jìn)行 A/B 測(cè)試，然后發(fā)現(xiàn) B 方案的轉(zhuǎn)化率高了 15％，可是你從中學(xué)到了什么？

什么沒(méi)有。我們需要了解我們的受眾，獲得合理的假設(shè)，這將有助于我們更好地改進(jìn)貼合實(shí)際的測(cè)試。

四、不利用大數(shù)據(jù)分析平臺(tái)

測(cè)試的平均值往往包含著謊言。如果 A 方案比 B 方案的轉(zhuǎn)化率高出 10％，但也并不能代表全部。你需要將其中的指標(biāo)再次進(jìn)行分割測(cè)試，去分析其中的各項(xiàng)細(xì)分指標(biāo)。你可以使用一些優(yōu)質(zhì)的大數(shù)據(jù)分析工具，利用各種分析模型，對(duì)數(shù)據(jù)進(jìn)行細(xì)致地分析和處理。

A/B 測(cè)試中 12 個(gè)常見(jiàn)的誤區(qū)（上）

圖 4. 圖片來(lái)源于神策數(shù)據(jù)

五、為了不值得的問(wèn)題進(jìn)行測(cè)試

你測(cè)試過(guò)用戶喜歡什么顏色，對(duì)嗎？

請(qǐng)趕快停止吧。世界上哪里有最好的顏色，因?yàn)轭伾冀K與視覺(jué)層次結(jié)構(gòu)有關(guān)。當(dāng)然，你可以在網(wǎng)上找到有人通過(guò)測(cè)試顏色從而獲得收益，但這些結(jié)果很多都是顯而易見(jiàn)的，所以，不要把時(shí)間浪費(fèi)在這些測(cè)試上。

余下的 6 個(gè)誤區(qū)，未完待續(xù)，歡迎大家持續(xù)關(guān)注。

原文來(lái)源：https://conversionxl.com

原文作者：Peep Laja

翻譯：研如玉，神策數(shù)據(jù)·用戶行為洞察研究院公眾號(hào)（ID：SDResearch）

本文由 @研如玉翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載

題圖來(lái)自Unsplash，基于CC0協(xié)議

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

王瑞秋

神策數(shù)據(jù) 內(nèi)容營(yíng)銷(xiāo)

37篇作品 464039總閱讀量

阿里云、騰訊云、移動(dòng)云飆“價(jià)”：智能普惠成新風(fēng)向？

05-193028 瀏覽

未來(lái)十年，AIGC掀起內(nèi)容生產(chǎn)力變革？

01-034496 瀏覽

以假亂真？AI數(shù)字人+外語(yǔ)學(xué)習(xí)功能讓用戶“相見(jiàn)恨晚”

11-166459 瀏覽

靠打鐵花視頻漲粉百萬(wàn)，“江尋千”為何能夠頻頻出圈？

06-259372 瀏覽

AR界面在不同Dof下的設(shè)計(jì)

11-303698 瀏覽

評(píng)論

汪仔6541

測(cè)試用例

最近來(lái)自河北回復(fù)
Eric

前文描述的說(shuō)會(huì)收到星期幾的因素所影響數(shù)據(jù)，其實(shí)是不正確的，因?yàn)榧热皇亲鯝B Test，他的對(duì)比因素是相同的
也就是說(shuō)，實(shí)驗(yàn)組和對(duì)照組都是星期一或星期六等，判斷一個(gè)AB平臺(tái)是否準(zhǔn)確，具有可參考意義，要看樣本的分流是否平均
還要根據(jù)樣本數(shù)，設(shè)定置信區(qū)間，當(dāng)樣本數(shù)小的情況下，數(shù)據(jù)波動(dòng)的范圍會(huì)較大，但如果是非常大的樣本數(shù)，比如100萬(wàn)對(duì)比100萬(wàn)的數(shù)據(jù)，即使是1-2天，0.1%的數(shù)據(jù)也是顯著置信的~

最近來(lái)自上海回復(fù)
1. 王瑞秋作者回復(fù)Eric
  
  嗯嗯是把可能出現(xiàn)的誤區(qū)都提出來(lái)了呢 ~
  
  最近來(lái)自北京回復(fù)