移動(dòng)APP可用性測(cè)試:數(shù)據(jù)的量化處理(下)

8 評(píng)論 17761 瀏覽 80 收藏 14 分鐘

作為一名用戶(hù)研究從業(yè)者,想找到一本真正可以用來(lái)指導(dǎo)實(shí)踐的資料卻是十分難得。本文是繼《移動(dòng)APP可用性測(cè)試(上篇):實(shí)驗(yàn)室測(cè)試與現(xiàn)場(chǎng)測(cè)試對(duì)比》后的第二篇《量化研究》,主要和大家來(lái)聊一聊,拿到可用性測(cè)試數(shù)據(jù)后的量化方式。綜合上下兩篇文章的主旨來(lái)看,解答了如何科學(xué)地選擇測(cè)試場(chǎng)地、如何量化可用性測(cè)試結(jié)果的兩個(gè)“冷門(mén)問(wèn)題”。

量化數(shù)據(jù)

用戶(hù)研究從業(yè)者常常在做可用性測(cè)試的時(shí)候碰到這樣的問(wèn)題,可用性測(cè)試作為一種定性的研究方法,拿到完成率、完成時(shí)間以及滿(mǎn)意度等結(jié)果時(shí)是簡(jiǎn)單做下描述性統(tǒng)計(jì)分析(畢竟我們稱(chēng)之為定性),還是可以進(jìn)一步量化、標(biāo)準(zhǔn)化比較呢?

不是所有的數(shù)據(jù)都可以拿來(lái)量化,這取決于這是哪一種可用性測(cè)試。

美國(guó)教育家和心理學(xué)家Scriven(1967)曾將用來(lái)測(cè)試學(xué)習(xí)成果的考試分為兩類(lèi),一類(lèi)是Formative test即形成性測(cè)試,目的是通過(guò)及時(shí)的反饋來(lái)改進(jìn)學(xué)習(xí)(例如隨堂聽(tīng)寫(xiě));另一類(lèi)是Summative testF即總結(jié)性測(cè)試,目的是通過(guò)測(cè)試成績(jī)來(lái)評(píng)估學(xué)習(xí)的效果(例如期末考試)。

那么,可用性測(cè)試如果也分為形成性測(cè)試和總結(jié)性測(cè)試的話(huà),結(jié)果會(huì)有什么差異嗎?

形成性測(cè)試

大部分的可用性測(cè)試都是形成性測(cè)試,以查找和修復(fù)可用性問(wèn)題為目的,數(shù)據(jù)也是以問(wèn)題描述和設(shè)計(jì)建議的形式來(lái)輸出。這時(shí)候的量化一般僅以問(wèn)題發(fā)生頻率和嚴(yán)重等級(jí)為代表,任務(wù)完成率、完成時(shí)間因沒(méi)有可對(duì)比性,所以只做描述性分析。

總結(jié)性測(cè)試

而總結(jié)性測(cè)試既然目的是用數(shù)據(jù)指標(biāo)去度量一個(gè)應(yīng)用程序的可用性,那么這個(gè)指標(biāo)必然需要一個(gè)可以比較的對(duì)象,不然又如何去評(píng)價(jià)這個(gè)指標(biāo)代表的可用性到底是好還是壞。如果以“比較的對(duì)象”來(lái)劃分,總結(jié)性測(cè)試則又可以分為“基準(zhǔn)測(cè)試”和“比較測(cè)試”。

(1)基準(zhǔn)可用性測(cè)試

基準(zhǔn)可用性測(cè)試的目標(biāo)是描述一個(gè)應(yīng)用程序相對(duì)于基準(zhǔn)目標(biāo)的可用性程度(如用你的每門(mén)期末考試的成績(jī)?nèi)ズ椭邦A(yù)定的目標(biāo)成績(jī)進(jìn)行比較),那么這也就提供了改善產(chǎn)品修復(fù)問(wèn)題的著力點(diǎn)(哪門(mén)課沒(méi)達(dá)到預(yù)期目標(biāo)就重點(diǎn)復(fù)習(xí)),同時(shí)為比較改善后的效果提供了基線(xiàn)(重點(diǎn)復(fù)習(xí)后下次考試是否達(dá)到目標(biāo))。

(2)比較可用性測(cè)試

比較可用性測(cè)試,一般設(shè)計(jì)兩個(gè)及以上的應(yīng)用程序進(jìn)行比較??梢允钱?dāng)前版本與前期舊版本的比較,或者是競(jìng)品之間的比較。如果去設(shè)計(jì)一場(chǎng)比較可用性測(cè)試你需要考慮清楚是“被試內(nèi)測(cè)試”(相同的用戶(hù)完成所有產(chǎn)品的任務(wù))還是“被試間測(cè)試”(不同的用戶(hù)分別完成不同產(chǎn)品的任務(wù))。

  • 被試內(nèi)測(cè)試:在用戶(hù)數(shù)較少(或能夠給予的酬金有限,無(wú)法邀請(qǐng)多人參與)時(shí)可以考慮讓每個(gè)用戶(hù)分別去完成各款產(chǎn)品的測(cè)試,但是必須要切記不能讓所有用戶(hù)在每個(gè)產(chǎn)品上的先后順序保持一致(打破順序效應(yīng))。
  • 被試間測(cè)試:在用戶(hù)數(shù)充足時(shí)可以考慮每款產(chǎn)品分別找不同的用戶(hù)進(jìn)行測(cè)試,但是這里需要注意的則是必須保證每款產(chǎn)品間的用戶(hù)個(gè)體差異不大(即有相似的年齡、性別、學(xué)習(xí)經(jīng)歷、競(jìng)品使用經(jīng)歷),如果需要在每組內(nèi)劃分為新手用戶(hù)、中間用戶(hù)、專(zhuān)家用戶(hù),則須保證各組中三類(lèi)角色的人數(shù)占比一致。

圖2

數(shù)據(jù)統(tǒng)計(jì)

雖然對(duì)如何測(cè)量有效性、效率和滿(mǎn)意度沒(méi)有具體的指導(dǎo)方針,但Sauro and Lewis在一項(xiàng)針對(duì)近100個(gè)總結(jié)性可用性測(cè)試的調(diào)研揭示了從業(yè)者收集的典型數(shù)據(jù)。大多數(shù)的測(cè)試包含任務(wù)完成率(失敗率)、任務(wù)時(shí)間、主觀評(píng)價(jià)、尋求幫助的次數(shù)、可用性問(wèn)題清單(通常包括問(wèn)題頻次和嚴(yán)重等級(jí))。

本文主要就以上幾個(gè)指標(biāo)的量化處理進(jìn)行介紹,更多可用性測(cè)試中收集測(cè)量指標(biāo)的實(shí)操技巧,請(qǐng)參見(jiàn)《A Practical Guide to Measuring Usability》(Sauro,2010)和《Measuring the User Experience》(Tullis andAlbert,2008)。

任務(wù)完成率

(1)定義

也稱(chēng)為成功率,是最基礎(chǔ)的可用性測(cè)量指標(biāo)(Nielsen,2001)。

(2)計(jì)算

通常以二進(jìn)制測(cè)量形式采集,以任務(wù)成功完成以編碼1、失敗為編碼0。

注:二進(jìn)制完成率即是基礎(chǔ)可用性度量指標(biāo),也是應(yīng)用到所有科學(xué)領(lǐng)域的度量指標(biāo)。

圖3

圖4

(3)置信區(qū)間

雖然我們計(jì)算出A產(chǎn)品任務(wù)1的完成率為80%(10個(gè)人中有8人完成)但是我們卻沒(méi)有辦法保證當(dāng)樣本數(shù)量為幾百人、幾千人,甚至當(dāng)我們有上萬(wàn)用戶(hù)在使用這個(gè)功能時(shí),完成率還會(huì)是80%。

如果想要知道在未知的用戶(hù)總數(shù)中能夠完成該任務(wù)的比例范圍,我們需要在這一樣本范圍上計(jì)算出一個(gè)二項(xiàng)式的置信區(qū)間。Wald校正區(qū)間二項(xiàng)式置信區(qū)間是最常用的方法,對(duì)于任何一種被編為二進(jìn)制碼的測(cè)試都適用。并且除完成率外,另一種衡量可用性的常用方法是統(tǒng)計(jì)遇到了同一問(wèn)題的用戶(hù)數(shù)。在使用Wald校正區(qū)間公式時(shí),如果3/5的用戶(hù)遇到了UI設(shè)計(jì)上的一個(gè)問(wèn)題,那么我們可以95%的肯定,所有實(shí)際用戶(hù)中23%-88%比例的人可能遇到了同樣的問(wèn)題。

任務(wù)完成時(shí)間

(1)定義

即用戶(hù)花費(fèi)在一個(gè)任務(wù)上的時(shí)間,通常為成功完成一個(gè)預(yù)先設(shè)置的任務(wù)場(chǎng)景的時(shí)間總和。測(cè)量和分析任務(wù)持續(xù)時(shí)間的方式一般有三種:

  1. 任務(wù)完成時(shí)間:用戶(hù)成功完成任務(wù)的時(shí)間;
  2. 直到用戶(hù)失敗為止所用的時(shí)間:從開(kāi)始直到用戶(hù)放棄或者未正確完成任務(wù)的時(shí)間;
  3. 任務(wù)總時(shí)間:用戶(hù)花費(fèi)在一個(gè)任務(wù)上的總持續(xù)時(shí)間。

(2)測(cè)量單位

可以是毫秒、秒、分鐘、小時(shí)、天或年,通常以均值(算術(shù)平均數(shù)或中位數(shù),兩者適用場(chǎng)景不同)。

(3)算術(shù)平均數(shù) VS 中位數(shù)

到目前為止,我們最常用的是將算術(shù)平均數(shù)作為衡量集中趨勢(shì)和等級(jí)量表的平均數(shù)代表,但是當(dāng)樣本分布呈現(xiàn)為左偏態(tài)和右偏態(tài)時(shí),中位數(shù)明顯要比算術(shù)平均數(shù)更加合適(當(dāng)為正太分布時(shí)中位數(shù)與算術(shù)平均數(shù)相近)。這樣說(shuō)來(lái),是否以后都用中位數(shù)來(lái)報(bào)告平均任務(wù)時(shí)長(zhǎng)就萬(wàn)事大吉了?答案是NO,別忘記了中位數(shù)與生俱來(lái)的兩大缺點(diǎn):變異性與偏差。關(guān)于中位數(shù)的變異性與偏差有疑問(wèn)的同學(xué)可查資料或者后臺(tái)留言哦,篇幅關(guān)系這里就不拓展解釋了。

圖5

(4)幾何均值的計(jì)算方法

對(duì)于小樣本而言(小于25人),幾何均值比中位數(shù)、算術(shù)平均數(shù)都更適用(Sauro and Lewis,2010)。對(duì)于樣本量更大的可用性測(cè)試而言,中位數(shù)則是最合適的估算方法。計(jì)算幾何均值,首先要將原始任務(wù)時(shí)長(zhǎng)數(shù)據(jù)進(jìn)行對(duì)數(shù)轉(zhuǎn)換,然后計(jì)算所得到轉(zhuǎn)化值的平均數(shù),最后再將其轉(zhuǎn)化回原尺度。工具上可以用Excel函數(shù)=LN( )進(jìn)行對(duì)數(shù)轉(zhuǎn)換運(yùn)算,或者使用大多數(shù)計(jì)算器上都有的“l(fā)n”按鈕。

滿(mǎn)意度評(píng)分

(1)定義

即用戶(hù)使用系統(tǒng)時(shí)感知到的主觀評(píng)價(jià),可在完成一項(xiàng)任務(wù)之后立即完成(任務(wù)評(píng)估問(wèn)卷),也可以一系列可用性環(huán)節(jié)結(jié)束后完成(整體評(píng)估問(wèn)卷),更可以獨(dú)立于可用性測(cè)試使用。

圖6

(2)測(cè)量工具

雖然可以自己編寫(xiě)感知易用性的問(wèn)題,但采用當(dāng)前可使用的標(biāo)準(zhǔn)化問(wèn)卷,評(píng)估結(jié)果會(huì)更加可靠。對(duì)用研來(lái)說(shuō)標(biāo)準(zhǔn)化問(wèn)卷是最熟悉的工具與助手,這類(lèi)可重復(fù)使用的問(wèn)卷,一般由一組特定的問(wèn)題+使用特定的格式+按照特定的順序呈現(xiàn),基于用戶(hù)的答案產(chǎn)生度量值后也用特地的方法進(jìn)行統(tǒng)計(jì)?;诓煌难芯繉?duì)象和目的,可選用的標(biāo)準(zhǔn)化問(wèn)卷也不盡相同,所有的標(biāo)準(zhǔn)化問(wèn)卷都有其優(yōu)點(diǎn)和缺點(diǎn),每種問(wèn)卷都或許在你特定的情況下是最合適的。

常見(jiàn)標(biāo)準(zhǔn)化量表:

圖7

(3)比較方法

如果要判斷例如SUS可用性評(píng)分、NPS或者任務(wù)時(shí)長(zhǎng)此類(lèi)連續(xù)變量的均值之間是否存在顯著差異,你首先需要明確的是這是場(chǎng)被試間測(cè)試還是被試內(nèi)測(cè)試。并且對(duì)于不同的數(shù)據(jù)類(lèi)型(連續(xù)變量or 分類(lèi)變量)、用戶(hù)小組數(shù)、樣本數(shù),均有不同的統(tǒng)計(jì)方法。

下圖為連續(xù)型數(shù)據(jù)(滿(mǎn)意度評(píng)分、任務(wù)時(shí)長(zhǎng))選擇統(tǒng)計(jì)方法的決策圖。離散型二進(jìn)制數(shù)據(jù)(任務(wù)完成率)的統(tǒng)計(jì)決策圖,后面有時(shí)間會(huì)補(bǔ)上。

圖8

可用性問(wèn)題清單

(1)定義

一般包括所屬模塊、問(wèn)題編號(hào)、問(wèn)題描述、問(wèn)題層級(jí)(一到四級(jí))、處理優(yōu)先級(jí)以及跟進(jìn)人。

嚴(yán)重等級(jí)判斷與可用性準(zhǔn)則這里就不重復(fù)介紹了,此前的上篇已介紹過(guò)。

(2)問(wèn)題優(yōu)先級(jí)的計(jì)算方式

[(問(wèn)題頻數(shù)X4)/總參與人數(shù)]+嚴(yán)重等級(jí)

如一個(gè)UI問(wèn)題被提到3次,總參與人數(shù)為10人,嚴(yán)重等級(jí)為三級(jí)(一級(jí)最高),那么相應(yīng)的優(yōu)先級(jí)則計(jì)算為四級(jí)(4.2四舍五入為4),即表示該UI問(wèn)題的修復(fù)優(yōu)先級(jí)為最低四級(jí)。

但是在實(shí)際工作中,可用性測(cè)試中發(fā)現(xiàn)的問(wèn)題,當(dāng)確定好嚴(yán)重等級(jí)后,修復(fù)的優(yōu)先級(jí)除了問(wèn)題頻數(shù),還需要綜合考慮開(kāi)發(fā)成本、業(yè)務(wù)成本,最后需要用研人員與產(chǎn)品經(jīng)理共同確定修復(fù)問(wèn)題的優(yōu)先級(jí)。上方公式僅可作為用研根據(jù)問(wèn)題頻次與嚴(yán)重等級(jí)去判斷修復(fù)優(yōu)先級(jí)的算法之一。

總結(jié)

關(guān)于可用性測(cè)試中收集的指標(biāo)如何量化,本篇中就介紹到這里。其實(shí)對(duì)于可探索、可深究的問(wèn)題仍有許多,例如一個(gè)復(fù)合型的度量指標(biāo)是否可以全權(quán)代表可用性測(cè)試中其他指標(biāo)?小樣本數(shù)據(jù)的量化是否真的可以達(dá)到一個(gè)可靠的置信區(qū)間?

帶著問(wèn)題希望大家可以繼續(xù)深入探討,本次拋磚引玉的介紹就到這里,歡迎交流。

 

作者:媛媛大王(微信公眾號(hào):用戶(hù)研究社?),資深用戶(hù)研究員

本文由 @媛媛大王 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 專(zhuān)家~有個(gè)問(wèn)題想請(qǐng)教下,像「任務(wù)完成率」「任務(wù)完成時(shí)長(zhǎng)」「錯(cuò)誤次數(shù)」「提示次數(shù)」這些指標(biāo),能否捏合成一個(gè)上一層的定量指標(biāo)?有沒(méi)有相關(guān)的案例,比如在產(chǎn)品發(fā)展不同階段,通過(guò)不同指標(biāo)整合的公式來(lái)測(cè)量對(duì)比提升的效果這樣的?求分享~

    來(lái)自北京 回復(fù)
  2. 那個(gè)圖里,左右偏態(tài)說(shuō)反啦

    來(lái)自北京 回復(fù)
  3. 對(duì)【問(wèn)題優(yōu)先級(jí)的計(jì)算方式】有個(gè)疑惑,比如一個(gè)問(wèn)題被提到8次,總參與人數(shù)為10人,嚴(yán)重等級(jí)為三級(jí),那么按您說(shuō)的計(jì)算則為8*4/10+3=6.2,那么應(yīng)該屬于1、2、3、4哪個(gè)級(jí)別?

    來(lái)自北京 回復(fù)
  4. 學(xué)習(xí)了

    來(lái)自北京 回復(fù)
  5. 標(biāo)準(zhǔn)化量表確實(shí)非常少,這些量表都有相當(dāng)?shù)睦碚摶A(chǔ)但對(duì)于告訴發(fā)展的互聯(lián)網(wǎng),略顯的有些遲鈍。我原來(lái)發(fā)表過(guò)一篇關(guān)于sus量表的文章,歡迎交流

    來(lái)自北京 回復(fù)
    1. 厲害了word哥

      來(lái)自北京 回復(fù)
    2. 的確,從國(guó)外引進(jìn)的量表很多未經(jīng)過(guò)國(guó)內(nèi)市場(chǎng)的改編,對(duì)于互聯(lián)網(wǎng)產(chǎn)品的適應(yīng)力較差,所以基本我們?cè)谟玫臅r(shí)候都會(huì)根據(jù)公司的產(chǎn)品和用戶(hù)特性進(jìn)行調(diào)整,歡迎交流~!

      來(lái)自浙江 回復(fù)
    3. 我這里還有一篇《SUS 量表在用戶(hù)體驗(yàn)度量中的應(yīng)用》顯示正在排版,可能是小編要控制每天產(chǎn)量,到時(shí)再交流

      來(lái)自浙江 回復(fù)