AI(NLP語(yǔ)義方向)標(biāo)注工具產(chǎn)品設(shè)計(jì)的5個(gè)錦囊

5 評(píng)論 6734 瀏覽 46 收藏 7 分鐘

編輯導(dǎo)讀:數(shù)據(jù)是AI公司的必需品,數(shù)據(jù)標(biāo)注是AI產(chǎn)品模型開(kāi)發(fā)中重要的一環(huán),也是AI產(chǎn)品經(jīng)理必須要了解的基本技術(shù),本文作者從認(rèn)知基礎(chǔ)、為什么我們需要標(biāo)注、錦囊三個(gè)方面對(duì)AI標(biāo)注工具的產(chǎn)品設(shè)計(jì)工作展開(kāi)了分析說(shuō)明,與大家分享。

一、認(rèn)知基礎(chǔ)

個(gè)人觀點(diǎn)的認(rèn)知基礎(chǔ)如下,如果讀者不認(rèn)同50%以上,那么就沒(méi)必要浪費(fèi)時(shí)間閱讀后續(xù)內(nèi)容了,反之,我希望大家多質(zhì)疑與交流,通過(guò)Q&A來(lái)共同進(jìn)步。

認(rèn)知1:人工智能發(fā)展粗略可以分3個(gè)階段:符號(hào)主義(第1階段)→ 聯(lián)結(jié)主義(第2階段)→ 理想AI(第3階段),我們將長(zhǎng)期(>30年)處于第2階段

符號(hào)主義:代表人物紐厄爾和西蒙,認(rèn)為人類的智能不管多復(fù)雜,歸根到底都是由符號(hào)計(jì)算來(lái)實(shí)現(xiàn)的。只要計(jì)算機(jī)科學(xué)家設(shè)計(jì)了適合的程序,計(jì)算機(jī)早晚有一天能憑著符號(hào)的計(jì)算,也能提出相對(duì)論、創(chuàng)造羅納爾多的射門、而剪紙捏泥人和書法篆刻就更不在話下。

符號(hào)主義的缺陷:很難在非常復(fù)雜的求解組合中快速找到最優(yōu)解。

聯(lián)結(jié)主義:代表人物大衛(wèi)休謨,認(rèn)為人工智能的首要任務(wù)是建立大腦的模型,不是預(yù)先給定解決問(wèn)題的算法,而是構(gòu)建一個(gè)在計(jì)算機(jī)上模擬的“神經(jīng)元網(wǎng)絡(luò)”,讓機(jī)器自主地建立不同神經(jīng)元之間的“聯(lián)結(jié)”,通過(guò)最終結(jié)果的反饋,不斷調(diào)整聯(lián)結(jié)的模式,最終逼近最優(yōu)解。

聯(lián)結(jié)主義的缺陷:過(guò)于依賴經(jīng)驗(yàn)數(shù)據(jù)

理想AI:感知智能+認(rèn)知智能+情感的主觀感受+自我意識(shí)

理想AI的缺陷:暫時(shí)無(wú)實(shí)現(xiàn)方案

認(rèn)知2:AI執(zhí)行語(yǔ)義理解任務(wù),當(dāng)前已經(jīng)到了技術(shù)成熟期,后續(xù)依賴產(chǎn)品力和數(shù)據(jù)

粗暴一點(diǎn)說(shuō),各家算法基本無(wú)差別(<10%)。以解決實(shí)際業(yè)務(wù)問(wèn)題、實(shí)現(xiàn)業(yè)務(wù)價(jià)值為衡量標(biāo)準(zhǔn)的話,產(chǎn)品的易用性(決定落地門檻/規(guī)模/效果)、組件化程度(決定成本),數(shù)據(jù)的數(shù)量和質(zhì)量,才是決定價(jià)值的砝碼。

認(rèn)知3:中國(guó)現(xiàn)階段(10年內(nèi))ToB市場(chǎng),大B的真需求都在自給自足,第三方服務(wù)中小B才是正途

大B只有探索型需求和偽需求(為了體制內(nèi)的升官發(fā)財(cái))才會(huì)留給第三方,所以一個(gè)第三方公司如果敢說(shuō)只做大B,那么一定是死路一條或者半死不活(無(wú)法建立壁壘/低利潤(rùn)率)

二、為什么我們需要標(biāo)注?

認(rèn)知1中提到“聯(lián)結(jié)主義的缺陷在于過(guò)度依賴經(jīng)驗(yàn)數(shù)據(jù)”,那經(jīng)驗(yàn)數(shù)據(jù)是什么?經(jīng)驗(yàn)數(shù)據(jù) = 已標(biāo)注數(shù)據(jù)。

未標(biāo)注數(shù)據(jù)只能用于無(wú)監(jiān)督機(jī)器學(xué)習(xí),當(dāng)前執(zhí)行99%以上AI任務(wù)的都是有監(jiān)督機(jī)器學(xué)習(xí)模型,預(yù)計(jì)未來(lái)30年以內(nèi)還會(huì)保持現(xiàn)狀。所以數(shù)據(jù)標(biāo)注就是繞不開(kāi)的檻。

三、錦囊

效率高是好的標(biāo)注工具的唯一標(biāo)準(zhǔn),所以3條錦囊全部都是圍繞語(yǔ)義標(biāo)注工具效率提升。

效率 = 認(rèn)知效率 + 操作效率 + 智能化,以下錦囊也都是沿著這3個(gè)提升效率的方向進(jìn)行的產(chǎn)品設(shè)計(jì)。

錦囊1:互斥性原則

語(yǔ)義模型本質(zhì)上是一個(gè)分類模型,分類最關(guān)鍵的是類別清晰,例如想想折磨我們的垃圾分類?;コ庑灾档镁褪遣煌愔g要做到不重不漏(漏的部分一定設(shè)置專門的“其他分類”來(lái)兜?。?。

具體到產(chǎn)品設(shè)計(jì)上,歧義優(yōu)化(根據(jù)向量相似度,自動(dòng)識(shí)別不同類之間存在交疊關(guān)系的語(yǔ)料),分類說(shuō)明(設(shè)置為必填項(xiàng))等都是互斥性原理的具體體現(xiàn)。

錦囊2:聚類冷啟動(dòng)

Bert無(wú)監(jiān)督聚類模型做冷啟動(dòng),“效果杠杠的,誰(shuí)用誰(shuí)知道”。缺失此模塊,數(shù)據(jù)標(biāo)注人員冷啟動(dòng)階段就全靠想象力“瞎編”。我見(jiàn)過(guò)太多數(shù)據(jù)人員編寫相似句(同一語(yǔ)義不同句式表達(dá)方式)寫到生無(wú)可戀。上線周期還會(huì)因?yàn)闃?biāo)注效率低和效果差一拖再拖。

錦囊3:By分類智能推薦待標(biāo)注語(yǔ)料

來(lái),這一條錦囊大家可以在評(píng)論區(qū)猜一猜是啥意思?

錦囊4:Badcase閉環(huán)調(diào)優(yōu)

語(yǔ)義模型調(diào)優(yōu) = 正向調(diào)優(yōu)(By準(zhǔn)確率)+ 反向調(diào)優(yōu)(By Badcase)

Badcase指模型判斷結(jié)果存在偏差的語(yǔ)料(來(lái)自于測(cè)試集+業(yè)務(wù)側(cè)收集反饋),是極其寶貴的復(fù)盤資料。設(shè)計(jì)原理是從點(diǎn)狀問(wèn)題(Badcase)順藤摸瓜找到本質(zhì)問(wèn)題(如ASR準(zhǔn)確率、語(yǔ)義分類體系問(wèn)題、存在大量歧義等)進(jìn)行解決。反向調(diào)優(yōu)可以極大提升模型的準(zhǔn)確率、覆蓋率等核心指標(biāo)。

錦囊5:隔離數(shù)據(jù)管理與標(biāo)注工具

若不進(jìn)行隔離,隨著產(chǎn)品功能復(fù)雜度的提升,標(biāo)注工具的認(rèn)知門檻會(huì)陡增??梢岳斫鉃閺N房里的原材料和鍋碗瓢盆混在一起丟到了一個(gè)櫥柜中。這將嚴(yán)重影響產(chǎn)品給用戶的確定感,會(huì)將標(biāo)注效率直接打6折。

結(jié)語(yǔ)

AI執(zhí)行語(yǔ)義任務(wù),標(biāo)注是繞不過(guò)的檻。但只要我們通過(guò)“傻瓜式工具”輔助用戶輕松邁過(guò)去,AI對(duì)真實(shí)場(chǎng)景的賦能價(jià)值將被放大100倍以上。

 

作者:張佳偉,AI產(chǎn)品經(jīng)理

本文由 @張佳偉 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 錦囊三 是訓(xùn)練一個(gè)分類模型,待標(biāo)注語(yǔ)料先通過(guò)分類模型預(yù)測(cè)一個(gè)類別,推薦給作為標(biāo)注人員作為標(biāo)注類別候選,是這個(gè)意思嗎?

    來(lái)自上海 回復(fù)
    1. 對(duì),是這樣的,實(shí)際應(yīng)用提效大約30%

      回復(fù)
  2. 錦囊說(shuō)清楚應(yīng)用的標(biāo)注任務(wù)類型會(huì)更好~

    來(lái)自廣東 回復(fù)
  3. 我完全看不懂篇文章 我還做了快一年的NLP自然語(yǔ)言處理UI設(shè)計(jì) 完了。。。

    回復(fù)
    1. 不不不,主要是這個(gè)文章太細(xì)分領(lǐng)域

      回復(fù)