AI應(yīng)用實(shí)例分析——文本糾錯

8 評論 5356 瀏覽 27 收藏 7 分鐘

編輯導(dǎo)語:AI在現(xiàn)實(shí)中的應(yīng)用有很多,你有沒有想過,它還可以進(jìn)行文本糾錯呢?傳統(tǒng)的校對既耗時又枯燥,通過AI糾錯,不僅能更快完成,還能提高準(zhǔn)確度。那么AI“文本糾錯”背后的原理是什么呢?和我一起看看吧!

前面跟大家分享了AI開放平臺的相關(guān)內(nèi)容,之后想圍繞AI應(yīng)用實(shí)例這塊跟大家分享交流,這節(jié)主要講述跟NLP相關(guān)的一個應(yīng)用實(shí)例——“文本糾錯”。

一、背景

雖然這幾年短視頻在內(nèi)容傳播方面發(fā)展得很火,但是文稿仍然占據(jù)重要地位。而文稿傳播最重要的一點(diǎn)就是信息的準(zhǔn)確性,尤其是一些有知名度的正式平臺更是會在文稿發(fā)送前進(jìn)行校對修正。

傳統(tǒng)的人工校對工作量是非常大的,一篇5000字的文稿完成校對差不多需要1-2個小時,對于校稿人員來說既耗時又枯燥。有一家內(nèi)容平臺就提出,希望我們通過AI能力提供快速校對工具,主要針對中文文稿,幫助校稿人員和編輯人員減少內(nèi)容錯誤。

為了滿足該需求,我們基于NLP技術(shù)提供了文本糾錯服務(wù)。

二、關(guān)鍵技術(shù)

文本糾錯中用到的技術(shù)的前世今生在這不過多介紹了,目前文本糾錯的主流方向還是使用機(jī)器學(xué)習(xí)的方式來完成,其中需要用到的核心技術(shù)主要包括語言知識學(xué)習(xí)、上下文理解和知識計(jì)算。

  • 語言知識學(xué)習(xí):可以理解為是對語言規(guī)則等先驗(yàn)知識的學(xué)習(xí),通過學(xué)習(xí)詞法、句法等規(guī)則進(jìn)行語言模型構(gòu)建,例如中英文的主謂賓結(jié)構(gòu)就是不一樣的。
  • 上下文理解:是指分析錯誤點(diǎn)上下文語境和語義,從糾錯候選中選擇最合適的。尤其是中文,相同的詞匯在不同語境中往往表達(dá)不同的含義。
  • 知識計(jì)算:知識計(jì)算主要包括關(guān)聯(lián)知識計(jì)算和文本理解,關(guān)聯(lián)知識主要是通過對全局知識的統(tǒng)計(jì)來實(shí)現(xiàn)糾錯,可以是局部不完整語句的補(bǔ)充。文本理解是通過統(tǒng)計(jì)理解全局句子內(nèi)容,解決低頻領(lǐng)域知識的泛化問題。

三、產(chǎn)品設(shè)計(jì)

1. 應(yīng)用場景

(1)用戶場景:審稿或者編輯人員輸入中文文字信息,系統(tǒng)自動糾錯,并給出修改建議,審稿人員對錯誤快速修訂。

(2)應(yīng)用邊界:

  • 支持用詞錯誤檢測,針對音近、形近的錯字和別字進(jìn)行糾正
  • 支持句子級錯誤檢測,主要是針對句子中出現(xiàn)的多字、少字等錯誤,相對難度校大。
  • 支持場景類錯誤糾正,這類錯誤需要具備一些特定領(lǐng)域的知識才能識別糾錯,所以盡量支持。

2. 產(chǎn)品定位

  • 產(chǎn)品定位:為應(yīng)用工具型產(chǎn)品,實(shí)現(xiàn)中文文本自動糾錯功能。
  • 用戶定位:滿足兩類B端用戶,第一類針對具備自主的文稿編輯工具,提供API服務(wù),與現(xiàn)有系統(tǒng)進(jìn)行改造融合;第二類是針對缺少文稿編輯工具的用戶,提供web頁面功能。

3. 產(chǎn)品業(yè)務(wù)流程

產(chǎn)品核心業(yè)務(wù)流程主要是產(chǎn)品端和算法端的交互,具體業(yè)務(wù)流程如下:

4. 產(chǎn)品功能設(shè)計(jì)

(1)頁面功能設(shè)計(jì)

頁面核心功能主要包括如下:支持內(nèi)容上傳、內(nèi)容審查、結(jié)果確認(rèn)和內(nèi)容下載。

主要頁面設(shè)計(jì)如下:

(2)API接口設(shè)計(jì)

包括內(nèi)容糾錯請求接口和結(jié)果回調(diào)接,分別用于內(nèi)容審查糾錯和結(jié)果返回,以下描述主要的輸入和輸出參數(shù):

  • 輸入:接口鑒權(quán)、文本內(nèi)容、文本編碼格式等。
  • 輸出:文本分析結(jié)果,包括源文本、糾錯文本、文本位置,置信度。

5. 評估指標(biāo)

產(chǎn)品上線前,需要對產(chǎn)品的性能進(jìn)行評估,主要包括三個指標(biāo):誤報率、召回率和處理時間。

  • 誤報率:代表正確的句子被改錯的比率,等于正確句子被糾錯的個數(shù)/正確句子的個數(shù)。
  • 召回率:代表錯誤的句子被全部糾正的比率,等于含有錯誤的句子被改正的數(shù)量/所有含錯誤的句子數(shù)量。
  • 處理性能:代表處理多少個字符的耗時,單位是千字耗時,s/千字符。

四、結(jié)論

文本糾錯是NLP非?;A(chǔ)的場景應(yīng)用,但是實(shí)際業(yè)務(wù)價值卻是很大的。在具體業(yè)務(wù)場景應(yīng)用方面不僅可以用在在媒體編輯、電子病歷等輸入文本糾錯,還可以應(yīng)用于語音搜索、客服問答等業(yè)務(wù)。

 

本文由@Eric_d 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議

專欄作家

Eric_d,人人都是產(chǎn)品經(jīng)理專欄作家。關(guān)注AI、大數(shù)據(jù)等領(lǐng)域,擅長需求分析、產(chǎn)品流程和架構(gòu)設(shè)計(jì)等,日常喜歡徒步。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 我的天呢,現(xiàn)在真的能智能糾錯嗎,這可真的是太神奇了,看來又要有一部分人做好轉(zhuǎn)行的準(zhǔn)備啦~

    來自河南 回復(fù)
    1. 已經(jīng)在用了啊,但是還需要人工去做復(fù)查,確保不會被誤判,不過相對純?nèi)斯み€是會很大提供工作效率的啦
      ps:闊以轉(zhuǎn)行做AI工具啊~,hhh

      來自上海 回復(fù)
  2. ??!那以后會不會校對就沒有工作了啊,AI能校對語法錯別字,但校對不了感情的表達(dá)呀

    來自云南 回復(fù)
    1. 不會的啊,除非算法能做到萬無一失,不然還是需要人工的參與,只是人工效率提升了呀~

      來自上海 回復(fù)
  3. 改正錯字還可以,但是如果技術(shù)不夠,那就不是一項(xiàng)好的想法了,未來該不會是AI評改作文吧

    來自中國 回復(fù)
    1. 應(yīng)該不至于全靠AI的,畢竟還有很多情感問題是AI解決不了的

      來自上海 回復(fù)
  4. 網(wǎng)絡(luò)上太多的諧音梗很容易造成詞匯正確拼寫的混淆,真真假假分不清了現(xiàn)在

    來自廣東 回復(fù)
    1. 是的啦,很多諧音梗是容易造成誤判,主要還是實(shí)際場景要不要將這個諧音詞當(dāng)做是錯誤的,比如數(shù)智化,也基本被接受了,所以可以考慮訓(xùn)練時注意或者加入白名單

      來自上海 回復(fù)