ASR評測需要關(guān)注的指標和分析方式
隨著 ASR 技術(shù)廣泛應(yīng)用,其模型評測正邁向更科學、系統(tǒng)、多維度的階段。未來,構(gòu)建全面有效的評測體系將成為推動 ASR 技術(shù)發(fā)展、提升用戶語音交互體驗的關(guān)鍵。超越通用指標,采用更細致評測方法,將是未來的重要趨勢,以滿足不同場景和用戶對 ASR 模型的需求。
在人工智能浪潮的推動下,自動語音識別(Automatic Speech Recognition, ASR)技術(shù)已從實驗室走向千家萬戶,深刻改變了我們與設(shè)備交互的方式。從智能音箱到實時字幕,從會議轉(zhuǎn)錄到語音助手,ASR已成為數(shù)字基礎(chǔ)設(shè)施中不可或缺的一部分。
然而,并非所有ASR模型生而平等。一個在安靜環(huán)境下表現(xiàn)卓越的模型,可能在嘈雜的餐廳中一敗涂地;一個擅長標準普通話的模型,可能無法理解充滿方言俚語的對話。因此,科學、系統(tǒng)、多維度的模型評測不再是研發(fā)流程中的一個可選環(huán)節(jié),而是衡量模型能力邊界、指引優(yōu)化方向、確保產(chǎn)品體驗的核心生命線。
本文旨在為您深入剖析ASR模型評測的完整體系。我們將不僅介紹“有哪些指標”,更將聚焦于“這些指標背后的技術(shù)含義”以及“如何從指標變化中診斷模型病灶”,從而為AI產(chǎn)品運營、研發(fā)工程師以及技術(shù)決策者提供一份實用的評測指南。
ASR模型的運轉(zhuǎn)流程
作為一名ASR模型評測的人員,對于ASR模型基本的流程還是要有基本的了解,而我們的評測一定程度上就是通過數(shù)據(jù)反饋檢查整個鏈路可能會存在的問題,以達到優(yōu)化模型的目的。
ASR步驟拆解:
1、語音輸入
用戶通過麥克風輸入內(nèi)容語音
2、預(yù)處理
預(yù)處理是語音識別過程中的一個基礎(chǔ)性步驟,它的意義在于對錄音文件進行分幀、去除噪音、語音增強、加窗等預(yù)處理,提取出有效的聲音特征,用于后續(xù)的語音內(nèi)容分析處理。
①預(yù)處理
由于用戶環(huán)境因素影響,MIC設(shè)備錄制的聲音,除了人聲,可能還會包各種噪音,那么為了語音識別的準確性,在識別前就需要先處理掉原始音頻中的噪音部分。
②預(yù)加重
在語音輸入的過程中,由于環(huán)境和距離等影響因素,MIC錄制聲音可能會出現(xiàn)高頻衰減和低頻增益等失真現(xiàn)象,這將會影響后續(xù)語音識別的結(jié)果。
或者說,為提高音頻的能力,去將其數(shù)值拉高,以保證模型的清晰度。
③分幀
為了提高語言識別結(jié)果的準確性,需要將連續(xù)且長的語音信號分為若干個固定長度的幀,分幀后每幀內(nèi)的信號的頻譜變化就會較為緩慢、穩(wěn)定。
④特征提取
從語音信號中提取用來描述語音信號的各種特征,以便識別模型能夠更好地對其進行分析和區(qū)分,這些特征包括:幀能量、音調(diào)(調(diào)子、語氣等)、基音頻率、音周期、共振峰、諧波結(jié)構(gòu)、聲道特性等。
3、解碼
在完成原始音頻信號的預(yù)處理與特征提取之后,需要將提取到的特征輸入語音識別模型中通過聲學模型、詞典、語音模型的協(xié)同計算來得到最終的識別結(jié)果。
①聲學模型
聲學模型負責對語音信號進行特征提取和處理,生成一系列特征向量,然后使用這些特征向量來計算每個可能的音素的得分,并根據(jù)得分選出最可能的音素序列。
音素(Phoneme)是語言學中最小的語音單位,是能夠區(qū)分意義的聲音片段。
所以可以理解成,音素=token
②詞典
在生活中,我們有認識的字的時候,可能會通過網(wǎng)絡(luò)搜索或查字典的方式去尋找答案。在語音識別系統(tǒng)中,也有需要一個詞典,用于識別音素對應(yīng)的漢字(詞)或者單詞。語音識別系統(tǒng)中的詞典包括了一系列的詞語和它們對應(yīng)的音素序列,這些音素序列反映了詞語在語音信號中的語音學特征和發(fā)音方式,通過將語音信號的實際發(fā)音與詞典中存儲的發(fā)音進行匹配,語音識別系統(tǒng)可以推算出說話人所說的詞語。
③語言模型
在通過聲學模型與詞典,得到一組候選詞語或句子的情況下,最后需要通過語言模型得到符合用戶表達內(nèi)容的結(jié)果。語音模型的作用就是通過統(tǒng)計文本中詞與詞之間的關(guān)系和概率,預(yù)測一個詞語或句子出現(xiàn)的概率大小,從而對識別出的多個文本候選結(jié)果進行打分、排序和篩選,最終,得分最高的結(jié)果就是系統(tǒng)認為最符合用戶表達內(nèi)容的結(jié)果。
4、輸出結(jié)果
指最終輸出識別結(jié)果,即轉(zhuǎn)換后的文本或指令等形式的結(jié)果。
技術(shù)指標
核心技術(shù)指標(宏觀方向)
在中文場景下,一般會更加關(guān)注SER和CER
在英文場景下,一般會更加關(guān)注WER
細分錯誤類型分析
魯棒性指標
主要檢測模型對于不同噪聲環(huán)境、不同口音語言場景下的性能衰減,以檢驗語言模型和聲學模型的魯棒性能力,是衡量其“泛化能力”和“實用性”的關(guān)鍵
- 背景噪音魯棒性:其實可以認為是在車站、街道、餐廳等不同信噪比(SNR)環(huán)境下,不同的噪音程度對模型的影響,低噪、中噪、高噪場景下的SER/句準,看模型的可用性,同時考驗聲學模型的性能;
- 口音方言魯棒性:對不同地區(qū)口音、方言詞匯的識別能力;
- 跨領(lǐng)域魯棒性:在其他訓(xùn)練數(shù)據(jù)未見過的領(lǐng)域(如醫(yī)療、法律專業(yè)術(shù)語)上的表現(xiàn);
- 聲學條件魯棒性:對不同錄制設(shè)備(手機、麥克風陣列)、不同聲道(電話窄帶、寬帶)、不同說話人(年齡、性別)的適應(yīng)性。不同的設(shè)備、不同的人,錄制聲音的清晰度(非常清晰、基本清晰、很不清晰)能力是不同的,以考驗聲學模型的性能。
其他指標
其實根據(jù)我們對于二級分類的不同,其實我們還可以將所有的詞匯分的更加細致,結(jié)構(gòu)助詞、專業(yè)術(shù)語等內(nèi)容,這等指標其實更加關(guān)注于模型在LM中
數(shù)據(jù)變化分析
評測的終極目的不是得到一個分數(shù),而是通過分數(shù)發(fā)現(xiàn)模型缺陷,指引優(yōu)化方向。
以下是我在真實項目中所遇到的問題:
背景
測試ASR模型在迭代前后中文教育、醫(yī)療領(lǐng)域的識別能力
數(shù)據(jù)
這里的暫時以錯誤率為例子,因為WER需要統(tǒng)計全部詞以及字的錯誤率,以這個數(shù)據(jù)為代替,去統(tǒng)計模型出現(xiàn)的錯誤次數(shù)。(數(shù)據(jù)已做改動)
以下數(shù)據(jù)是評測后,整理完的數(shù)據(jù):
其實在模型評測中,我更多的會以A/B測試的方法,去關(guān)注模型的變化。
你可以對照看一下,你的發(fā)現(xiàn)是不是和我想的一樣。
1. 模型變得“敏感”且“大膽”了。根據(jù)模型變化,可以發(fā)現(xiàn),模型在迭代后,漏字率出現(xiàn)的次數(shù)上升了,多字率也上升了。
對于不確定的內(nèi)容,它會多插入,或者減少,從而一定程度上,導(dǎo)致了D、I的情況,一定程度上受AM和LM的影響。
2. 訓(xùn)練數(shù)據(jù)的布局問題。模型在迭代前后都出現(xiàn)的一個規(guī)律,安靜場景的識別SER要高于低噪場景的SER,清晰度同上。說明模型的數(shù)據(jù)在分布上有一定程度的問題,導(dǎo)致了這個問題。
模型的SER可以說明,模型的訓(xùn)練數(shù)據(jù),在低噪場景下的比安靜場景的要多,使得模型在低噪場景下的句準要高于安靜場景下的句準,同時音頻清晰度,同此邏輯,一定程度上來說,這也是有一定過擬合的傾向。
3. 教育領(lǐng)域的識別錯誤率上升了。在迭代后,模型2在教育和醫(yī)療的SER,基本接近。但是教育領(lǐng)域的錯誤率上升了,特別是在安靜和非常清晰中,反而在低噪場景下,錯誤率下降了。
說明有可能在本次訓(xùn)練中,模型數(shù)據(jù)其中包含了很多的醫(yī)療數(shù)據(jù),教育數(shù)據(jù)以低噪、基本清晰為主,導(dǎo)致錯誤率上升。
以上分析僅個人觀點和分析,無技術(shù)方面的了解,有錯誤請大家指正。
超越通用指標:更細致的評測方法
為了更精準地定位問題,我們需要設(shè)計更具針對性的評測集和分析方法。
1)細分領(lǐng)域測試集:
- 噪音集:包含不同種類和強度的背景噪音。
- 口音集:收集不同方言區(qū)的語音。
- 數(shù)字/實體集:專門測試數(shù)字、日期、人名、地名、公司名等關(guān)鍵信息的識別準確率。這類錯誤的代價遠高于普通詞錯誤。
- 長尾詞集:測試模型對罕見詞、專業(yè)術(shù)語的識別能力。
2)錯誤分析(Error Analysis):
- 人工檢查錯誤案例,并進行分類標注(如:噪音導(dǎo)致、發(fā)音相似、LM錯誤、OOV等)。
- 統(tǒng)計不同錯誤類型的占比,從而確定優(yōu)化的最高優(yōu)先級。例如,如果發(fā)現(xiàn)40%的錯誤是數(shù)字錯誤,那么優(yōu)先提升數(shù)字識別能力能帶來最大的收益。
3)可視化工具:
- 使用混淆矩陣(ConfusionMatrix)來可視化哪些音素或字詞最容易相互混淆。
- 分析注意力機制(Attention)的權(quán)重,看模型在識別時更關(guān)注音頻的哪些部分。
構(gòu)建有效的評測體系
- 定義清晰的目標:你的產(chǎn)品場景是什么?是實時交互還是離線轉(zhuǎn)錄?目標用戶是誰?他們對準確度和延遲的容忍度如何?答案決定了評測的側(cè)重點。
- 構(gòu)建代表真實世界的測試集:評測集必須最大限度地反映產(chǎn)品上線后遇到的真實數(shù)據(jù)分布,否則評測結(jié)果毫無意義。要持續(xù)收集和更新測試集。
- 綜合考量,而非唯WER論:一個RTF=0.3、WER=5%的模型,通常比一個RTF=1.5、WER=4%的模型更有產(chǎn)品價值。需要在準確度、速度、資源消耗之間找到最佳平衡點。
- 迭代與閉環(huán):模型評測不是一次性的活動,而是一個循環(huán):評測->分析->優(yōu)化->再評測。將評測集成到CI/CD流程中,實現(xiàn)自動化評估,防止模型迭代過程中出現(xiàn)性能回退(Regression)。
結(jié)語
ASR模型評測遠不止于運行一個腳本得到WER數(shù)字那么簡單。它是一個需要深入技術(shù)細節(jié)、結(jié)合產(chǎn)品洞察的復(fù)雜分析過程。通過建立一個多維度、細粒度的評測體系,并學會從指標的變化中解讀出模型的“潛臺詞”,我們才能真正地理解模型的能力邊界,精準地擊中其弱點,從而驅(qū)動ASR技術(shù)不斷向前發(fā)展,為用戶提供更自然、更可靠、更無縫的語音交互體驗。
希望這份詳細的指南能為您提供清晰的路徑和深入的洞察,助您在ASR模型的海洋中精準導(dǎo)航。
本文由 @一葉 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!