語音識別關(guān)鍵詞,如何獲取房產(chǎn)成交信息?
針對房產(chǎn)中介平臺無法及時獲取成交信息的現(xiàn)象,語音識別關(guān)鍵詞的應(yīng)用能夠有效解決這個問題。不過,你知道獲取關(guān)鍵詞后的篩選與識別是怎么做的嗎?正文將為你揭曉答案。
近年來隨著互聯(lián)網(wǎng)、GPU/CPU硬件的發(fā)展,語音識別的準(zhǔn)確率有了很高的提升,并開始在商業(yè)上進行應(yīng)用。不管是國內(nèi)百度的小度助手,還是Google Assistant、亞馬遜Alexa,早已不再滿足于“語音助手”的身份,在功能上開始向語音對話、內(nèi)容服務(wù)、IoT設(shè)備管理等方向演進,幾乎所有的互聯(lián)網(wǎng)巨頭都對語音勢在必得。
人工智能慢慢步入了我們的生活,為我們帶來便利的工具值得去挖掘。語音識別技術(shù)在房產(chǎn)市場是如何應(yīng)用的呢?除了語音助手外,期望能通過語音識別功能幫助業(yè)務(wù)提升效率。本文復(fù)盤了語音識別關(guān)鍵詞在房產(chǎn)中的應(yīng)用,以此總結(jié)項目中的收獲和不足,也期待對您有所幫助。
平臺供給房源,但房源成交后,不能及時獲取成交信息。所以需要從房主、經(jīng)紀(jì)人、平臺三方去考慮如何獲取到成交信息:
- 從房主切入,可以在房主小程序/APP提供房主停售的入口,也可以通過短信或者模板消息觸達到房主,提醒房主若有成交,及時反饋給平臺。
- 從經(jīng)紀(jì)人切入,可以提供反饋機制,通過成功反饋贈送積分的方式,激勵經(jīng)紀(jì)人主動反饋。
- 從平臺切入,平臺已通過阿里的虛擬號,獲得經(jīng)紀(jì)人和房主的通話錄音,可通過語音轉(zhuǎn)文字識別出疑似成交的房源。
語音轉(zhuǎn)文字
為保護房主隱私,平臺從阿里購得AXB中間號,阿里提供通話錄音及轉(zhuǎn)文字功能,識別的文字通過接口回調(diào)到平臺,依賴于阿里轉(zhuǎn)文字效率,所以文字識別會有時間延遲,在識別策略中,會考慮時間的因素。有了文字后,下一步要提取關(guān)鍵詞,識別成交房源。
關(guān)鍵詞識別分析
1. 目標(biāo):通過錄音關(guān)鍵詞識別出成交的房源。
2. 指標(biāo):召回率和準(zhǔn)確率是對策略質(zhì)量評估的方法,可以通過召回率、準(zhǔn)確率、誤判率等檢驗上線后的質(zhì)量評估。召回率代表策略對問題的解決程度,而準(zhǔn)確率、誤判率代表策略有沒有帶來其他傷害。
3. 影響因素:
- ①錄音轉(zhuǎn)文字的準(zhǔn)確度
- ②關(guān)鍵詞的準(zhǔn)確度
- ③經(jīng)紀(jì)人撥打電話的頻次
①和③受外部因素制約,本次版本暫時不考慮,重心放至關(guān)鍵詞的準(zhǔn)確度上。
4. 需要人工干預(yù):由于以上三個制約因素,識別的結(jié)果不一定100%準(zhǔn)確,平臺需要安排專職人員對識別結(jié)果進行人工判斷,防止誤判。
提取關(guān)鍵詞
拉取3000條錄音轉(zhuǎn)文字?jǐn)?shù)據(jù),用Excel初步分析,過濾不需要的重復(fù)詞,例如語音詞、象聲詞、問候詞等,再用Wordart(https://wordart.com/)分析,找到關(guān)鍵詞。
1.0版本
1. 關(guān)鍵字提取時間:通話錄音轉(zhuǎn)換文字成功后,每30min對未處理的內(nèi)容識別一次。
2. 識別策略:若錄音內(nèi)容中,涉及如下關(guān)鍵字,則認(rèn)為該錄音命中“疑似成交”關(guān)鍵詞。
- ①賣完
- ②已經(jīng)賣了
- ③暫時不賣
- ④我不賣了
- ⑤賣了好久了
- ⑥早都賣了
3. 增加人為審核操作,并記錄處理人和處理時間
4. 識別結(jié)果中展示識別文本和錄音,可隨時校驗結(jié)果
策略質(zhì)量評估
1. 召回率、準(zhǔn)確率和誤判率分析
對上線后一天的數(shù)據(jù)進行了分析,召回了25條數(shù)據(jù),其中19條命中成交,6條誤判,還有7條數(shù)據(jù)沒有識別出。
對誤判數(shù)據(jù)進行分析,“賣完”這個關(guān)鍵詞出現(xiàn)在誤判里的頻次很高,針對該關(guān)鍵詞,下一步需要優(yōu)化識別策略。
對未識別數(shù)據(jù)進行分析,“賣了”這個關(guān)鍵詞出現(xiàn)的頻次很大,但這個關(guān)鍵詞爭議較大,會出現(xiàn)在經(jīng)紀(jì)人的問話中,例如:“您賣了嗎?”如果用它識別,誤判率會很高。
2. 功能問題
①同一房源存在多條錄音,每條錄音都要處理,較繁瑣。
②平臺上房源下架有統(tǒng)一接口,所以審核和下架是兩個分開的功能操作,審核房源后,遵循排序規(guī)則:待處理>已處理,數(shù)據(jù)自動下沉,尋找當(dāng)前房源做下架處理較繁瑣。
③處理狀態(tài)沒有顯示在列表上,不能直觀看見處理結(jié)果。
1.1版本
1. 規(guī)則優(yōu)化
針對1.0上線,拉了1000條錄音進行分析,發(fā)現(xiàn)顯性關(guān)鍵詞命中率很高,所以優(yōu)先判斷顯性關(guān)鍵詞,若無顯性關(guān)鍵詞,通過非顯性關(guān)鍵詞和時間維度去判斷,一般房子賣了,經(jīng)紀(jì)人的通話都會很短。
①判斷文字中是否有以下關(guān)鍵詞,若有,則認(rèn)為疑似成交:
已經(jīng)賣了、暫時不賣、我不賣了、賣了好久了、早都賣了、先不賣了、不想賣了
②若無上述關(guān)鍵詞,則判斷語音時長,若時長<1min,且包含下列關(guān)鍵詞,則認(rèn)為疑似成交:
不賣了、賣了、賣完、沒有了、撤了、下架、取消
2. 功能優(yōu)化
(1)狀態(tài)優(yōu)化:列表顯示狀態(tài)“未處理、已成交、未成交”3種。
(2)若一個房源有多條未處理的數(shù)據(jù),處理最近時間的一條,該房源所有之前未處理的數(shù)據(jù)狀態(tài)變更為相應(yīng)的狀態(tài),處理時間&處理人同理。
(3)列表刷新邏輯優(yōu)化:完成“審核”后不刷新列表,僅變更狀態(tài)、處理人、處理時間等相關(guān)數(shù)據(jù)。再次進入菜單,才刷新整個頁面。
策略質(zhì)量評估
召回率、準(zhǔn)確率和誤判率分析
對上線后一天的數(shù)據(jù)進行了分析,召回了26條數(shù)據(jù),其中12條命中成交,14條誤判,還有1條數(shù)據(jù)沒有識別出。
通過上面的數(shù)據(jù)發(fā)現(xiàn):增加非顯性關(guān)鍵詞+時間的識別,準(zhǔn)確率增加,但是也召回了很多非成交數(shù)據(jù),所以誤判率也增高。雖然滿足寧可錯殺一千,也不能漏一個的原則,但還會拉更多的數(shù)據(jù)進行分析,優(yōu)化時間維度的策略。
上述案例中,通過優(yōu)化關(guān)鍵詞策略,提高召回率,運用了策略質(zhì)量評估方法,判斷召回造成的影響,下一步要降低誤判率。
在實際操作中,錄音轉(zhuǎn)文字的準(zhǔn)確度影響也很大(見上圖),我們也做了相關(guān)的數(shù)據(jù)統(tǒng)計,在未識別數(shù)據(jù)中,有30%的數(shù)據(jù)屬于文字準(zhǔn)確度不高導(dǎo)致的,這個無法避免,機器對噪音的抗噪性不夠強,另外,語音識別并沒有理解語義,若雙方都用方言講話,識別的準(zhǔn)確率會更低。
語音識別,在這幾年有了極大的發(fā)展,從算法到模型都有了質(zhì)的變化,在加上語音領(lǐng)域(語音合成等)的其他研究,語音技術(shù)陸續(xù)進入工業(yè)、家庭機器人、通信、車載導(dǎo)航等各個領(lǐng)域中。本項目借助語音識別技術(shù)轉(zhuǎn)文字,再通過文字關(guān)鍵詞識別出成交房源,讓語音識別在房產(chǎn)市場得到應(yīng)用。
專欄作家
余田,人人都是產(chǎn)品經(jīng)理專欄作家,數(shù)據(jù)產(chǎn)品經(jīng)理,《用戶至上-用戶研究方法與實踐》譯者。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
我是不會給你這個權(quán)限的
學(xué)習(xí)了~感覺還挺好玩
學(xué)習(xí)了
?? 共同進步