語音識別關(guān)鍵詞,如何獲取房產(chǎn)成交信息?

4 評論 4625 瀏覽 15 收藏 11 分鐘

針對房產(chǎn)中介平臺無法及時獲取成交信息的現(xiàn)象,語音識別關(guān)鍵詞的應(yīng)用能夠有效解決這個問題。不過,你知道獲取關(guān)鍵詞后的篩選與識別是怎么做的嗎?正文將為你揭曉答案。

近年來隨著互聯(lián)網(wǎng)、GPU/CPU硬件的發(fā)展,語音識別的準(zhǔn)確率有了很高的提升,并開始在商業(yè)上進行應(yīng)用。不管是國內(nèi)百度的小度助手,還是Google Assistant、亞馬遜Alexa,早已不再滿足于“語音助手”的身份,在功能上開始向語音對話、內(nèi)容服務(wù)、IoT設(shè)備管理等方向演進,幾乎所有的互聯(lián)網(wǎng)巨頭都對語音勢在必得。

人工智能慢慢步入了我們的生活,為我們帶來便利的工具值得去挖掘。語音識別技術(shù)在房產(chǎn)市場是如何應(yīng)用的呢?除了語音助手外,期望能通過語音識別功能幫助業(yè)務(wù)提升效率。本文復(fù)盤了語音識別關(guān)鍵詞在房產(chǎn)中的應(yīng)用,以此總結(jié)項目中的收獲和不足,也期待對您有所幫助。

平臺供給房源,但房源成交后,不能及時獲取成交信息。所以需要從房主、經(jīng)紀(jì)人、平臺三方去考慮如何獲取到成交信息:

  • 從房主切入,可以在房主小程序/APP提供房主停售的入口,也可以通過短信或者模板消息觸達到房主,提醒房主若有成交,及時反饋給平臺。
  • 從經(jīng)紀(jì)人切入,可以提供反饋機制,通過成功反饋贈送積分的方式,激勵經(jīng)紀(jì)人主動反饋。
  • 從平臺切入,平臺已通過阿里的虛擬號,獲得經(jīng)紀(jì)人和房主的通話錄音,可通過語音轉(zhuǎn)文字識別出疑似成交的房源。

語音轉(zhuǎn)文字

為保護房主隱私,平臺從阿里購得AXB中間號,阿里提供通話錄音及轉(zhuǎn)文字功能,識別的文字通過接口回調(diào)到平臺,依賴于阿里轉(zhuǎn)文字效率,所以文字識別會有時間延遲,在識別策略中,會考慮時間的因素。有了文字后,下一步要提取關(guān)鍵詞,識別成交房源。

關(guān)鍵詞識別分析

1. 目標(biāo):通過錄音關(guān)鍵詞識別出成交的房源。

2. 指標(biāo):召回率和準(zhǔn)確率是對策略質(zhì)量評估的方法,可以通過召回率、準(zhǔn)確率、誤判率等檢驗上線后的質(zhì)量評估。召回率代表策略對問題的解決程度,而準(zhǔn)確率、誤判率代表策略有沒有帶來其他傷害。

?召回率=識別總數(shù)/理想成交數(shù) 準(zhǔn)確率=識別成交數(shù)/理想成交數(shù) 誤判率=誤判數(shù)/識別總數(shù)

3. 影響因素:

  • ①錄音轉(zhuǎn)文字的準(zhǔn)確度
  • ②關(guān)鍵詞的準(zhǔn)確度
  • ③經(jīng)紀(jì)人撥打電話的頻次

①和③受外部因素制約,本次版本暫時不考慮,重心放至關(guān)鍵詞的準(zhǔn)確度上。

4. 需要人工干預(yù):由于以上三個制約因素,識別的結(jié)果不一定100%準(zhǔn)確,平臺需要安排專職人員對識別結(jié)果進行人工判斷,防止誤判。

提取關(guān)鍵詞

拉取3000條錄音轉(zhuǎn)文字?jǐn)?shù)據(jù),用Excel初步分析,過濾不需要的重復(fù)詞,例如語音詞、象聲詞、問候詞等,再用Wordart(https://wordart.com/)分析,找到關(guān)鍵詞。

1.0版本

1. 關(guān)鍵字提取時間:通話錄音轉(zhuǎn)換文字成功后,每30min對未處理的內(nèi)容識別一次。

2. 識別策略:若錄音內(nèi)容中,涉及如下關(guān)鍵字,則認(rèn)為該錄音命中“疑似成交”關(guān)鍵詞。

  • ①賣完
  • ②已經(jīng)賣了
  • ③暫時不賣
  • ④我不賣了
  • ⑤賣了好久了
  • ⑥早都賣了

3. 增加人為審核操作,并記錄處理人和處理時間

4. 識別結(jié)果中展示識別文本和錄音,可隨時校驗結(jié)果

策略質(zhì)量評估

1. 召回率、準(zhǔn)確率和誤判率分析

對上線后一天的數(shù)據(jù)進行了分析,召回了25條數(shù)據(jù),其中19條命中成交,6條誤判,還有7條數(shù)據(jù)沒有識別出。

對誤判數(shù)據(jù)進行分析,“賣完”這個關(guān)鍵詞出現(xiàn)在誤判里的頻次很高,針對該關(guān)鍵詞,下一步需要優(yōu)化識別策略。

對未識別數(shù)據(jù)進行分析,“賣了”這個關(guān)鍵詞出現(xiàn)的頻次很大,但這個關(guān)鍵詞爭議較大,會出現(xiàn)在經(jīng)紀(jì)人的問話中,例如:“您賣了嗎?”如果用它識別,誤判率會很高。

2. 功能問題

①同一房源存在多條錄音,每條錄音都要處理,較繁瑣。

②平臺上房源下架有統(tǒng)一接口,所以審核和下架是兩個分開的功能操作,審核房源后,遵循排序規(guī)則:待處理>已處理,數(shù)據(jù)自動下沉,尋找當(dāng)前房源做下架處理較繁瑣。

③處理狀態(tài)沒有顯示在列表上,不能直觀看見處理結(jié)果。

1.1版本

1. 規(guī)則優(yōu)化

針對1.0上線,拉了1000條錄音進行分析,發(fā)現(xiàn)顯性關(guān)鍵詞命中率很高,所以優(yōu)先判斷顯性關(guān)鍵詞,若無顯性關(guān)鍵詞,通過非顯性關(guān)鍵詞和時間維度去判斷,一般房子賣了,經(jīng)紀(jì)人的通話都會很短。

①判斷文字中是否有以下關(guān)鍵詞,若有,則認(rèn)為疑似成交:

已經(jīng)賣了、暫時不賣、我不賣了、賣了好久了、早都賣了、先不賣了、不想賣了

②若無上述關(guān)鍵詞,則判斷語音時長,若時長<1min,且包含下列關(guān)鍵詞,則認(rèn)為疑似成交:

不賣了、賣了、賣完、沒有了、撤了、下架、取消

2. 功能優(yōu)化

(1)狀態(tài)優(yōu)化:列表顯示狀態(tài)“未處理、已成交、未成交”3種。

(2)若一個房源有多條未處理的數(shù)據(jù),處理最近時間的一條,該房源所有之前未處理的數(shù)據(jù)狀態(tài)變更為相應(yīng)的狀態(tài),處理時間&處理人同理。

(3)列表刷新邏輯優(yōu)化:完成“審核”后不刷新列表,僅變更狀態(tài)、處理人、處理時間等相關(guān)數(shù)據(jù)。再次進入菜單,才刷新整個頁面。

策略質(zhì)量評估

召回率、準(zhǔn)確率和誤判率分析

對上線后一天的數(shù)據(jù)進行了分析,召回了26條數(shù)據(jù),其中12條命中成交,14條誤判,還有1條數(shù)據(jù)沒有識別出。

通過上面的數(shù)據(jù)發(fā)現(xiàn):增加非顯性關(guān)鍵詞+時間的識別,準(zhǔn)確率增加,但是也召回了很多非成交數(shù)據(jù),所以誤判率也增高。雖然滿足寧可錯殺一千,也不能漏一個的原則,但還會拉更多的數(shù)據(jù)進行分析,優(yōu)化時間維度的策略。

上述案例中,通過優(yōu)化關(guān)鍵詞策略,提高召回率,運用了策略質(zhì)量評估方法,判斷召回造成的影響,下一步要降低誤判率。

在實際操作中,錄音轉(zhuǎn)文字的準(zhǔn)確度影響也很大(見上圖),我們也做了相關(guān)的數(shù)據(jù)統(tǒng)計,在未識別數(shù)據(jù)中,有30%的數(shù)據(jù)屬于文字準(zhǔn)確度不高導(dǎo)致的,這個無法避免,機器對噪音的抗噪性不夠強,另外,語音識別并沒有理解語義,若雙方都用方言講話,識別的準(zhǔn)確率會更低。

語音識別,在這幾年有了極大的發(fā)展,從算法到模型都有了質(zhì)的變化,在加上語音領(lǐng)域(語音合成等)的其他研究,語音技術(shù)陸續(xù)進入工業(yè)、家庭機器人、通信、車載導(dǎo)航等各個領(lǐng)域中。本項目借助語音識別技術(shù)轉(zhuǎn)文字,再通過文字關(guān)鍵詞識別出成交房源,讓語音識別在房產(chǎn)市場得到應(yīng)用。

專欄作家

余田,人人都是產(chǎn)品經(jīng)理專欄作家,數(shù)據(jù)產(chǎn)品經(jīng)理,《用戶至上-用戶研究方法與實踐》譯者。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 我是不會給你這個權(quán)限的

    來自云南 回復(fù)
  2. 學(xué)習(xí)了~感覺還挺好玩

    來自北京 回復(fù)
  3. 學(xué)習(xí)了

    來自重慶 回復(fù)
    1. ?? 共同進步

      來自遼寧 回復(fù)