電商運營之站內(nèi)搜索全面指南(六)
本文作者從具體的工作實踐出發(fā),結(jié)合案例等分享了非常實用的大范圍排序中的類目預(yù)測知識,供大家一同參考和學(xué)習(xí)。
在上一章節(jié)中,給大家簡要的介紹了下搜索的具體流程,從輸入關(guān)鍵詞點擊搜索按鈕那一刻起,到搜索結(jié)果頁呈現(xiàn)給用戶的眨眼間,是經(jīng)過了怎樣的步驟和流程才呈現(xiàn)到我們面前。
其中有一些步驟我覺得可以深入講解一下,但是睡了一覺后,覺得可能對于產(chǎn)品運營的讀者你們有點過于晦澀和枯燥,即便知道了其中的奧妙對你們未來的運營工作也沒有太大的幫助比如分詞算法。
因此為了節(jié)省大家的時間,我還是挑重點說,本章就著重講解一下大范圍排序中的類目預(yù)測環(huán)節(jié)。以及結(jié)合我現(xiàn)在所在的單位起初的一些沙雕的操作,也順帶給各位立志想進(jìn)入產(chǎn)品圈的小年輕一些產(chǎn)品設(shè)計以及溝通中的建議,方法論什么的我就不想說了,太虛,就直接上操作吧。
類目預(yù)測
什么叫類目預(yù)測?舉個簡單的例子吧。如果輸入關(guān)鍵詞“手機”排在前面出來的是手機類目而不是手機殼類目,這就是類目預(yù)測。
根據(jù)搜索全詞匹配的原則,只要商品標(biāo)題或者屬性或者類目名稱等帶有“手機”關(guān)鍵詞的商品,都會被召回,而類目預(yù)測的作用就是將這些已經(jīng)召回的商品按照類目優(yōu)先級進(jìn)行排序的過程。
說起來簡單,做起來就老費勁了!如果僅僅從營銷數(shù)據(jù)來進(jìn)行排序,手機殼單價低,商品數(shù)量眾多,相比于手機類目 單價高,數(shù)量可能遠(yuǎn)遠(yuǎn)不及配件。
那么如果我是個沒有感情的排序機器,我應(yīng)該優(yōu)先排哪個呢?
肯定是手機殼在最前面,因為手機殼類目全方位的數(shù)據(jù)都比手機類目要好,為什么不排手機殼呢?很有道理。但是從消費者意圖來講,用戶要的是手機,不是手機殼,你這個數(shù)據(jù)再好看,對于消費者肯定也是不準(zhǔn)的。
所以對于消費者來說,類目預(yù)測的效果如何,是衡量搜索準(zhǔn)確性的入門指標(biāo)。由于目前國內(nèi)的電商巨頭都已經(jīng)通過了前期的人工收集,機器算法輔助階段,亦或已經(jīng)通過第三方的搜索解決方案提供商能夠提供比較完備的預(yù)測算法和方案。
那么此篇文章針對那些初創(chuàng),或者對搜索結(jié)果頁還不甚滿意且有至于自己優(yōu)化的企業(yè)有參考意義。(我將在最后一期給大家介紹一下,如何搭建一個比較完備且經(jīng)濟的站內(nèi)搜索產(chǎn)品方案)
類目預(yù)測我們分為兩部分講解,人工和機器算法
人工
很簡單,直接在產(chǎn)品后臺搭建一個關(guān)鍵詞和類目的關(guān)聯(lián)表。做這個產(chǎn)品時,產(chǎn)品經(jīng)理需要注意的問題點有如下幾個:
(1)該產(chǎn)品面向的使用用戶是誰?肯定是搜索運營人員。首先要滿足的是用戶的使用方便,可以批量導(dǎo)入和導(dǎo)出功能,增刪改查一個都不能少。
(2)該產(chǎn)品運營的主要內(nèi)容是什么?關(guān)鍵詞,因此對于關(guān)鍵詞我們要區(qū)分語言,如果app涉及到多個語言區(qū)國家,因此就要分開運營,而且不同語言之間的互通生效;且對于音型文字需要對多種時態(tài)變體,以及同義詞生效。
同樣的關(guān)鍵詞,互換位置后也一樣生效,比如“手機蘋果”和“蘋果手機”等。這樣可以減少人工維護(hù)的詞量。(我現(xiàn)在所在的單位依舊采用的是絕對匹配的邏輯,這個坑依舊沒有填。這個也給了我一個啟示,做產(chǎn)品規(guī)劃時一定要先期做好細(xì)節(jié)處理,雖說不用100%的面面俱到,但是最起碼的主要矛盾還是要考慮的)
(3)精確全詞匹配還是以中心詞匹配,一直是我入職以來的爭論,從一個站內(nèi)搜索體系搭建以來,人工全詞匹配一直是領(lǐng)導(dǎo)層最相中的。因為能夠更快出成績,只需要幾個人 每天對著top詞來維護(hù)一遍就能達(dá)到數(shù)據(jù)提升的效果。
①精確全詞匹配預(yù)測
什么叫精確全詞匹配預(yù)測,就是我搜索“蘋果手機128g”如果在人工維護(hù)的詞庫里只有“蘋果手機”這個詞,一樣是無法命中人工類目預(yù)測,因此人工維護(hù)的全詞匹配的詞量是極其巨大的。
而且用戶輸入的關(guān)鍵詞是沒有規(guī)律可循的,什么樣的順序都無法預(yù)測,因此詞功能只能作為快速修補關(guān)鍵詞呈現(xiàn)bug的功能。
②中心詞匹配預(yù)測
那什么叫中心詞匹配預(yù)測,這個其實是基于一個合理的假設(shè),即電商網(wǎng)站是來購物的,用戶進(jìn)行app瀏覽和搜索都是基于某種物品或者品牌需求,那么我們有理由相信只需要收集有限物品詞以及品牌詞就能涵蓋絕大部分搜索類目預(yù)測需求,那么這些物品詞或者品牌詞就是我們的中心詞。
比如用戶搜索“手機128g”那么“手機”就是中心詞,人工的中心詞詞庫只需要維護(hù)“手機”對應(yīng)前端/后端類目就能起到類目預(yù)測的效果,以點帶面會取得不錯的效果。
也許有人會說,如果用戶輸入“手機殼”不也是預(yù)測到手機類目了么,也是預(yù)測錯了。因此在此需要引入n-gram的策略,一般而言詞組優(yōu)先級要高于單詞。也就是說詞庫是優(yōu)先匹配詞比較長的,如果詞長的沒有,再去匹配詞短的。
類目預(yù)測的邏輯是,某個關(guān)鍵詞只要通過算法或者人工預(yù)測到了類目,則會在預(yù)測的類目優(yōu)先進(jìn)行and查詢并召回排序,然后在非預(yù)測類目and查詢并召回排序。
也就是說如果在預(yù)測的類目里如果搜索不到產(chǎn)品,這個預(yù)測也沒啥用?;蛘哒f是預(yù)測錯類目。(當(dāng)然也有例外,當(dāng)一個用戶搜了一個特別刁鉆的詞“蘋果土豪金128g送給媽媽的禮物”算法或者人工預(yù)測到的類目是手機類目,但是and查詢在該類目無結(jié)果,此時可以采用減詞算法進(jìn)行智能減詞,提取關(guān)鍵詞主干供用戶選擇)。
機器算法
所謂機器算法是根據(jù)用戶的行為數(shù)據(jù)以及商品本身的固有信息得來的。
那么采用機器算法的邏輯基于詞頻和用戶的點擊行為基于貝葉斯理論(百度的意思就是:如果你看到一個人總是做一些好事,則那個人多半會是一個好人。這就是說,當(dāng)你不能準(zhǔn)確知悉一個事物的本質(zhì)時,你可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的多少去判斷其本質(zhì)屬性的概率。 用數(shù)學(xué)語言表達(dá)就是:支持某項屬性的事件發(fā)生得愈多,則該屬性成立的可能性就愈大)。
貝葉斯算法需要有一定的數(shù)據(jù)訓(xùn)練集,而這些數(shù)據(jù)訓(xùn)練集是需要商品數(shù)據(jù)以及關(guān)鍵詞對應(yīng)的(關(guān)鍵詞與用戶點擊類目商品的概率)。
通過不斷的對訓(xùn)練集訓(xùn)練結(jié)果的優(yōu)化和評估,最后得出一個比較好的貝葉斯模型。這樣關(guān)鍵詞即與商品數(shù)據(jù)結(jié)合在一起,成了我們的機器類目預(yù)測。
然而類目預(yù)測的算法還有很多,這里只是給大家提一下,如果我把公式亮出來就顯得裝x了,因為我也看不懂。
好了今天就到這吧。
預(yù)告下一期內(nèi)容,搜索算法的形成與原理。
#專欄作家#
作者:王歡,微信:wanghuan314400,運營小灰一枚。
本文由 @王歡 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,不得轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
想問下類目預(yù)測維護(hù)關(guān)鍵詞和前臺類目關(guān)聯(lián)還是后臺類目呢?以及維護(hù)幾級類目呢?
想問下類目預(yù)測要做在結(jié)果商品排序前嗎 萬一有其他類目的商品是運營想主推的商品怎么辦,是不是類目預(yù)測應(yīng)該和商品排序做在一起,只是把類目作為一個維度打分就好了,命中的類目加分,但最終還是和其他維度一起計算總分,用這個總分排商品的順序
這個沒有絕對的方案,類目預(yù)測是一個解決問題得思路,如果有更為直接得方案實現(xiàn)了查準(zhǔn)也可以??梢砸徊讲絿L試。我目前實現(xiàn)的方案是在類目預(yù)測得基礎(chǔ)上進(jìn)行排序。而不是所有的類目一起排序打分。
不是很理解你舉的這個例子說明的類目預(yù)測的復(fù)雜性,用戶搜索手機,怎么可能會出現(xiàn)手機殼呢,商家在后臺上架時就有勾選該商品各級類目啊,當(dāng)用戶搜索手機時,自動檢索到手機類目下的商品不就可以了嗎
搜索是全局搜索,是文字匹配,不是類目下搜索,你搜游泳兩個字,怎么匹配類目呢,肯定是召回有游泳倆個字的商品標(biāo)題的所有商品,然后再預(yù)測類目
看你的文章總是覺得很安心,你總是可以調(diào)理清晰的,編寫出小白也能看懂的文字。正在悄悄看你寫的所有文章,加油,期待新作~!