2021-09-14 分類: 網(wǎng)站建設(shè)
最近和朋友在討論百度分詞,看了很多網(wǎng)上關(guān)于百度分詞的一些實例,我們來對百度的分詞步驟進行一些猜測,我們不可能真正的了解只能說是猜測:
1. 判斷用戶提交字符串,如果為多個字符串,則通過空格,標點符號,等進行切割。
2. 判斷提交字符串中有無字母或者數(shù)字,如果有把字母與數(shù)字當作獨立整體,并把這個整體當作切割負,進行前后切割。
3. 判斷切割后的詞組有無重復詞,有當作一個計算。
4. 如果提交為一個字符串,判斷字符串字數(shù),大于4并等于4個字的進行切割,如果小于4個字不進行任何處理。
5. 對照特殊詞庫表進行提取,如果字符串中包含特殊詞進行單獨提取。
6. 進行正向分詞處理。
7. 進行反向分詞處理。
8. 正向分詞結(jié)果與反向分詞結(jié)果進行對比,如果結(jié)果一樣,直接輸出。
9. 如果結(jié)果不一樣,輸出最短路徑(詞數(shù)最少的)進行輸出。
10. 如果長度一樣進行則輸出單子最少的結(jié)果。
11. 如果單子最少結(jié)果一樣,則輸出正向分詞結(jié)果。針對百度索引提示,糾錯原理。
1.判讀詞組,1個字的詞不進行提示,大于1個字開啟提示功能。
1.進行同音字提示,如果詞數(shù)過多,提取用戶搜索最多詞組進行提示。除以上外,我們還需要注意一點,那就是現(xiàn)在分詞中進行了語意相關(guān)結(jié)合:舉個例子我們常常在搜索某些詞的時候會發(fā)現(xiàn)有些結(jié)果中并不是完全匹配的詞也進行了飄紅。其實這種情況就是語意結(jié)合。我們可以理解為百度把相關(guān)詞表進行了關(guān)聯(lián),或者干脆進行了表結(jié)合。造成了這種情況的出現(xiàn)。比如我們搜索太原,我們會發(fā)現(xiàn)太原與太原市都進行了飄紅。
網(wǎng)站題目:猜測百度分詞基本步驟
標題來源:http://jinyejixie.com/news19/126619.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化、品牌網(wǎng)站建設(shè)、企業(yè)網(wǎng)站制作、小程序開發(fā)、域名注冊、做網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容