2013-08-20 分類: 網(wǎng)站建設(shè)
無論是對用戶的檢索還是對seo都具有非常重要的意義。同時(shí)分詞技術(shù)對搜索引擎本身而言也是相當(dāng)重要的,分詞的準(zhǔn)確性關(guān)系到檢索結(jié)果的質(zhì)量。
1.什么是分詞
分詞又叫做切詞,是將連續(xù)的自序列按照一定的規(guī)范重新組合成詞序列的過程。
2.分詞的原理,中文分詞分類:
(1)基于字符串的匹配也就是機(jī)械分詞法。機(jī)械分詞法的原理是將搜索欄的字符串與一個(gè)龐大的機(jī)器字典中的詞進(jìn)行匹配。常見的三種匹配方式:第一種是正向大匹配,比如走路和氣質(zhì),它會切分為走路、和氣質(zhì)。第二種是逆向大匹配,如果用逆向大匹配法走路和氣質(zhì)它會拆分為走路、和、氣質(zhì)。第三種是最少切分法,它是使每一句中切出的詞數(shù)量最少,還可以將上述的方法相互結(jié)合。
(2)基于理解的分詞方法。指在分詞的同時(shí)進(jìn)行句法、語義的分析,利用句法信息和語言信息來處理歧義現(xiàn)象。
(3)基于統(tǒng)計(jì)的分詞方法。是根據(jù)漢字共同出現(xiàn)的頻率來分詞。
以百度搜索引擎為例:百度搜索引擎有一個(gè)專有詞典,分詞時(shí)首先查詢專有詞典(人名、部分地名等),將專有名稱切出,剩下的部分采取雙向分詞策略,如果兩者切分結(jié)果相同,說明沒有歧義,直接輸出分詞結(jié)果。
檢索詞在百度的分詞情況,根據(jù)檢索在百度的分詞情況,可以得出的結(jié)論:
百度同時(shí)做出多種分詞方式,首先不拆分進(jìn)行查找,然后先識別專有名詞和新詞,再對其余部分進(jìn)行拆分,采用雙向大匹配的方式。
分享名稱:分詞對seo的影響?
URL分享:http://jinyejixie.com/news/2882.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供響應(yīng)式網(wǎng)站、外貿(mào)建站、面包屑導(dǎo)航、動態(tài)網(wǎng)站、商城網(wǎng)站、云服務(wù)器
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容