2022-07-16 分類: 網(wǎng)站建設(shè)
成都網(wǎng)站建設(shè)--創(chuàng)新互聯(lián)小編說(shuō)說(shuō) 什么是文件匹配?
搜索詞經(jīng)過(guò)處理后,搜索引擎得到的是以詞為基礎(chǔ)的關(guān)鍵詞集合。文件匹配階段就是找出含有所有搜索關(guān)鍵詞的所有文件。在索引部分提到的倒排索引使得文件匹配能夠快速完成,成都網(wǎng)站建設(shè)--創(chuàng)新互聯(lián)小編放一張圖給大家看看:
成都網(wǎng)站建設(shè)--創(chuàng)新互聯(lián)小編假設(shè)用戶搜索“關(guān)鍵詞2”和“關(guān)鍵詞7”,排名程序只要在倒排索引中找到“關(guān)鍵詞2”和“關(guān)鍵詞7”這兩個(gè)詞,就能找到分別含有這兩個(gè)詞的所有頁(yè)面。經(jīng)過(guò)簡(jiǎn)單求交集計(jì)算就能找出既包含”關(guān)鍵詞2”和“關(guān)鍵詞7”的所有頁(yè)面:文件1和文件6。
初始集結(jié)的選擇:找到所有關(guān)鍵詞的匹配文件后,還不能進(jìn)行相關(guān)性計(jì)算,需要的時(shí)間還是太長(zhǎng)。實(shí)際上用戶并不需要知道所有匹配的幾十萬(wàn),幾百萬(wàn)個(gè)頁(yè)面,絕大部分用戶只會(huì)查看前兩頁(yè),也就是前20個(gè)結(jié)果。搜索引擎也并不需要計(jì)算這么多頁(yè)面的相關(guān)性,而只要計(jì)算最重要的一部分頁(yè)面就可以了。常用搜索引擎的人都會(huì)注意到,搜索結(jié)果頁(yè)面通常最多顯示100個(gè)。用戶點(diǎn)擊搜索結(jié)果頁(yè)面底部“下一頁(yè)”鏈接,最多也只能看到第100頁(yè),也就是1000個(gè)搜索結(jié)果,成都網(wǎng)站建設(shè)--創(chuàng)新互聯(lián)小編發(fā)張下圖。
百度則通常返回76頁(yè)結(jié)果,成都網(wǎng)站建設(shè)--創(chuàng)新互聯(lián)小編發(fā)張下圖。360搜索通常犯諱頁(yè)結(jié)果,必應(yīng)貌似冒雨固定頁(yè)數(shù),會(huì)根據(jù)不同查詢?cè)~而變化,但也不會(huì)超過(guò)100頁(yè)。
總之,最多顯示1000個(gè)搜索結(jié)果,所以搜索引擎又怎么知道哪1000個(gè)文件是最相關(guān)的?所以用于最后相關(guān)性計(jì)算的初始頁(yè)面子集的選擇,必須依靠其他特珍而不是相關(guān)性(這些文件都包含所有查詢關(guān)鍵詞),搜索引擎通常會(huì)用非相關(guān)性的頁(yè)面特征選出一個(gè)初始子集。初始子集的數(shù)目是多少?幾萬(wàn)個(gè)?或許更多,外人并不知道。不過(guò)可以肯定的是,當(dāng)匹配頁(yè)面數(shù)目巨大時(shí),搜索引擎不會(huì)對(duì)這么多頁(yè)面進(jìn)行實(shí)時(shí)計(jì)算,而必須選出一個(gè)頁(yè)面權(quán)重較高的一個(gè)子集,再對(duì)子集的頁(yè)面進(jìn)行相關(guān)性計(jì)算。
分享文章:什么是文件匹配?
轉(zhuǎn)載來(lái)源:http://jinyejixie.com/news40/179940.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供標(biāo)簽優(yōu)化、手機(jī)網(wǎng)站建設(shè)、網(wǎng)站制作、小程序開(kāi)發(fā)、網(wǎng)站維護(hù)、全網(wǎng)營(yíng)銷推廣
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容