2016-08-10 分類: 網(wǎng)站建設(shè)
解決標(biāo)簽,爬行,以及用戶生成的內(nèi)容
解決標(biāo)簽蔓延:爬行預(yù)算,復(fù)制內(nèi)容,以及用戶生成的內(nèi)容
先進(jìn)的搜索引擎優(yōu)化|咨詢|技術(shù)SEO
打擊壞的辯解書呆子的指導(dǎo),重復(fù)的用戶生成的數(shù)據(jù),統(tǒng)計的內(nèi)容,和純粹的意志的力量。
這里是情況。你有一百萬個產(chǎn)品網(wǎng)站。你的競爭對手有很多相同的產(chǎn)品。你需要獨特的內(nèi)容。你是做什么的?每個人都做同樣的事情-你轉(zhuǎn)向用戶生成的內(nèi)容。問題解決了,對吧?
用戶生成的內(nèi)容(UGC)可以是一個非常有價值的內(nèi)容和組織來源,幫助您建立自然語言描述和人為驅(qū)動的網(wǎng)站內(nèi)容組織。網(wǎng)站利用用戶創(chuàng)建內(nèi)容的一個共同特征是標(biāo)簽,隨處可見,從電子商務(wù)網(wǎng)站到博客。網(wǎng)站管理員可以利用標(biāo)簽功率網(wǎng)站搜索,創(chuàng)建分類和產(chǎn)品瀏覽類別,并提供網(wǎng)站內(nèi)容豐富的描述。
這是一個合乎邏輯和實際的方法,但如果不加以控制會導(dǎo)致棘手的SEO問題。對于大型網(wǎng)站,手動調(diào)節(jié)數(shù)以百萬計的用戶提交的標(biāo)簽可能是繁瑣的(如果不是完全不可能)。但是,未標(biāo)記的標(biāo)簽會產(chǎn)生大量內(nèi)容稀疏、內(nèi)容重復(fù)和內(nèi)容擴展的大規(guī)模問題。在我們的案例研究下面,來自不同公司的三個技術(shù)SEO聯(lián)手解決大規(guī)模標(biāo)簽擴展問題。該項目是由Jacob Bohall,在蜂巢的數(shù)字營銷副總裁,而計算統(tǒng)計服務(wù)是由J.R. Oakes適應(yīng)合作伙伴和Russ瓊斯MOZ提供。讓我們潛水。
什么是標(biāo)簽蔓延?
我們定義標(biāo)簽蔓延的不受限制的增長獨特的,用戶貢獻(xiàn)的標(biāo)簽產(chǎn)生大量的重復(fù)頁面和不必要的爬行空間。標(biāo)簽蔓延產(chǎn)生的URL可能被列為門戶頁面,頁面出現(xiàn)只存在的目的是建立一個索引在一個詳盡的關(guān)鍵字?jǐn)?shù)組。你可能見過這在其最基本的形式在帖子在博客的標(biāo)簽,這就是為什么大多數(shù)SEO推薦一個毯子”NOINDEX,遵循“在標(biāo)簽頁的WordPress網(wǎng)站。這種簡單的方法可以是一個有效的解決方案,為小博客網(wǎng)站,但往往不是解決方案的主要電子商務(wù)網(wǎng)站,更依賴于標(biāo)簽進(jìn)行分類的產(chǎn)品。
以下三個標(biāo)簽云代表用戶生成的術(shù)語與不同的股票照片的列表。注:用戶行為通常是盡可能多的標(biāo)簽,以確保他們的產(chǎn)品大限度地暴露。
美國航空母艦約克鎮(zhèn)號,約克鎮(zhèn),CV,cvs-10,好人李察,革命戰(zhàn)爭的船舶、軍艦、海軍船、軍艦,攻擊航母,愛國點,標(biāo)志性建筑,歷史性的船只,埃塞克斯級航母,水,海洋
船舶、船只、約克鎮(zhèn)、戰(zhàn)艇,愛國者足尖,舊軍艦,歷史地標(biāo),航母、軍艦、海軍艦艇,海軍艦艇,看,海洋
約克船舶、軍艦和航母,歷史軍事船只的美國航空母艦約克鎮(zhèn)號航空母艦
你可以看到,每個用戶產(chǎn)生的有價值的信息的照片,這是我們將要使用的為相關(guān)股票的圖像創(chuàng)建可轉(zhuǎn)位的分類依據(jù)。然而,在任何類型的規(guī)模,我們有直接的威脅:
細(xì)內(nèi)容:只有少數(shù)產(chǎn)品共享用戶生成的標(biāo)簽,當(dāng)用戶創(chuàng)建一個更具體的/定義標(biāo)簽,例如“cvs-10”
重復(fù)和類似的內(nèi)容:這些標(biāo)簽會重疊,如“美國航空母艦約克鎮(zhèn)號”與“約克,“船”與“船”的“簡歷”與“cvs-10,”等。
壞的內(nèi)容:通過不正當(dāng)?shù)母袷?,拼寫錯誤,冗長的標(biāo)簽,斷字和類似的錯誤創(chuàng)造,由用戶。
現(xiàn)在,你明白什么是標(biāo)簽蔓延和它如何負(fù)面影響你的網(wǎng)站,我們?nèi)绾尾拍芙鉀Q這個問題的規(guī)模?
提出的解決方案
在糾正標(biāo)簽擴展,我們有一些基本的(在表面上)的問題來解決。我們需要有效地檢查數(shù)據(jù)庫中的每個標(biāo)記,并將它們分組,以便采取進(jìn)一步的行動。首先,我們確定一個標(biāo)簽的質(zhì)量(有可能是有人搜索這個標(biāo)簽,它拼寫正確,它是商業(yè)的,它是用于許多產(chǎn)品)和第二,我們確定是否有另一個標(biāo)簽非常相似,它具有較高的質(zhì)量。
確定好的標(biāo)簽:我們定義了一個好的標(biāo)簽作為術(shù)語能夠貢獻(xiàn)的意義,并很容易作為一個索引頁在搜索結(jié)果。這也需要識別一個“主”標(biāo)簽來表示類似的術(shù)語組。
識別壞標(biāo)簽:我們想孤立的標(biāo)簽不應(yīng)該出現(xiàn)在我們的數(shù)據(jù)庫中,由于拼寫錯誤,重復(fù),可憐的格式,高歧義,或可能導(dǎo)致低質(zhì)量的頁面。
好與壞標(biāo)簽標(biāo)簽:我們認(rèn)為我們的許多最初的“壞標(biāo)簽”可能是一個系列的副本,即復(fù)數(shù)/奇異、技術(shù)/俚語,聯(lián)用/非聯(lián)用,動詞,和其他的莖。也有可能是兩個短語指同一件事,像“約克船舶”和“美國航空母艦約克鎮(zhèn)號。“我們需要確定這些關(guān)系的每一個“壞”的標(biāo)簽。
對于這個項目的啟發(fā),我們的樣本標(biāo)簽數(shù)據(jù)庫包括超過2000000個“獨特”的標(biāo)簽,使這幾乎是不可能的壯舉,以手工完成。雖然理論上我們可以利用機械土耳其人或類似的平臺得到“手動”審查,這種方法的早期測試被證明是不成功的。我們需要一個程序化的方法(實際上是一些方法),我們可以稍后在添加新標(biāo)簽時重現(xiàn)。
方法
保持心中的目標(biāo)識別好的標(biāo)簽,標(biāo)簽和標(biāo)簽的壞標(biāo)簽,好與壞的標(biāo)簽,我們雇了十幾個方法,包括:拼寫校正,出價值,標(biāo)簽的搜索量,獨特的訪客,標(biāo)簽數(shù)、堵塞、詞干提取、Jaccard指數(shù),Jaro Winkler距離波特,關(guān)鍵字規(guī)劃分組,維基百科歧,和k-均值的詞向量聚類。每一種方法都幫助我們確定標(biāo)簽是否有價值,如果沒有,幫助我們確定一個替代標(biāo)簽是有價值的。
拼寫校正
方法:一個明顯的問題與用戶生成的內(nèi)容是拼寫錯誤的發(fā)生。我們會經(jīng)常發(fā)現(xiàn)拼寫錯誤,分號后的字母“L”或詞的開頭或結(jié)尾有意想不到的人物。幸運的是,Linux具有內(nèi)置的拼寫檢查稱為一個我們能夠使用來解決大量的問題。
好處:這提供了一個快速,早期的勝利,這是相當(dāng)容易識別壞標(biāo)簽時,他們組成的詞不包括在字典或包括字符,這是簡單的莫名其妙(如分號中間的一個字)。此外,如果修正后的詞或短語出現(xiàn)在標(biāo)簽列表,我們可以信任修正的短語作為一個潛在的好的標(biāo)簽,并將拼錯的詞好標(biāo)簽。因此,這種方法有助于我們兩個過濾不良標(biāo)簽(拼錯的詞)和找到好的標(biāo)簽(拼寫校正的術(shù)語)
局限性:這種方法大的局限在于正確拼寫單詞或短語的組合對用戶或搜索引擎不一定有用。例如,數(shù)據(jù)庫中的標(biāo)簽很多都是多個標(biāo)簽在用戶空間分隔,而不是逗號分隔的提交標(biāo)簽串連。因此,標(biāo)簽可能包括拼寫正確的術(shù)語,但仍然是無用的搜索值。此外,有大量字典的限制,特別是域名,品牌和互聯(lián)網(wǎng)俚語。為了適應(yīng)這種情況,我們增加了一個個人的字典,包括根據(jù)Quantcast排名最前的10000域,幾千個品牌,和一個俚語詞典。雖然這是有幫助的,仍然有一些錯誤的建議,需要處理。例如,我們看到“purfect”正確的“好”盡管是一個貓的形象和流行文化有關(guān)的。我們也注意到一些用戶參考這句話“這款,”purrrfect,”purrrrfect,”purrfeck等,“最終,我們不得不依靠其他指標(biāo)來決定我們是否可信的拼寫建議。
買入價值
方法:雖然標(biāo)簽可能是好的,在某種意義上說,它是描述性的,我們想要的標(biāo)簽,商業(yè)相關(guān)。使用標(biāo)簽或標(biāo)簽短語的每次點擊成本證明是有用的,以確保這個詞可以吸引買家,而不僅僅是游客。
好處:這種方法的一個偉大的特點是,它往往有一個高信號噪聲比。大部分的標(biāo)簽,具有很高的材料往往是商業(yè)相關(guān)的搜索頻繁足以列入“好標(biāo)簽”。在許多情況下,我們可以確信一個標(biāo)簽只是在這個度量就好。
局限性:然而,出價值度量也有一些很大的局限性。對于初學(xué)者來說,谷歌關(guān)鍵詞策劃者的消歧問題顯而易見。谷歌結(jié)合相關(guān)的關(guān)鍵詞搜索量和共產(chǎn)黨一起報告時的數(shù)據(jù),這意味著一個標(biāo)簽,如“Facbook”將返回相同的數(shù)據(jù)為“臉譜網(wǎng)”。顯然,我們寧愿地圖“Facbook”到“臉譜網(wǎng)”而不是保持標(biāo)簽,所以在某些情況下,中共度量不足以確定好標(biāo)簽。出價值的進(jìn)一步限制是獲取CPC數(shù)據(jù)的難點。谷歌現(xiàn)在需要運行有效的AdWords廣告系列獲得中國共產(chǎn)黨的價值。這是不是簡單的壯舉,看看5000000關(guān)鍵詞在谷歌關(guān)鍵詞規(guī)劃師,即使你有足夠的帳戶。幸運的是,我們覺得歷史數(shù)據(jù)足夠可信,所以我們不需要獲得新的數(shù)據(jù)。
標(biāo)簽的搜索量
方法:與CPC相似,我們可以使用搜索量來確定標(biāo)簽的潛在值。不過,我們必須小心,不要依賴于標(biāo)簽本身,因為標(biāo)簽可能是通用的,它使流量與產(chǎn)品本身無關(guān)。例如,標(biāo)簽“美國航空母艦約克鎮(zhèn)號可能有幾百的搜索一個月,但“美國航空母艦約克鎮(zhèn)號T恤”獲得0。對于我們索引中的所有標(biāo)簽,我們跟蹤了標(biāo)簽的搜索量以及產(chǎn)品名稱,以確保我們對潛在產(chǎn)品流量有了很好的估計。
好處:像CPC,這個度量做了一個很好的工作,鞏固我們的標(biāo)簽數(shù)據(jù)集只關(guān)鍵字,有可能提供流量。在絕大多數(shù)情況下,如果“標(biāo)簽+產(chǎn)品”有搜索量,我們可以確信這是一個好術(shù)語。
局限性:不幸的是,這種方法是受害者的相同的消歧問題,中共提出。由于谷歌集團的條款一起,有可能在某些情況下,兩個標(biāo)簽將給予相同的指標(biāo)。例如:“浮船,”pontoonboat,“浮船,“浮船,”船劃船,”和“浮船”在同一流量組還包括像“游艇”、“游艇標(biāo)簽。”此外,沒有占在這個度量關(guān)鍵詞難度。一些標(biāo)簽,當(dāng)結(jié)合產(chǎn)品類型、產(chǎn)品關(guān)鍵詞,獲得可觀的流量卻永遠(yuǎn)是遙不可及的模板標(biāo)簽頁。
獨特的訪客
方法:這個方法是顯而易見的:保護已經(jīng)收到來自谷歌的流量標(biāo)記。我們出口了所有的標(biāo)簽從谷歌分析,已收到搜索流量從谷歌在過去12個月。一般來說,這應(yīng)該是一個相當(dāng)安全的條款列表。
好處:當(dāng)與客戶進(jìn)行實驗工作時,能夠給他們一個幾乎可以保證改進(jìn)的方案總是很好的。因為我們能夠保護標(biāo)簽已經(jīng)收到的交通標(biāo)簽他們好(在絕大多數(shù)情況下),我們可以確??蛻粲泻芨叩睦麧櫍瑥奈覀兯龅淖兓惋L(fēng)險最小的任何交通損失。
局限性:不幸的是,即使這種方法并不好。如果一個產(chǎn)品(或一組產(chǎn)品)具有足夠高的權(quán)限,包括一個標(biāo)簽的差的變化,那么壞的變種將排名和接收流量。我們必須使用其他策略來驗證我們的選擇,從這個方法,并設(shè)計了一種方法,以鼓勵標(biāo)簽交換索引的正確版本的期限。
標(biāo)簽數(shù)
描述:標(biāo)簽使用的頻率往往是一個強烈的信號,我們可以信任的標(biāo)簽,尤其是當(dāng)與其他類似的標(biāo)簽相比。通過計算每個標(biāo)簽在網(wǎng)站上使用的次數(shù),我們可以將最后一組值得信賴的標(biāo)簽偏向于這些更受歡迎的術(shù)語。
好處:這是一個偉大的決勝指標(biāo),當(dāng)我們有兩個標(biāo)簽非常相似,但需要選擇只有一個。例如,有時一個詞組兩變種被完全接受(如版本和無連字符)。我們可以簡單地推遲一個具有較高的標(biāo)簽數(shù)。
局限性:標(biāo)簽頻率的明顯限制是許多最頻繁的標(biāo)簽過于通用而不實用。標(biāo)簽“藍(lán)色”是不是特別有用,當(dāng)它只是幫助人們找到“藍(lán)色T恤”這個詞是
詞干提取
方法:詞干提取的工作類似于堵塞。然而,而不是使用一個規(guī)則集除信件到達(dá)干編輯的話,lemmatization試圖地圖的術(shù)語,其最簡單的詞典形式,如WordNet,并返回一個規(guī)范的“引理”這個詞。想想一個粗略的方式是詞干提取簡化字。這里有一個API來檢查出。
好處:這種方法往往比堵塞更好。術(shù)語“船”,“運”,“船”都映射到“船舶”,這種方法,而“航運”或“托運人”,這是具有不同的含義,盡管有相同的干,保留。您可以創(chuàng)建一個數(shù)組的“引理”從短語可以比較其他短語解決詞序問題。這被證明是一個更可靠的方法分組比詞干的變化。
局限性:與許多方法一樣,映射相關(guān)術(shù)語的上下文可能是困難的。詞干提取可以上下文提供更好的過濾器,但這樣做通常依賴于詞的形式(名詞,形容詞,識別等)適當(dāng)?shù)赜成涞揭粋€根詞。由于用戶生成的內(nèi)容不一致,假設(shè)所有的詞都是形容詞形式(描述產(chǎn)品)或名詞形式(產(chǎn)品本身)是不準(zhǔn)確的。這種不一致可以呈現(xiàn)出瘋狂的結(jié)果。例如,“脫衣襪”的目的是作為一個標(biāo)簽,襪子的顏色帶在他們身上,如“條紋襪”,或它可能是“脫衣襪”或其他一些綁腿,這將是一個匹配只發(fā)現(xiàn)如果有其他產(chǎn)品和標(biāo)簽比較的背景。此外,它不創(chuàng)建所有相關(guān)的詞之間的關(guān)聯(lián),只是文本衍生工具,所以你仍然在尋找一個規(guī)范之間的郵差,快遞,托運人等
Jaccard指數(shù)
方法:Jaccard指數(shù)是衡量交叉相似系數(shù)在聯(lián)盟?,F(xiàn)在,不要跑了,只是,其實很簡單。
想象一下,你有兩堆3個彈珠:紅色,綠色和藍(lán)色的第一,紅色,綠色和黃色的第二。這兩個樁的“交集”是紅色和綠色,因為兩個樁有這兩種顏色。“聯(lián)合”將是紅色,綠色,藍(lán)色和黃色,因為這是所有顏色的完整列表。Jaccard指數(shù)為2(紅色和綠色)除以4(紅色,綠色,藍(lán)色,黃色)。因此,這兩樁Jaccard指數(shù)將是5。較高的Jaccard指數(shù),更相似的兩套。
那么這與標(biāo)簽有什么關(guān)系呢?嗯,想象一下,我們有兩個標(biāo)簽:“海洋”和“海”,我們可以得到一個列表中的所有已標(biāo)記為“海洋”和“海洋產(chǎn)品。”最后,我們把這兩個集合的Jaccard指數(shù)。分?jǐn)?shù)越高,他們的相關(guān)性越大。也許我們發(fā)現(xiàn),70%的產(chǎn)品與標(biāo)簽“海洋”也有標(biāo)簽“海”,我們現(xiàn)在知道,這兩個是相當(dāng)好的相關(guān)。然而,當(dāng)我們運行相同的測量比較“地下室”或“平,“我們發(fā)現(xiàn)他們只有Jaccard指數(shù)02。盡管它們在人物方面非常相似,但它們卻意味著完全不同的東西。我們可以排除將兩個術(shù)語映射在一起。
優(yōu)點:使用Jaccard指數(shù)的大好處是它可以讓我們找到高度相關(guān)的標(biāo)簽可能有共同的絕對沒有文本的特點,很可能有一個過于相似或重復(fù)的結(jié)果集。雖然大多數(shù)的指標(biāo),我們認(rèn)為到目前為止幫助我們找到“好”或“壞”的標(biāo)簽,Jaccard指數(shù)可以幫助我們找到“相關(guān)”的標(biāo)簽,而無需做任何復(fù)雜的機器學(xué)習(xí)。
局限性:當(dāng)然有用,Jaccard指數(shù)的方法有其自身的問題。我們遇到的大問題是與標(biāo)簽一起使用幾乎所有的時間,但不是替代彼此。例如,考慮標(biāo)簽“魯思寶貝”和他的綽號,“蘇丹特警”。后者只發(fā)生在產(chǎn)品的標(biāo)簽上也有“魯思寶貝”的標(biāo)簽(因為這是他的一個綽號),所以他們有很高的Jaccard指數(shù)。然而,谷歌并沒有將這兩個術(shù)語映射在一起,所以我們更喜歡保留這個昵稱,而不是簡單地將其重定向到“貝貝魯思”,如果我們要確定什么時候我們應(yīng)該同時保留兩個標(biāo)簽,或者我們應(yīng)該將一個標(biāo)簽重定向到另一個標(biāo)簽時,我們需要深入挖掘。作為一個獨立的,這種方法也并不充分,在確定的情況下,用戶總是拼錯的標(biāo)簽或使用不正確的語法,他們的產(chǎn)品基本上沒有“聯(lián)盟成為孤兒。”
Jaro Winkler距離
方法:有幾個編輯距離和字符串相似性度量,我們在整個過程中使用。編輯距離僅僅是衡量一個單詞如何改變另一個單詞有多么困難。例如,最基本的編輯距離度量的Levenshtein距離之間的“Russ Jones”和“Russell Jones”是3(你要加“E”、“L”和“L”將Russ羅素)。這可以用來幫助我們找到類似的單詞和短語。在我們的例子中,我們使用一個特定的編輯距離的措施稱為“Jaro Winkler距離”使高優(yōu)先級的詞和短語,起初是相似的。例如,“棒球”將更接近“Baseballer”比“籃球”因為差異是在學(xué)期結(jié)束。
好處:編輯距離度量幫助我們找到許多標(biāo)簽非常相似的變種,特別是當(dāng)變量是不是拼寫錯誤。這是特別有價值的使用與Jaccard指數(shù)指標(biāo)結(jié)合,因為我們可以將上一個字符無關(guān)的度量字符水平的度量(即一個關(guān)心標(biāo)簽中的字母和一個不)。
限制:編輯距離度量可以是一種愚蠢。根據(jù)Jaro Winkler的距離,“棒球”和“籃球”更相關(guān)的一個比“棒球”和“投手”和“捕手”,“團團”和“圓”有一個可怕的編輯距離度量,而“圓”和“磅”看上去很相似。編輯距離根本不能孤立使用找到類似的標(biāo)簽。
關(guān)鍵詞規(guī)劃分組
方法:雖然谷歌的選擇相結(jié)合的關(guān)鍵字相似的關(guān)鍵字預(yù)測交通問題,它實際上為我們提供了一種新的方法來識別高度相關(guān)的術(shù)語。每當(dāng)兩個標(biāo)簽共享相同的指標(biāo),從谷歌關(guān)鍵詞規(guī)劃師(每月平均流量,歷史流量,CPC,和競爭),我們可以得出這樣的結(jié)論:有一個增加的機會,這兩個相互關(guān)聯(lián)。
好處:這種方法對于縮寫詞(特別是難以檢測)非常有用。雖然谷歌集團共同首席運營官和首席運營官,你可以想象,像上面提到的標(biāo)準(zhǔn)方法可能有問題檢測的關(guān)系。
限制:這種方法大的缺點是,它創(chuàng)造了眾多的誤報少受歡迎的條款。有太多的關(guān)鍵詞,每年的搜索量平均為10,每月搜索10次,并有黨和競爭的0。因此,我們不得不限制使用這種方法更流行的術(shù)語,只有極少數(shù)的比賽。
維基百科的消歧
方法:上面的許多方法是很好的分組相似/相關(guān)的條款,但不提供一個高信心的方法確定“主”的術(shù)語或短語代表一組相關(guān)/重復(fù)的術(shù)語。雖然可以考慮測試所有標(biāo)簽對英語語言模型,缺乏流行文化的引用和短語,使它不可靠。為了有效地做到這一點,我們發(fā)現(xiàn)維基百科是一個值得信賴的來源,以確定適當(dāng)?shù)钠磳懀瑫r態(tài),格式和詞序為任何給定的標(biāo)簽。例如,如果用戶標(biāo)記的產(chǎn)品為“魔戒”,“魔戒”,“魔戒”,“很難確定哪些標(biāo)簽應(yīng)該是選(當(dāng)然我們不需要所有的3)。如果你搜索維基百科的這些條款,你會看到他們重定向到標(biāo)題為“指環(huán)王”的網(wǎng)頁,在許多情況下,我們可以相信他們的典型變體作為“好標(biāo)簽”,請注意,我們不鼓勵刮任何網(wǎng)站或違反其使用條款。維基百科確實提供了一個可以用于研究目的的整個數(shù)據(jù)庫的導(dǎo)出。
好處:當(dāng)標(biāo)簽可以映射到維基百科條目,這種方法被證明是一個非常有效的提供驗證,標(biāo)簽有潛在的價值,或創(chuàng)建一個參考點的相關(guān)標(biāo)簽。
k-均值向量聚類
方法:最后,我們試圖將標(biāo)簽為一個子集更有意義的標(biāo)簽使用Word嵌入和k-均值聚類。一般來說,參與的過程轉(zhuǎn)化為符號(單詞)的標(biāo)簽,然后精煉的詞性(名詞、動詞、形容詞),和最后的lemmatizing令牌(“藍(lán)襯衫”變成了“藍(lán)衫”)。從那里,我們將所有標(biāo)記為一個自定義Word2vec嵌入模型的基礎(chǔ)上加入每個令牌陣列向量。我們創(chuàng)建了一個標(biāo)簽陣列和數(shù)據(jù)集的每個標(biāo)簽的向量數(shù)組,然后跑k-均值的標(biāo)簽的總數(shù)為百分之10多點的價值。起初,我們測試了30000個標(biāo)簽,并取得了合理的結(jié)果。
以上分類列被選中的Kmeans質(zhì)心。注意如何處理匹配的“海邊”到“海灘”和“沿海”到“海灘”。
好處:這種方法似乎做了一個很好的工作找到標(biāo)簽和他們的類別之間的語義比字符驅(qū)動。“藍(lán)色襯衫”可能與“服裝”相匹配,這顯然是不可能的,因為在向量空間中沒有語義關(guān)系。
局限性:最終,我們遇到的主要缺點是試圖運行k-均值滿二百萬標(biāo)簽而結(jié)束了200000類(重心)。sklearn Python允許多個并行工作,但只有在質(zhì)心的初始化,在這種情況下是11的意思,即使你跑在60核心處理器,并行工作的數(shù)量被初始化的數(shù)量有限,在這種情況下,又是11。我們嘗試PCA(主成分分析),以減少矢量尺寸(300至10),但結(jié)果總體較差。最后,因為嵌入通常是基于條件概率封閉語料庫中對他們進(jìn)行訓(xùn)練了,有比賽,你可以理解為什么他們匹配,但顯然沒有正確的類別(如“第十九個世紀(jì)的藝術(shù)”被選為一類“第十八世紀(jì)的藝術(shù)”)。最后,環(huán)境問題和字嵌入顯然遭受認(rèn)識的差異之間的“鴨子”(動物)和“鴨子”(行動)。
把它一起
使用上述方法的組合,我們能夠開發(fā)出一系列的方法的信心分?jǐn)?shù),可以應(yīng)用到任何標(biāo)簽在我們的數(shù)據(jù)集,產(chǎn)生一個啟發(fā)式如何考慮每個標(biāo)簽前進(jìn)。這些是案例級別的戰(zhàn)略,以確定適當(dāng)?shù)姆椒?。我們表示如下?/p>
好標(biāo)簽:這主要是作為我們的“不接觸”的條款已經(jīng)收到來自谷歌的流量列表。經(jīng)過一些確認(rèn)練習(xí),名單擴展到包括獨特的條款與排名潛力,商業(yè)吸引力,獨特的產(chǎn)品集,以提供給客戶。例如,這個類別的啟發(fā)式可能看起來像這樣:
如果標(biāo)簽與維基百科條目相同
標(biāo)簽+產(chǎn)品估計搜索流量和
標(biāo)簽有CPC值
馬克“好標(biāo)簽”
好的標(biāo)簽:這代表,我們想保留的產(chǎn)品和他們的描述有關(guān),因為他們可以在網(wǎng)站上用來添加背景的一頁,但不保證自己的可轉(zhuǎn)位的空間。這些標(biāo)簽映射被重定向或canonicaled到大師”,“但仍包含在一個網(wǎng)頁的主題相關(guān)度,自然語言查詢,長尾搜索,例如,啟發(fā)這類可能看起來像這樣:
如果標(biāo)簽與維基百科條目相同,但
標(biāo)簽+產(chǎn)品沒有搜索量
矢量標(biāo)簽匹配“好標(biāo)簽”
馬克作為“好標(biāo)簽”,并重定向到“好標(biāo)簽”
別壞標(biāo)簽:這個分組代表壞標(biāo)簽映射到一個置換。這些標(biāo)簽將被刪除,并用修正的版本替換。這是最常見的拼寫錯誤或發(fā)現(xiàn)通過堵塞/詞干提取等,占主導(dǎo)地位的替代被確定。例如,這個類別的啟發(fā)式可能看起來像這樣:
如果標(biāo)簽是不相同的維基百科或向量空間和
標(biāo)簽+產(chǎn)品沒有搜索量
標(biāo)簽沒有卷
標(biāo)簽維基百科條目匹配“好標(biāo)簽”
馬克為“映射”的壞標(biāo)簽
要刪除的壞標(biāo)簽:這些標(biāo)簽被標(biāo)記為不好標(biāo)簽的壞標(biāo)簽。從本質(zhì)上講,這些需要從我們的數(shù)據(jù)庫完全刪除。這最后一組代表最壞的最壞的感覺,標(biāo)簽的存在可能會被認(rèn)為是一個負(fù)面指標(biāo)的網(wǎng)站質(zhì)量。考慮了字符長度的標(biāo)簽,缺乏維基百科條目,無法映射到字向量,沒有以前的流量,沒有預(yù)測的流量或CPC值,等等,在許多情況下,這些都是廢話短語。
總之,我們能夠減少87.5%的標(biāo)簽的數(shù)量,鞏固了網(wǎng)站的一個合理的,有針對性的,有用的一組標(biāo)簽,適當(dāng)?shù)亟M織語料庫,而不浪費爬行預(yù)算或限制用戶參與。
結(jié)論:高級白帽SEO
這是近九年前,一個著名的黑帽SEO稱為白帽SEO是簡單、陳舊,缺乏創(chuàng)新和。他聲稱,“先進(jìn)的白帽SEO”是一個矛盾--它根本不存在。我很自豪當(dāng)時回應(yīng)他的要求使用數(shù)字技術(shù)的蜂巢我稱它為“第二頁偷獵。”這是一個偉大的技術(shù),但它蒼白的方法,我們現(xiàn)在看到的比較成熟的今天。我從來沒有設(shè)想的深度或廣度的技術(shù)水平,這將開發(fā)白帽子SEO社區(qū)處理獨特但持久的問題面臨著網(wǎng)站管理員。
我真誠地懷疑這里的大多數(shù)讀者將有特定的標(biāo)簽蔓延的問題,上面所述。我會很幸運,如果你們中的一些人已經(jīng)碰到它。我希望這篇文章可以糾正我們?nèi)魏温嫲酌盨EO那么膚淺或停滯和激勵那些在我們的空間給他們工作。
文章標(biāo)題:解決標(biāo)簽,爬行,以及用戶生成的內(nèi)容
URL標(biāo)題:http://jinyejixie.com/news/20755.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App設(shè)計、網(wǎng)站改版、小程序開發(fā)、手機網(wǎng)站建設(shè)、服務(wù)器托管、關(guān)鍵詞優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容