2021-12-13 分類: 網(wǎng)站建設(shè)
在數(shù)據(jù)分析和數(shù)據(jù)挖掘的過程中,我們經(jīng)常需要知道個(gè)體間差異的大小,進(jìn)而評(píng)價(jià)個(gè)體的相似性和類別。最常見的是數(shù)據(jù)分析中的相關(guān)分析,數(shù)據(jù)挖掘中的分類和聚類算法,如K最近鄰(KNN)和K均值(K-Means)。當(dāng)然衡量個(gè)體差異的方法有很多,最近查閱了相關(guān)的資料,這里整理羅列下。
為了方便下面的解釋和舉例,先設(shè)定我們要比較X個(gè)體和Y個(gè)體間的差異,它們都包含了N個(gè)維的特征,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)。下面來(lái)看看主要可以用哪些方法來(lái)衡量?jī)烧叩牟町?,主要分為距離度量和相似度度量。
距離度量
距離度量(Distance)用于衡量個(gè)體在空間上存在的距離,距離越遠(yuǎn)說明個(gè)體間的差異越大。
歐幾里得距離(Euclidean Distance)
歐氏距離是最常見的距離度量,衡量的是多維空間中各個(gè)點(diǎn)之間的絕對(duì)距離。公式如下:
因?yàn)橛?jì)算是基于各維度特征的絕對(duì)數(shù)值,所以歐氏度量需要保證各維度指標(biāo)在相同的刻度級(jí)別,比如對(duì)身高(cm)和體重(kg)兩個(gè)單位不同的指標(biāo)使用歐式距離可能使結(jié)果失效。
明可夫斯基距離(Minkowski Distance)
明氏距離是歐氏距離的推廣,是對(duì)多個(gè)距離度量公式的概括性的表述。公式如下:
這里的p值是一個(gè)變量,當(dāng)p=2的時(shí)候就得到了上面的歐氏距離。
曼哈頓距離(Manhattan Distance)
曼哈頓距離來(lái)源于城市區(qū)塊距離,是將多個(gè)維度上的距離進(jìn)行求和后的結(jié)果,即當(dāng)上面的明氏距離中p=1時(shí)得到的距離度量公式,如下:
切比雪夫距離(Chebyshev Distance)
切比雪夫距離起源于國(guó)際象棋中國(guó)王的走法,我們知道國(guó)際象棋國(guó)王每次只能往周圍的8格中走一步,那么如果要從棋盤中a格(x1, y1)走到B格(x2, y2)最少需要走幾步擴(kuò)展到多維空間,其實(shí)切比雪夫距離就是當(dāng)p趨向于無(wú)窮大時(shí)的明氏距離:
其實(shí)上面的曼哈頓距離、歐氏距離和切比雪夫距離都是明可夫斯基距離在特殊條件下的應(yīng)用。
馬哈拉諾比斯距離(Mahalanobis Distance)
既然歐幾里得距離無(wú)法忽略指標(biāo)度量的差異,所以在使用歐氏距離之前需要對(duì)底層指標(biāo)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化,而基于各指標(biāo)維度進(jìn)行標(biāo)準(zhǔn)化后再使用歐氏距離就衍生出來(lái)另外一個(gè)距離度量——馬哈拉諾比斯距離(Mahalanobis Distance),簡(jiǎn)稱馬氏距離。
相似度度量
相似度度量(Similarity),即計(jì)算個(gè)體間的相似程度,與距離度量相反,相似度度量的值越小,說明個(gè)體間相似度越小,差異越大。
向量空間余弦相似度(Cosine Similarity)
余弦相似度用向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異的大小。相比距離度量,余弦相似度更加注重兩個(gè)向量在方向上的差異,而非距離或長(zhǎng)度上。公式如下:
皮爾森相關(guān)系數(shù)(Pearson Correlation Coefficient)
即相關(guān)分析中的相關(guān)系數(shù)r,分別對(duì)X和Y基于自身總體標(biāo)準(zhǔn)化后計(jì)算空間向量的余弦夾角。公式如下:
Jaccard相似系數(shù)(Jaccard Coefficient)
Jaccard系數(shù)主要用于計(jì)算符號(hào)度量或布爾值度量的個(gè)體間的相似度,因?yàn)閭€(gè)體的特征屬性都是由符號(hào)度量或者布爾值標(biāo)識(shí),因此無(wú)法衡量差異具體值的大小,只能獲得“是否相同”這個(gè)結(jié)果,所以Jaccard系數(shù)只關(guān)心個(gè)體間共同具有的特征是否一致這個(gè)問題。如果比較X與Y的Jaccard相似系數(shù),只比較xn和yn中相同的個(gè)數(shù),公式如下:
調(diào)整余弦相似度(adjusted Cosine Similarity)
雖然余弦相似度對(duì)個(gè)體間存在的偏見可以進(jìn)行一定的修正,但是因?yàn)橹荒芊直鎮(zhèn)€體在維之間的差異,沒法衡量每個(gè)維數(shù)值的差異,會(huì)導(dǎo)致這樣一個(gè)情況:比如用戶對(duì)內(nèi)容評(píng)分,5分制,X和Y兩個(gè)用戶對(duì)兩個(gè)內(nèi)容的評(píng)分分別為(1,2)和(4,5),使用余弦相似度得出的結(jié)果是0.98,兩者極為相似,但從評(píng)分上看X似乎不喜歡這2個(gè)內(nèi)容,而Y比較喜歡,余弦相似度對(duì)數(shù)值的不敏感導(dǎo)致了結(jié)果的誤差,需要修正這種不合理性,就出現(xiàn)了調(diào)整余弦相似度,即所有維度上的數(shù)值都減去一個(gè)均值,比如X和Y的評(píng)分均值都是3,那么調(diào)整后為(-2,-1)和(1,2),再用余弦相似度計(jì)算,得到-0.8,相似度為負(fù)值并且差異不小,但顯然更加符合現(xiàn)實(shí)。
歐氏距離與余弦相似度
歐氏距離是最常見的距離度量,而余弦相似度則是最常見的相似度度量,很多的距離度量和相似度度量都是基于這兩者的變形和衍生,所以下面重點(diǎn)比較下兩者在衡量個(gè)體差異時(shí)實(shí)現(xiàn)方式和應(yīng)用環(huán)境上的區(qū)別。
借助三維坐標(biāo)系來(lái)看下歐氏距離和余弦相似度的區(qū)別:
從圖上可以看出距離度量衡量的是空間各點(diǎn)間的絕對(duì)距離,跟各個(gè)點(diǎn)所在的位置坐標(biāo)(即個(gè)體特征維度的數(shù)值)直接相關(guān);而余弦相似度衡量的是空間向量的夾角,更加的是體現(xiàn)在方向上的差異,而不是位置。如果保持a點(diǎn)的位置不變,B點(diǎn)朝原方向遠(yuǎn)離坐標(biāo)軸原點(diǎn),那么這個(gè)時(shí)候余弦相似度cosθ是保持不變的,因?yàn)閵A角不變,而a、B兩點(diǎn)的距離顯然在發(fā)生改變,這就是歐氏距離和余弦相似度的不同之處。
根據(jù)歐氏距離和余弦相似度各自的計(jì)算方式和衡量特征,分別適用于不同的數(shù)據(jù)分析模型:歐氏距離能夠體現(xiàn)個(gè)體數(shù)值特征的絕對(duì)差異,所以更多的用于需要從維度的數(shù)值大小中體現(xiàn)差異的分析,如使用用戶行為指標(biāo)分析用戶價(jià)值的相似度或差異;而余弦相似度更多的是從方向上區(qū)分差異,而對(duì)絕對(duì)的數(shù)值不敏感,更多的用于使用用戶對(duì)內(nèi)容評(píng)分來(lái)區(qū)分用戶興趣的相似度和差異,同時(shí)修正了用戶間可能存在的度量標(biāo)準(zhǔn)不統(tǒng)一的問題(因?yàn)橛嘞蚁嗨贫葘?duì)絕對(duì)數(shù)值不敏感)。
上面都是對(duì)距離度量和相似度度量的一些整理和匯總,在現(xiàn)實(shí)的使用中選擇合適的距離度量或相似度度量可以完成很多的數(shù)據(jù)分析和數(shù)據(jù)挖掘的建模,后續(xù)會(huì)有相關(guān)的介紹。
網(wǎng)頁(yè)標(biāo)題:距離和相似度度量
當(dāng)前URL:http://jinyejixie.com/news32/140132.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站維護(hù)、做網(wǎng)站、品牌網(wǎng)站制作、品牌網(wǎng)站建設(shè)、電子商務(wù)、外貿(mào)建站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容