機(jī)器學(xué)習(xí)筆記-模式識(shí)別-創(chuàng)新互聯(lián)

平均分布(Uniform Distribution) 跟正態(tài)分布(normaldistribution)
讓客戶滿意是我們工作的目標(biāo)，不斷超越客戶的期望值來(lái)自于我們對(duì)這個(gè)行業(yè)的熱愛(ài)。我們立志把好的技術(shù)通過(guò)有效、簡(jiǎn)單的方式提供給客戶，將通過(guò)不懈努力成為客戶在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴，公司提供的服務(wù)項(xiàng)目有：域名與空間、雅安服務(wù)器托管、營(yíng)銷(xiāo)軟件、網(wǎng)站建設(shè)、臨澤網(wǎng)站維護(hù)、網(wǎng)站推廣。

分布特性可以讓我們通過(guò)一部分的數(shù)了解整體的分布

正態(tài)分布特性:

平均值(mean) = 中位數(shù)(median) = 眾數(shù)(model)

密度函數(shù)關(guān)于平均值對(duì)稱

函數(shù)曲線下68.268949%的面積在平均數(shù)左右的一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)

95.449974%的面積在平均數(shù)左右兩個(gè)標(biāo)準(zhǔn)差{\displaystyle 2\sigma } $機(jī)器學(xué)習(xí)筆記-模式識(shí)別$ 的范圍內(nèi)。

99.730020%的面積在平均數(shù)左右三個(gè)標(biāo)準(zhǔn)差{\displaystyle 3\sigma } $機(jī)器學(xué)習(xí)筆記-模式識(shí)別$ 的范圍內(nèi)

99.993666%的面積在平均數(shù)左右四個(gè)標(biāo)準(zhǔn)差{\displaystyle 4\sigma } $機(jī)器學(xué)習(xí)筆記-模式識(shí)別$ 的范圍內(nèi)

函數(shù)曲線的反曲點(diǎn)（inflection point）為離平均數(shù)一個(gè)標(biāo)準(zhǔn)差距離的位置

2.方差（Variance）

Var(X) = σ² = 1/n∑(xi-u)2

模式識(shí)別

基本概念

分類(classification)

識(shí)別出樣本所屬的類別。根據(jù)識(shí)別前是否需要進(jìn)行訓(xùn)練，可分為有監(jiān)督分類(supervised classification)何無(wú)監(jiān)督分類(unsupervised classification)。

有監(jiān)督分類：根據(jù)已知訓(xùn)練區(qū)提供的樣本，通過(guò)計(jì)算選擇特征參數(shù)，建立判別函數(shù)以對(duì)樣本進(jìn)行的分類。

無(wú)監(jiān)督分類：指人們事先對(duì)分類過(guò)程不施加任何的先驗(yàn)知識(shí)，而僅憑數(shù)據(jù)，即自然聚類的特性，進(jìn)行“盲目”的分類；其分類的結(jié)果只是對(duì)不同類別達(dá)到了區(qū)分，但不能確定類別的屬性。

回歸(regression)

統(tǒng)計(jì)學(xué)上分析數(shù)據(jù)的方法，目的在于了解連個(gè)或多個(gè)變數(shù)間是否相關(guān)、相關(guān)方向與強(qiáng)度，并建立數(shù)學(xué)模型以便觀察待定變數(shù)來(lái)預(yù)測(cè)研究者感興趣的變數(shù)。更具體的來(lái)說(shuō)，回歸分析可以幫助人們了解在只有一個(gè)自變量變化時(shí)因變量的變化量。

非參數(shù)統(tǒng)計(jì)（nonparametric statistics）

統(tǒng)計(jì)學(xué)的分支，適用于母群體分布情況未明、小樣本、母群體分布不為常態(tài)也不以轉(zhuǎn)換為常態(tài)。

惰性學(xué)習(xí)(Lazing Leaning) 也即基于實(shí)例的學(xué)習(xí)（Instance-based Learning）,機(jī)械學(xué)習(xí)（Rote Learning）。

概率分類(Probabilistic classification)，基于概率分類，分類器給出一個(gè)最優(yōu)類別猜測(cè)結(jié)果，同時(shí)給出這個(gè)猜測(cè)的概率估計(jì)值。概率分類器 $機(jī)器學(xué)習(xí)筆記-模式識(shí)別$ , 給定一個(gè) $機(jī)器學(xué)習(xí)筆記-模式識(shí)別$ （X是樣本集），賦予概率值到所有的 $機(jī)器學(xué)習(xí)筆記-模式識(shí)別$ （Y是分類標(biāo)簽集），這些概率值的和使1。

文氏圖（Venn diagram）,不太嚴(yán)格意義下用一表示集合/類的一種草圖。尤其適合表示集合/類之間的“大致關(guān)系”。機(jī)器學(xué)習(xí)筆記-模式識(shí)別

B.算法

最近鄰居法（KNN）
一種用于分類和回歸的非參數(shù)統(tǒng)計(jì)方法。在這兩種情況下，輸入包含特征空間中的k個(gè)最接近的訓(xùn)練樣本。是一種基于實(shí)例的學(xué)習(xí)，或者是局部近似和將所有計(jì)算推遲到分類之后的惰性學(xué)習(xí)。衡量鄰居的權(quán)重非常有用。
在K-NN分類中，輸出是一個(gè)分類族群。一個(gè)對(duì)象的分類是由其鄰居的“多數(shù)表決”確定的，k個(gè)最近鄰居中最常見(jiàn)的分類決定了賦予該對(duì)象的類別。若k=1,則該對(duì)象的類別直接由最近的一個(gè)節(jié)點(diǎn)賦予。
在k-NN回歸中，輸出是該對(duì)象的屬性值，該值是其k個(gè)最近鄰居的值的平均值。
這個(gè)算法的計(jì)算量相當(dāng)大，耗時(shí)。 Ko和Seo提出了TCFP(text categorization feature projection)。所需時(shí)間是這個(gè)算法的1/50。
長(zhǎng)處：
    簡(jiǎn)單有效
    不對(duì)數(shù)據(jù)的分布做假設(shè)
    訓(xùn)練階段快
短處：
    不生成model, 在洞見(jiàn)feature之間關(guān)系上能力有限
    分類階段慢
    內(nèi)存需求大
    定類特征（Nominal feature）和丟失數(shù)據(jù)（missing data）需要進(jìn)行附加的處理
距離計(jì)算，可以用歐幾里得距離（Euclidean distance）
在選擇k值時(shí)，我們要注意方差平衡（Bias-Variance Tradeoff）。大的k值可以減少噪聲數(shù)據(jù)的影響，但是可能導(dǎo)致我們忽視掉小而重要的模式。通常地K值可以取訓(xùn)練樣本數(shù)的平方根。最好是多嘗試幾個(gè)k值，找到相對(duì)合理的k值。如果訓(xùn)練樣本所具的代表性高，數(shù)量大,k的取值會(huì)變得不那么重要。
我們要注意各個(gè)特征的取值范圍。大取值范圍的特征可以會(huì)主導(dǎo)距離值。
特征值重新調(diào)解的方法有：
極值歸一化（min-max normalization）
         Xnew = (X-min(X))/(max(X) - min(X))
Z-分?jǐn)?shù)標(biāo)準(zhǔn)化（Z-score standardization）
         Xnew = (X-u)/σ = (X-Mean(X))/StdDev(X)
這個(gè)算法是lazy Learning 算法。在整個(gè)過(guò)程中沒(méi)有抽象的過(guò)程。嚴(yán)格意義上lazing Learning沒(méi)有真  正的學(xué)習(xí)發(fā)生。
樸素貝葉斯(Naive Bayes)
貝葉斯方法(Bayesian Method),基于已有的證據(jù)對(duì)事件的發(fā)生概率進(jìn)行估計(jì)。
獨(dú)立事件（Independent event）A,B同時(shí)發(fā)生的概率P(A∩B) = P(A)*P(B)。
相依事件（Dependent event）時(shí)預(yù)測(cè)性建模(Predictive modeling)的基礎(chǔ)。我們可以用貝葉斯理論來(lái)描述相依事件的關(guān)系。
P(A|B) = P(B|A)P(A)/P(B) = P(A∩B)/P(B)
樸素貝葉斯算法是應(yīng)用貝葉斯方法的一種機(jī)器學(xué)習(xí)方法之一。
長(zhǎng)處：
   簡(jiǎn)單，快速，非常高效
   很好地處理噪聲跟缺失數(shù)據(jù)
   只需要相對(duì)少的樣本進(jìn)行訓(xùn)練，當(dāng)然也很很好地工作在大量樣本數(shù)據(jù)的情況
   可以簡(jiǎn)單地獲得估計(jì)概率
短處：
   依賴于現(xiàn)實(shí)情況出錯(cuò)率高的假設(shè) - 所有特征同等重要且獨(dú)立
   對(duì)大量數(shù)值型特征的數(shù)據(jù)集效果不理想
  預(yù)計(jì)分類比估計(jì)的概率更可靠
樸素貝葉斯算法得名它對(duì)數(shù)據(jù)進(jìn)行了一些"naive"的假設(shè)（見(jiàn)短處中的第一項(xiàng)）。例如，判斷垃圾郵件時(shí)，發(fā)件人信息比消息內(nèi)容更重要。雖然很多情況都不違背了一些假設(shè)，但是這個(gè)算法還是表現(xiàn)不俗。
在處理數(shù)值類的特征是我們要對(duì)數(shù)值進(jìn)行分類,其中一個(gè)簡(jiǎn)單的方法就是離散化（Discretize）。

實(shí)現(xiàn)：

其中一種簡(jiǎn)單實(shí)現(xiàn)就是采用詞集模型（set-of-words）。此模型只考慮此是否在文中出現(xiàn)，不關(guān)注詞出線的次數(shù)。實(shí)現(xiàn)方法就是先定義詞集。然后標(biāo)示文檔，判斷某個(gè)詞在文檔中是否出現(xiàn)。在文檔樣本里如果某詞在n個(gè)文檔中出現(xiàn)，那該詞計(jì)為n,然后進(jìn)行概率計(jì)算。

如果用Wi代表在文檔中出現(xiàn)的詞i。用Ck代表第k個(gè)分類。那么我們分類的方法就是要判斷P(Ck)當(dāng)k取哪個(gè)值時(shí)這個(gè)概率大，取到的大概率對(duì)應(yīng)的分類就是此文檔的分類。那么P(Ck) = Σ P(Ck/Wi)。而P(Ck/Wi) = P(Wi/Ck) * P(Ck) / P(Wi) 。我們來(lái)看 P(Ck/Wi) 通過(guò)計(jì)算特別是一些四舍五入后結(jié)果可能是0。這樣某些詞的的影響就被這樣計(jì)算掉了。為了更能放映每個(gè)詞的作用有兩點(diǎn)可以考慮。第一點(diǎn)我們?cè)谒阏麄€(gè)樣本時(shí)可以給每個(gè)詞都加上一個(gè)初始量。第二點(diǎn)，我們可以用ln()計(jì)算的結(jié)構(gòu)來(lái)進(jìn)行概率比較， f(x) 跟 ln(f(x))在f(x) > 0 時(shí)有相同的斜率變化。另外，這連個(gè)函數(shù)的極值也是在相同的x點(diǎn)的位置。這樣 ln(ΣP(Ck/Wi)*P(Ck)/P(Wi)) = ln(ΣP(Wi/Ck)) + ln(P(Ck)) - ln(P(Wi)) 。如果算P(Ck)的話，不論計(jì)算那個(gè)類別 Σln(P(Wi)) 都是相同的值。所以可以省略掉ln(P(Wi))的計(jì)算。如是我們就剩下了 (lnΣP(Wi/Ck)) + ln(P(Ck))。在實(shí)際中可能每個(gè)類別所出現(xiàn)的概率更有影響力。所以最終我們只需計(jì)算 ΣP(Wi/Ck) + ln(P(Ck)) 來(lái)進(jìn)行概率比較。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務(wù)器15元起步，三天無(wú)理由+7*72小時(shí)售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì)，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

分享題目：機(jī)器學(xué)習(xí)筆記-模式識(shí)別-創(chuàng)新互聯(lián)
本文來(lái)源：http://jinyejixie.com/article40/ddsheo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供App開(kāi)發(fā)、網(wǎng)站內(nèi)鏈、定制開(kāi)發(fā)、標(biāo)簽優(yōu)化、靜態(tài)網(wǎng)站、網(wǎng)頁(yè)設(shè)計(jì)公司

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

機(jī)器學(xué)習(xí)筆記-模式識(shí)別-創(chuàng)新互聯(lián)