成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

機(jī)器學(xué)習(xí)筆記-模式識(shí)別-創(chuàng)新互聯(lián)

  1. 平均分布(Uniform Distribution) 跟正態(tài)分布(normaldistribution)

    讓客戶滿意是我們工作的目標(biāo),不斷超越客戶的期望值來(lái)自于我們對(duì)這個(gè)行業(yè)的熱愛(ài)。我們立志把好的技術(shù)通過(guò)有效、簡(jiǎn)單的方式提供給客戶,將通過(guò)不懈努力成為客戶在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴,公司提供的服務(wù)項(xiàng)目有:域名與空間、雅安服務(wù)器托管、營(yíng)銷(xiāo)軟件、網(wǎng)站建設(shè)、臨澤網(wǎng)站維護(hù)、網(wǎng)站推廣。

    分布特性可以讓我們通過(guò)一部分的數(shù)了解整體的分布

   正態(tài)分布特性:

     平均值(mean) = 中位數(shù)(median) = 眾數(shù)(model)

       密度函數(shù)關(guān)于平均值對(duì)稱

                            函數(shù)曲線下68.268949%的面積在平均數(shù)左右的一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)

                         95.449974%的面積在平均數(shù)左右兩個(gè)標(biāo)準(zhǔn)差{\displaystyle 2\sigma }機(jī)器學(xué)習(xí)筆記-模式識(shí)別的范圍內(nèi)。

                         99.730020%的面積在平均數(shù)左右三個(gè)標(biāo)準(zhǔn)差{\displaystyle 3\sigma }機(jī)器學(xué)習(xí)筆記-模式識(shí)別的范圍內(nèi)

                            99.993666%的面積在平均數(shù)左右四個(gè)標(biāo)準(zhǔn)差{\displaystyle 4\sigma }機(jī)器學(xué)習(xí)筆記-模式識(shí)別的范圍內(nèi)

                            函數(shù)曲線的反曲點(diǎn)(inflection point)為離平均數(shù)一個(gè)標(biāo)準(zhǔn)差距離的位置

 2.方差(Variance)

Var(X) = σ2 = 1/n∑(xi-u)2

模式識(shí)別

  1. 基本概念

分類(classification)

    識(shí)別出樣本所屬的類別。根據(jù)識(shí)別前是否需要進(jìn)行訓(xùn)練,可分為有監(jiān)督分類(supervised classification)何無(wú)監(jiān)督分類(unsupervised classification)。

    有監(jiān)督分類:根據(jù)已知訓(xùn)練區(qū)提供的樣本,通過(guò)計(jì)算選擇特征參數(shù),建立判別函數(shù)以對(duì)樣本進(jìn)行的分類。

    無(wú)監(jiān)督分類:指人們事先對(duì)分類過(guò)程不施加任何的先驗(yàn)知識(shí),而僅憑數(shù)據(jù),即自然聚類的特性,進(jìn)行“盲目”的分類;其分類的結(jié)果只是對(duì)不同類別達(dá)到了區(qū)分,但不能確定類別的屬性。

回歸(regression)

      統(tǒng)計(jì)學(xué)上分析數(shù)據(jù)的方法,目的在于了解連個(gè)或多個(gè)變數(shù)間是否相關(guān)、相關(guān)方向與強(qiáng)度,并建立數(shù)學(xué)模型以便觀察待定變數(shù)來(lái)預(yù)測(cè)研究者感興趣的變數(shù)。更具體的來(lái)說(shuō),回歸分析可以幫助人們了解在只有一個(gè)自變量變化時(shí)因變量的變化量。

非參數(shù)統(tǒng)計(jì)(nonparametric statistics)

    統(tǒng)計(jì)學(xué)的分支,適用于母群體分布情況未明、小樣本、母群體分布不為常態(tài)也不以轉(zhuǎn)換為常態(tài)。

惰性學(xué)習(xí)(Lazing Leaning) 也即 基于實(shí)例的學(xué)習(xí)(Instance-based Learning),機(jī)械學(xué)習(xí)(Rote Learning)。

    概率分類(Probabilistic classification), 基于概率分類,分類器給出一個(gè)最優(yōu)類別猜測(cè)結(jié)果,同時(shí)給出這個(gè)猜測(cè)的概率估計(jì)值。概率分類器機(jī)器學(xué)習(xí)筆記-模式識(shí)別, 給定一個(gè)機(jī)器學(xué)習(xí)筆記-模式識(shí)別(X是樣本集),賦予概率值到所有的機(jī)器學(xué)習(xí)筆記-模式識(shí)別(Y是分類標(biāo)簽集),這些概率值的和使1。

    文氏圖(Venn diagram),不太嚴(yán)格意義下用一表示集合/類的一種草圖。尤其適合表示集合/類之間的“大致關(guān)系”。機(jī)器學(xué)習(xí)筆記-模式識(shí)別

    B.算法

  1. 最近鄰居法(KNN)

    一種用于分類和回歸的非參數(shù)統(tǒng)計(jì)方法。在這兩種情況下,輸入包含特征空間中的k個(gè)最接近的訓(xùn)練樣本。是一種基于實(shí)例的學(xué)習(xí),或者是局部近似和將所有計(jì)算推遲到分類之后的惰性學(xué)習(xí)。衡量鄰居的權(quán)重非常有用。

    在K-NN分類中,輸出是一個(gè)分類族群。一個(gè)對(duì)象的分類是由其鄰居的“多數(shù)表決”確定的,k個(gè)最近鄰居中最常見(jiàn)的分類決定了賦予該對(duì)象的類別。若k=1,則該對(duì)象的類別直接由最近的一個(gè)節(jié)點(diǎn)賦予。

    在k-NN回歸中,輸出是該對(duì)象的屬性值,該值是其k個(gè)最近鄰居的值的平均值。

    這個(gè)算法的計(jì)算量相當(dāng)大,耗時(shí)。 Ko和Seo提出了TCFP(text categorization feature projection)。所需時(shí)間是這個(gè)算法的1/50。

    長(zhǎng)處:

        簡(jiǎn)單有效

        不對(duì)數(shù)據(jù)的分布做假設(shè)

        訓(xùn)練階段快

    短處:

        不生成model, 在洞見(jiàn)feature之間關(guān)系上能力有限

        分類階段慢

        內(nèi)存需求大

        定類特征(Nominal feature)和丟失數(shù)據(jù)(missing data)需要進(jìn)行附加的處理

    距離計(jì)算,可以用歐幾里得距離(Euclidean distance)

    在選擇k值時(shí),我們要注意方差平衡(Bias-Variance Tradeoff)。大的k值可以減少噪聲數(shù)據(jù)的影響,但是可能導(dǎo)致我們忽視掉小而重要的模式。通常地K值可以取訓(xùn)練樣本數(shù)的平方根。最好是多嘗試幾個(gè)k值,找到相對(duì)合理的k值。如果訓(xùn)練樣本所具的代表性高,數(shù)量大,k的取值會(huì)變得不那么重要。

    我們要注意各個(gè)特征的取值范圍。大取值范圍的特征可以會(huì)主導(dǎo)距離值。

    特征值重新調(diào)解的方法有:

    極值歸一化(min-max normalization)

             Xnew = (X-min(X))/(max(X) - min(X))

    Z-分?jǐn)?shù)標(biāo)準(zhǔn)化(Z-score standardization)

             Xnew = (X-u)/σ = (X-Mean(X))/StdDev(X)

    這個(gè)算法是lazy Learning 算法。 在整個(gè)過(guò)程中沒(méi)有抽象的過(guò)程。嚴(yán)格意義上lazing Learning沒(méi)有真  正的學(xué)習(xí)發(fā)生。

  2. 樸素貝葉斯(Naive Bayes)

    貝葉斯方法(Bayesian Method),基于已有的證據(jù)對(duì)事件的發(fā)生概率進(jìn)行估計(jì)。

    獨(dú)立事件(Independent event)A,B同時(shí)發(fā)生的概率P(A∩B) = P(A)*P(B)。

    相依事件(Dependent event)時(shí)預(yù)測(cè)性建模(Predictive modeling)的基礎(chǔ)。我們可以用貝葉斯理論來(lái)描述相依事件的關(guān)系。

    P(A|B) = P(B|A)P(A)/P(B) = P(A∩B)/P(B)

    樸素貝葉斯算法是應(yīng)用貝葉斯方法的一種機(jī)器學(xué)習(xí)方法之一。

    長(zhǎng)處:

       簡(jiǎn)單,快速,非常高效

       很好地處理噪聲跟缺失數(shù)據(jù)

       只需要相對(duì)少的樣本進(jìn)行訓(xùn)練,當(dāng)然也很很好地工作在大量樣本數(shù)據(jù)的情況

       可以簡(jiǎn)單地獲得估計(jì)概率

    短處:

       依賴于現(xiàn)實(shí)情況出錯(cuò)率高的假設(shè) - 所有特征同等重要且獨(dú)立

       對(duì)大量數(shù)值型特征的數(shù)據(jù)集效果不理想

      預(yù)計(jì)分類比估計(jì)的概率更可靠

    樸素貝葉斯算法得名它對(duì)數(shù)據(jù)進(jìn)行了一些"naive"的假設(shè)(見(jiàn)短處中的第一項(xiàng))。例如,判斷垃圾郵件時(shí),發(fā)件人信息比消息內(nèi)容更重要。雖然很多情況都不違背了一些假設(shè),但是這個(gè)算法還是表現(xiàn)不俗。

    在處理數(shù)值類的特征是我們要對(duì)數(shù)值進(jìn)行分類,其中一個(gè)簡(jiǎn)單的方法就是離散化(Discretize)。

        實(shí)現(xiàn):

            其中一種簡(jiǎn)單實(shí)現(xiàn)就是采用詞集模型(set-of-words)。此模型只考慮此是否在文中出現(xiàn),不關(guān)注詞出線的次數(shù)。實(shí)現(xiàn)方法就是先定義詞集。然后標(biāo)示文檔,判斷某個(gè)詞在文檔中是否出現(xiàn)。在文檔樣本里如果某詞在n個(gè)文檔中出現(xiàn),那該詞計(jì)為n,然后進(jìn)行概率計(jì)算。

            如果用Wi代表在文檔中出現(xiàn)的詞i。用Ck代表第k個(gè)分類。那么我們分類的方法就是要判斷P(Ck)當(dāng)k取哪個(gè)值時(shí)這個(gè)概率大,取到的大概率對(duì)應(yīng)的分類就是此文檔的分類。 那么P(Ck) = Σ P(Ck/Wi)。而P(Ck/Wi) = P(Wi/Ck) * P(Ck) / P(Wi) 。 我們來(lái)看 P(Ck/Wi) 通過(guò)計(jì)算特別是一些四舍五入后結(jié)果可能是0。這樣某些詞的的影響就被這樣計(jì)算掉了。 為了更能放映每個(gè)詞的作用有兩點(diǎn)可以考慮。第一點(diǎn)我們?cè)谒阏麄€(gè)樣本時(shí)可以給每個(gè)詞都加上一個(gè)初始量。第二點(diǎn),我們可以用ln()計(jì)算的結(jié)構(gòu)來(lái)進(jìn)行概率比較, f(x) 跟 ln(f(x))在f(x) > 0 時(shí)有相同的斜率變化。另外,這連個(gè)函數(shù)的極值也是在相同的x點(diǎn)的位置。 這樣 ln(ΣP(Ck/Wi)*P(Ck)/P(Wi)) = ln(ΣP(Wi/Ck)) + ln(P(Ck)) - ln(P(Wi)) 。 如果算P(Ck)的話,不論計(jì)算那個(gè)類別 Σln(P(Wi)) 都是相同的值。所以可以省略掉ln(P(Wi))的計(jì)算。如是我們就剩下了  (lnΣP(Wi/Ck)) + ln(P(Ck))。在實(shí)際中可能每個(gè)類別所出現(xiàn)的概率更有影響力。所以最終我們只需計(jì)算 ΣP(Wi/Ck) + ln(P(Ck)) 來(lái)進(jìn)行概率比較。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

分享題目:機(jī)器學(xué)習(xí)筆記-模式識(shí)別-創(chuàng)新互聯(lián)
本文來(lái)源:http://jinyejixie.com/article40/ddsheo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開(kāi)發(fā)、網(wǎng)站內(nèi)鏈定制開(kāi)發(fā)、標(biāo)簽優(yōu)化靜態(tài)網(wǎng)站、網(wǎng)頁(yè)設(shè)計(jì)公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)
阜南县| 大丰市| 钟祥市| 卓资县| 祥云县| 兴宁市| 明光市| 原平市| 吴旗县| 通许县| 普洱| 万安县| 哈巴河县| 布拖县| 晋城| 固阳县| 鄱阳县| 渝北区| 肥乡县| 梨树县| 鄢陵县| 潢川县| 奎屯市| 临夏县| 高陵县| 乃东县| 临潭县| 平乐县| 峨眉山市| 姚安县| 湘潭县| 龙岩市| 东山县| 呼伦贝尔市| 白玉县| 上犹县| 景洪市| 无棣县| 松桃| 沈丘县| 宝鸡市|