【機(jī)器學(xué)習(xí)】（4）：監(jiān)督式學(xué)習(xí)

機(jī)器學(xué)習(xí)中監(jiān)督式學(xué)習(xí)是非常重要的一類(lèi)，因?yàn)镸L的主要出發(fā)點(diǎn)是利用獲得的數(shù)據(jù)來(lái)補(bǔ)償未知的知識(shí)，所以從訓(xùn)練集出發(fā)學(xué)習(xí)數(shù)據(jù)中的模式規(guī)律就是最為自然的一類(lèi) 情況。今天開(kāi)始自己決定利用兩周左右的時(shí)間，來(lái)記錄整理自己學(xué)習(xí)機(jī)器學(xué)習(xí)的筆記，主要的參考資料是Ethen Alpaydin的《機(jī)器學(xué)習(xí)導(dǎo)論》，如有錯(cuò)誤或疏漏，還請(qǐng)各位童鞋批評(píng)指正。今天主要來(lái)宏觀(guān)地談?wù)劚O(jiān)督學(xué)習(xí)，大致的要點(diǎn)如下：

讓客戶(hù)滿(mǎn)意是我們工作的目標(biāo)，不斷超越客戶(hù)的期望值來(lái)自于我們對(duì)這個(gè)行業(yè)的熱愛(ài)。我們立志把好的技術(shù)通過(guò)有效、簡(jiǎn)單的方式提供給客戶(hù)，將通過(guò)不懈努力成為客戶(hù)在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴，公司提供的服務(wù)項(xiàng)目有：主機(jī)域名、雅安服務(wù)器托管、營(yíng)銷(xiāo)軟件、網(wǎng)站建設(shè)、太倉(cāng)網(wǎng)站維護(hù)、網(wǎng)站推廣。

1. 一個(gè)監(jiān)督式學(xué)習(xí)實(shí)例；

2. 監(jiān)督式學(xué)習(xí)算法的維；

3. 學(xué)習(xí)算法的能力--VC維；

4. 學(xué)習(xí)算法樣本量的確定--概率逼近；

好了，長(zhǎng)話(huà)短說(shuō)，下面我們來(lái)介紹機(jī)器學(xué)習(xí)中的監(jiān)督式學(xué)習(xí)。

一、一個(gè)監(jiān)督式學(xué)習(xí)實(shí)例

從一個(gè)例子著手是最為形象最為容易理解的，比如現(xiàn)在我們有一個(gè)判斷“家用汽車(chē)”的任務(wù)，具體根據(jù)汽車(chē)價(jià)格和發(fā)動(dòng)機(jī)功率兩個(gè)特征進(jìn)行判斷，實(shí)際中也許有更多的因素，在這里為了簡(jiǎn)單起見(jiàn)我們暫且只考慮這兩個(gè)特征。算法的任務(wù)是通過(guò)訓(xùn)練集的學(xué)習(xí)，能夠?qū)σ粋€(gè)新的樣本進(jìn)行判斷是否是“家用汽車(chē)”。我們可以將認(rèn)為是家用汽車(chē)的標(biāo)記為正例（Positive Example），其他的都被標(biāo)記為負(fù)例（Negative Example），類(lèi)學(xué)習(xí)就是要找到一個(gè)包含所有正例但是不包含任何負(fù)例的描述。

【機(jī)器學(xué)習(xí)】（4）：監(jiān)督式學(xué)習(xí)

上面的公式描述了我們這個(gè)實(shí)例，向量x的兩個(gè)分量分別表示汽車(chē)價(jià)格和發(fā)動(dòng)機(jī)的功率，而向量r則表示輸出，當(dāng)為正例時(shí)輸出1，負(fù)例時(shí)輸出0；第一個(gè)集合表示N個(gè)樣本訓(xùn)練集，每個(gè)元素都由樣本特征x和標(biāo)準(zhǔn)判斷r組成。我們現(xiàn)在的目標(biāo)是可以找到一個(gè)算法，可以通過(guò)訓(xùn)練集找到某個(gè)分類(lèi)方法，適用于所有的訓(xùn)練集（包含所有正例但是不包含任何負(fù)例），然后利用這個(gè)分類(lèi)方法去預(yù)測(cè)判斷新的樣本。

這里在具體實(shí)現(xiàn)的時(shí)候，人們往往首先要有一個(gè)假設(shè)類(lèi)（Hypothesis class），比如可以采用一個(gè)矩形集合（假定位于某個(gè)價(jià)格區(qū)間且同時(shí)位于某個(gè)發(fā)動(dòng)機(jī)功率區(qū)間的汽車(chē)為家用汽車(chē)，即一個(gè)判別式），來(lái)包含所有的正例，同時(shí) 卻不包含任何的負(fù)例。符合這樣條件的矩形可能有多個(gè)，因此存在一個(gè)最小的矩形，即最特殊的假設(shè)（most specific hypothesis），比如S，再小就會(huì)有一個(gè)正例不包含在假設(shè)中；同時(shí)也存在一個(gè)最一般的假設(shè)（most general hypothesis），比如G，再大的假設(shè)就會(huì)包含一個(gè)或多個(gè)負(fù)例。因此我們尋找的假設(shè)應(yīng)該位于S與G之間。一般認(rèn)為可以選在S與G的中間，因?yàn)檫@樣可以獲得較大的邊緣（margin），所謂邊緣就是邊界和它最近的實(shí)例之間的距離。

由于在S與G之間存在多個(gè)可用的假設(shè)，但是不同的假設(shè)對(duì)于新的樣本可能做出不同的預(yù)測(cè)和判斷，因此這便引出了泛化（generalization）的問(wèn)題，即我們的假設(shè)對(duì)不在訓(xùn)練集中的未來(lái)實(shí)例的分類(lèi)的準(zhǔn)確率如何。

二、監(jiān)督式學(xué)習(xí)算法的維度

監(jiān)督式學(xué)習(xí)簡(jiǎn)單來(lái)說(shuō)就是通過(guò)訓(xùn)練集讓計(jì)算機(jī)學(xué)習(xí)數(shù)據(jù)間的規(guī)律和模式，然后以此進(jìn)行分類(lèi)和回歸預(yù)測(cè)。訓(xùn)練集的表示就如同上面的結(jié)合X，其中樣本應(yīng)當(dāng)是獨(dú)立同分布的，對(duì)于分類(lèi)而言，兩類(lèi)學(xué)習(xí)輸出就是0和1，而K類(lèi)學(xué)習(xí)就是一個(gè)K維向量，其中只有一個(gè)分量為1，其余分量均為0，這個(gè)要求也就是說(shuō)任何一樣本最多只能屬于一個(gè)類(lèi)別。對(duì)于回歸而言，輸出是一個(gè)實(shí)數(shù)值?？梢赃@樣簡(jiǎn)單地來(lái)區(qū)分分類(lèi)和回歸問(wèn)題：分類(lèi)輸出是離散值，而回歸輸出是連續(xù)值。下面我們來(lái)看看監(jiān)督式學(xué)習(xí)的維度，也就是監(jiān)督學(xué)習(xí)的基本步驟。

1. 確定假設(shè)類(lèi)，比如假設(shè)了函數(shù)模型G(x,A)，A表示一個(gè)參數(shù)向量，而x表示我們的樣本輸入，我們通過(guò)訓(xùn)練集學(xué)習(xí)確定最好的A，使得假設(shè)可以對(duì)新的樣本進(jìn)行判斷；

2. 滿(mǎn)足訓(xùn)練集的假設(shè)可能會(huì)有很多，因此我們要選擇最合適的那個(gè)，標(biāo)準(zhǔn)就是一個(gè)損失函數(shù)L（Loss Function），比如L是x與G(x, A)的平方差或者絕對(duì)值，用于表示我們的假設(shè)與訓(xùn)練集的差異，我們尋求最小的那個(gè)。當(dāng)然，損失函數(shù)還可以有其他的定義，但是基本思想都是用來(lái)表示假設(shè)與訓(xùn)練集數(shù)據(jù)的差異；

3. 有了損失函數(shù)L，接下來(lái)我們就進(jìn)入了最優(yōu)化過(guò)程，即使得L最小，這一步有多種方法可以實(shí)現(xiàn)，比如將L對(duì)所有的特征分量求偏導(dǎo)數(shù)，確定極小值；或者使用梯度下降、模擬退火以及遺傳算法等。

不同的機(jī)器學(xué)習(xí)方法的之間的區(qū)別，要么是假設(shè)類(lèi)不同（假設(shè)模型或歸納偏倚），要么是所使用的損失函數(shù)不同，再者就是使用的最優(yōu)化過(guò)程不同?？梢哉f(shuō)，假設(shè)模型、損失度量和最優(yōu)化過(guò)程是機(jī)器學(xué)習(xí)的三個(gè)基本維度。

三、學(xué)習(xí)算法的能力--VC維

學(xué)習(xí)算法的能力通過(guò)VC維度來(lái)度量，即一個(gè)假設(shè)類(lèi)散列的數(shù)據(jù)點(diǎn)的個(gè)數(shù)。假定一個(gè)數(shù)據(jù)集中有N個(gè)數(shù)據(jù)點(diǎn)，對(duì)于正例和負(fù)例的判斷而言，就有2的N次方種不同的學(xué)習(xí)問(wèn)題，如果對(duì)于這些學(xué)習(xí)問(wèn)題中的任何一個(gè)都可以找到假設(shè)類(lèi)H中的一個(gè)假設(shè)h可以將正例和負(fù)例分開(kāi)，我們就稱(chēng)該假設(shè)類(lèi)H散列這N個(gè)點(diǎn)。因此VC維度量假設(shè)類(lèi)的學(xué)習(xí)能力。

四、學(xué)習(xí)算法樣本量的確定--概率逼近

概率逼近主要用于針對(duì)特定的假設(shè)類(lèi)，確定最少需要多少樣本量就可以保證學(xué)習(xí)的結(jié)果獲得一定的置信率，其實(shí)也就是說(shuō)如果我們想達(dá)到一個(gè)較好的假設(shè)，那么最少需要多大的訓(xùn)練集呢？根據(jù)我們期望的置信率和不同的假設(shè)，我們可以計(jì)算其概率逼近的最小樣本量。

好了，今天的基本概念就到這里，明天繼續(xù)！

Refer：

《機(jī)器學(xué)習(xí)導(dǎo)論》，Ethen Alpaydin（土耳其），機(jī)械工業(yè)出版社

當(dāng)前名稱(chēng)：【機(jī)器學(xué)習(xí)】（4）：監(jiān)督式學(xué)習(xí)
標(biāo)題鏈接：http://jinyejixie.com/article18/ghddgp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供商城網(wǎng)站、ChatGPT、做網(wǎng)站、搜索引擎優(yōu)化、品牌網(wǎng)站設(shè)計(jì)、企業(yè)建站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話(huà)：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

【機(jī)器學(xué)習(xí)】（4）：監(jiān)督式學(xué)習(xí)