本篇內(nèi)容介紹了“什么是Python機(jī)器學(xué)習(xí)”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
成都創(chuàng)新互聯(lián)堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:網(wǎng)站制作、網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時(shí)代的習(xí)水網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!
什么是機(jī)器學(xué)習(xí)?
亞瑟·塞繆爾(Arthur Samuel)在1959年創(chuàng)造了“機(jī)器學(xué)習(xí)”一詞。他是人工智能和計(jì)算機(jī)游戲的先驅(qū),并將機(jī)器學(xué)習(xí)定義為“使計(jì)算機(jī)無(wú)需明確編程即可學(xué)習(xí)的能力的研究領(lǐng)域”。
簡(jiǎn)而言之,機(jī)器學(xué)習(xí)是人工智能(AI)的一種應(yīng)用程序,它使程序(軟件)可以從經(jīng)驗(yàn)中學(xué)習(xí)并提高自己在完成一項(xiàng)任務(wù)時(shí)的自我,而無(wú)需進(jìn)行明確的編程。例如,您將如何編寫一個(gè)程序來(lái)根據(jù)水果的各種屬性(例如顏色,形狀,大小或任何其他屬性)識(shí)別水果?
一種方法是對(duì)所有內(nèi)容進(jìn)行硬編碼,制定一些規(guī)則并使用它們來(lái)識(shí)別結(jié)果。這似乎是唯一可行的方法,但永遠(yuǎn)無(wú)法制定適用于所有情況的完善規(guī)則。使用機(jī)器學(xué)習(xí)可以輕松解決此問(wèn)題,而無(wú)需任何規(guī)則,這使其變得更加健壯和實(shí)用。您將在接下來(lái)的部分中看到我們將如何使用機(jī)器學(xué)習(xí)來(lái)完成此任務(wù)。
因此,我們可以說(shuō),機(jī)器學(xué)習(xí)是通過(guò)使機(jī)器具有最少的人工干預(yù)(即無(wú)需顯式編程)進(jìn)行學(xué)習(xí)的能力,從而使機(jī)器的行為和決策更具人性化?,F(xiàn)在出現(xiàn)了一個(gè)問(wèn)題,程序如何獲得任何經(jīng)驗(yàn)以及從中學(xué)習(xí)?答案是數(shù)據(jù)。數(shù)據(jù)也被稱為機(jī)器學(xué)習(xí)的動(dòng)力,我們可以肯定地說(shuō)沒(méi)有數(shù)據(jù)就沒(méi)有機(jī)器學(xué)習(xí)。
您可能想知道,機(jī)器學(xué)習(xí)一詞是在1959年引入的,它可以追溯到很久以前,那么為什么直到最近幾年都沒(méi)有提及它?您可能需要注意,機(jī)器學(xué)習(xí)需要巨大的計(jì)算能力,大量數(shù)據(jù)以及能夠存儲(chǔ)如此龐大數(shù)據(jù)的設(shè)備。我們直到最近才滿足所有這些要求并可以練習(xí)機(jī)器學(xué)習(xí)。
它與傳統(tǒng)編程有何不同?
您是否想知道機(jī)器學(xué)習(xí)與傳統(tǒng)編程有何不同?好吧,在傳統(tǒng)編程中,我們會(huì)將輸入數(shù)據(jù)以及經(jīng)過(guò)良好編寫和測(cè)試的程序饋入機(jī)器中以生成輸出。當(dāng)涉及到機(jī)器學(xué)習(xí)時(shí),在學(xué)習(xí)階段,輸入數(shù)據(jù)以及與數(shù)據(jù)相關(guān)聯(lián)的輸出將被饋送到機(jī)器中,并為自己制定程序。
如果您不能完全理解這些內(nèi)容,請(qǐng)不要擔(dān)心,在接下來(lái)的部分中,您將獲得更好的理解。
為什么我們需要機(jī)器學(xué)習(xí)?
當(dāng)今的機(jī)器學(xué)習(xí)具有它所需要的全部注意力。機(jī)器學(xué)習(xí)可以使許多任務(wù)實(shí)現(xiàn)自動(dòng)化,尤其是只有人類才能利用其固有的智能來(lái)執(zhí)行的任務(wù)。僅在機(jī)器學(xué)習(xí)的幫助下,才能將這種智能復(fù)制到機(jī)器上。
在機(jī)器學(xué)習(xí)的幫助下,企業(yè)可以自動(dòng)化日常任務(wù)。它還有助于自動(dòng)化并快速創(chuàng)建數(shù)據(jù)分析模型。各個(gè)行業(yè)都依賴大量數(shù)據(jù)來(lái)優(yōu)化其運(yùn)營(yíng)并做出明智的決策。機(jī)器學(xué)習(xí)有助于創(chuàng)建可以處理和分析大量復(fù)雜數(shù)據(jù)以提供準(zhǔn)確結(jié)果的模型。這些模型精確,可擴(kuò)展,并且具有更少的周轉(zhuǎn)時(shí)間。通過(guò)構(gòu)建這種精確的機(jī)器學(xué)習(xí)模型,企業(yè)可以利用有利可圖的機(jī)會(huì)并避免未知的風(fēng)險(xiǎn)。
圖像識(shí)別,文本生成和許多其他用例正在現(xiàn)實(shí)世界中找到應(yīng)用。這擴(kuò)大了機(jī)器學(xué)習(xí)專家成為受追捧的專業(yè)人員的視野。
目前的機(jī)器學(xué)習(xí)
在2012年,Alex Krizhevsky,Geoffrey Hinton和Ilya Sutskever發(fā)表了有影響力的研究論文,描述了一種可以顯著降低圖像識(shí)別系統(tǒng)錯(cuò)誤率的模型。同時(shí),谷歌的X Lab開發(fā)了一種機(jī)器學(xué)習(xí)算法,該算法能夠自主瀏覽YouTube視頻,以識(shí)別包含貓的視頻。2016年,AlphaGo(由Google DeepMind的研究人員創(chuàng)建,用于玩中國(guó)古代的圍棋游戲)在與Lee Sedol的五場(chǎng)比賽中贏得了四場(chǎng)比賽的勝利,Le Sedol是十多年來(lái)一直是世界頂級(jí)圍棋選手。
現(xiàn)在,在2020年,OpenAI發(fā)布了GPT-3,這是有史以來(lái)功能最強(qiáng)大的語(yǔ)言模型。它可以編寫有創(chuàng)意的小說(shuō),生成功能代碼,撰寫周到的業(yè)務(wù)備忘錄等。它的可能用例僅受我們的想象力限制。
機(jī)器學(xué)習(xí)的特點(diǎn)
自動(dòng)化:如今,您的Gmail帳戶中有一個(gè)垃圾郵件文件夾,其中包含所有垃圾郵件。您可能想知道Gmail如何知道所有這些電子郵件都是垃圾郵件?這是機(jī)器學(xué)習(xí)的工作。
它可以識(shí)別垃圾郵件,因此很容易實(shí)現(xiàn)此過(guò)程的自動(dòng)化。自動(dòng)執(zhí)行重復(fù)任務(wù)的能力是機(jī)器學(xué)習(xí)的最大特征之一。大量組織已經(jīng)在使用基于機(jī)器學(xué)習(xí)的文書工作和電子郵件自動(dòng)化。
例如,在金融部門,需要執(zhí)行大量重復(fù),數(shù)據(jù)繁重和可預(yù)測(cè)的任務(wù)。因此,該行業(yè)在很大程度上使用了不同類型的機(jī)器學(xué)習(xí)解決方案。
改善客戶體驗(yàn):對(duì)于任何企業(yè)而言,提供定制體驗(yàn)和提供更好的服務(wù),是提高參與度,提升品牌忠誠(chéng)度和建立長(zhǎng)期客戶關(guān)系的最關(guān)鍵方法之一。
機(jī)器學(xué)習(xí)可以幫助我們實(shí)現(xiàn)兩者。您是否曾經(jīng)注意到,無(wú)論何時(shí)打開任何購(gòu)物網(wǎng)站或在互聯(lián)網(wǎng)上看到任何廣告,它們大多與您最近搜索的內(nèi)容有關(guān)?這是因?yàn)闄C(jī)器學(xué)習(xí)使我們能夠做出精確的驚人推薦系統(tǒng)。它們幫助我們定制用戶體驗(yàn)?,F(xiàn)
在開始使用該服務(wù),如今,大多數(shù)公司都擁有一個(gè)聊天機(jī)器人,可以全天候(24×7)使用。例如,亞航的Eva。這些機(jī)器人提供了智能的答案,有時(shí)您甚至可能沒(méi)有注意到自己正在與機(jī)器人對(duì)話。
自動(dòng)化數(shù)據(jù)可視化:過(guò)去,我們已經(jīng)看到公司和個(gè)人正在生成大量數(shù)據(jù)。以Google,Twitter,F(xiàn)acebook等公司為例。他們每天產(chǎn)生多少數(shù)據(jù)?我們可以使用這些數(shù)據(jù)并可視化顯著的關(guān)系,從而使企業(yè)能夠制定更好的決策,從而使公司和客戶都從中受益。
借助用戶友好的自動(dòng)化數(shù)據(jù)可視化平臺(tái)(例如AutoViz),企業(yè)可以獲取大量新見解,從而提高流程的生產(chǎn)率。
商業(yè)智能:機(jī)器學(xué)習(xí)特性與大數(shù)據(jù)分析結(jié)合使用時(shí),可以幫助公司找到解決問(wèn)題的方法,這些問(wèn)題可以幫助企業(yè)發(fā)展并產(chǎn)生更多的利潤(rùn)。
從零售到金融服務(wù)再到醫(yī)療保健,等等,機(jī)器學(xué)習(xí)已經(jīng)成為促進(jìn)業(yè)務(wù)運(yùn)營(yíng)的最有效技術(shù)之一。
機(jī)器學(xué)習(xí)的最佳語(yǔ)言是什么?
盡管有許多可用于機(jī)器學(xué)習(xí)的語(yǔ)言,但據(jù)我稱,Python是機(jī)器學(xué)習(xí)應(yīng)用程序的最佳編程語(yǔ)言。這是由于以下部分提到的各種好處??梢杂糜跈C(jī)器學(xué)習(xí)應(yīng)用程序的其他編程語(yǔ)言是R,C ++,JavaScript,Java,C#,Julia,Shell,TypeScript和Scala。R還是一種非常好的機(jī)器學(xué)習(xí)入門語(yǔ)言。
與其他編程語(yǔ)言相比,Python以其可讀性和相對(duì)較低的復(fù)雜性而聞名。機(jī)器學(xué)習(xí)應(yīng)用程序涉及復(fù)雜的概念,例如微積分和線性代數(shù),這些實(shí)現(xiàn)需要花費(fèi)很多精力和時(shí)間。Python通過(guò)快速實(shí)施來(lái)幫助機(jī)器學(xué)習(xí)工程師驗(yàn)證想法,從而減輕了負(fù)擔(dān)。您可以查看《Python教程》以獲得對(duì)該語(yǔ)言的基本了解。在機(jī)器學(xué)習(xí)中使用Python的另一個(gè)好處是預(yù)構(gòu)建的庫(kù)。如下所述,針對(duì)不同類型的應(yīng)用程序有不同的軟件包:
在處理圖像時(shí)使用Numpy,OpenCV和Scikit
文本處理時(shí),NLTK與Numpy和Scikit一起
Librosa用于音頻應(yīng)用
Matplotlib,Seaborn和Scikit用于數(shù)據(jù)表示
用于深度學(xué)習(xí)應(yīng)用程序的TensorFlow和Pytorch
科學(xué)計(jì)算科學(xué)
Django,用于集成Web應(yīng)用程序
熊貓用于高級(jí)數(shù)據(jù)結(jié)構(gòu)和分析
Python提供了在面向?qū)ο蟮木幊袒蚰_本之間進(jìn)行選擇的靈活性。也不需要重新編譯代碼。開發(fā)人員可以實(shí)施任何更改并立即查看結(jié)果。您可以將Python和其他語(yǔ)言一起使用以實(shí)現(xiàn)所需的功能和結(jié)果。
Python是一種通用的編程語(yǔ)言,可以在任何平臺(tái)上運(yùn)行,包括Windows,MacOS,Linux,Unix等。從一個(gè)平臺(tái)遷移到另一個(gè)平臺(tái)時(shí),代碼需要進(jìn)行一些小的改動(dòng)和更改,并且可以在新平臺(tái)上使用了。
以下是使用Python解決機(jī)器學(xué)習(xí)問(wèn)題的好處的摘要:
機(jī)器學(xué)習(xí)的類型
機(jī)器學(xué)習(xí)大致分為三類
監(jiān)督學(xué)習(xí)
無(wú)監(jiān)督學(xué)習(xí)
強(qiáng)化學(xué)習(xí)
什么是監(jiān)督學(xué)習(xí)?
讓我們從一個(gè)簡(jiǎn)單的例子開始,說(shuō)您正在教一個(gè)孩子區(qū)分狗和貓。你會(huì)怎么做?
您可以給他/她看狗,然后說(shuō)“這是狗”,遇到貓時(shí)您會(huì)指出它是貓。當(dāng)您向孩子展示足夠多的貓狗時(shí),他可能會(huì)學(xué)會(huì)區(qū)分它們。如果他訓(xùn)練有素,他也許就能認(rèn)出他從未見過(guò)的不同品種的狗。
同樣,在監(jiān)督學(xué)習(xí)中,我們有兩組變量。一種稱為目標(biāo)變量,或稱為標(biāo)簽(我們要預(yù)測(cè)的變量)和特征(可幫助我們預(yù)測(cè)目標(biāo)變量的變量)。
我們向程序(模型)顯示功能以及與這些功能關(guān)聯(lián)的標(biāo)簽,然后程序便能夠在數(shù)據(jù)中找到潛在的模式。以該數(shù)據(jù)集的示例為例,在該數(shù)據(jù)集中我們要根據(jù)房屋的大小來(lái)預(yù)測(cè)房屋的價(jià)格。作為目標(biāo)變量的價(jià)格取決于作為特征的尺寸。
Number of rooms | Price |
1 | $100 |
3 | $300 |
5 | $500 |
在真實(shí)的數(shù)據(jù)集中,我們將有更多的行和不止一個(gè)功能,例如大小,位置,樓層數(shù)等等。
因此,可以說(shuō)監(jiān)督學(xué)習(xí)模型具有一組輸入變量(x)和一個(gè)輸出變量(y)。一種算法識(shí)別輸入和輸出變量之間的映射函數(shù)。關(guān)系為y = f(x)。
在我們已經(jīng)知道輸出和算法每次都得到更正以優(yōu)化其結(jié)果的意義上,對(duì)學(xué)習(xí)進(jìn)行監(jiān)視或監(jiān)督。對(duì)數(shù)據(jù)集進(jìn)行算法訓(xùn)練并對(duì)其進(jìn)行修改,直到達(dá)到可接受的性能水平。
我們可以將有監(jiān)督的學(xué)習(xí)問(wèn)題歸類為:
回歸問(wèn)題–用于預(yù)測(cè)未來(lái)價(jià)值,并使用歷史數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。例如,預(yù)測(cè)房屋的未來(lái)價(jià)格。
分類問(wèn)題–各種標(biāo)簽訓(xùn)練算法以識(shí)別特定類別中的項(xiàng)目。例如,狗或貓(如上例中所述),蘋果或橙子,啤酒或葡萄酒或水。
什么是無(wú)監(jiān)督學(xué)習(xí)?
這種方法是沒(méi)有目標(biāo)變量,只有輸入變量(特征)的方法。該算法可自行學(xué)習(xí)并在數(shù)據(jù)中發(fā)現(xiàn)令人印象深刻的結(jié)構(gòu)。
目的是破譯數(shù)據(jù)中的基礎(chǔ)分布,以獲得有關(guān)數(shù)據(jù)的更多知識(shí)。
我們可以將無(wú)監(jiān)督學(xué)習(xí)問(wèn)題分組為:
聚類:這意味著將具有相同特征的輸入變量捆綁在一起。例如,根據(jù)搜索記錄對(duì)用戶進(jìn)行分組
關(guān)聯(lián):在這里,我們發(fā)現(xiàn)控制數(shù)據(jù)集之間有意義關(guān)聯(lián)的規(guī)則。例如,觀看“ X”的人也會(huì)觀看“ Y”。
什么是強(qiáng)化學(xué)習(xí)?
在這種方法中,機(jī)器學(xué)習(xí)模型經(jīng)過(guò)訓(xùn)練,可以根據(jù)他們對(duì)自己的行為所獲得的獎(jiǎng)勵(lì)和反饋?zhàn)龀鲆幌盗袥Q策。機(jī)器學(xué)習(xí)如何在復(fù)雜和不確定的情況下實(shí)現(xiàn)目標(biāo),并且在學(xué)習(xí)期間每次達(dá)到目標(biāo)都會(huì)獲得獎(jiǎng)勵(lì)。
強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)在沒(méi)有可用答案的意義上有所不同,因此強(qiáng)化代理決定執(zhí)行任務(wù)的步驟。當(dāng)沒(méi)有訓(xùn)練數(shù)據(jù)集時(shí),機(jī)器會(huì)從自己的經(jīng)驗(yàn)中學(xué)習(xí)。
機(jī)器學(xué)習(xí)算法
這可能是您機(jī)器學(xué)習(xí)過(guò)程中最耗時(shí)且最困難的過(guò)程。機(jī)器學(xué)習(xí)中有很多算法,您不需要完全了解它們就可以入門。但是我建議,一旦您開始練習(xí)機(jī)器學(xué)習(xí),就應(yīng)該開始學(xué)習(xí)其中最受歡迎的算法,例如:
線性回歸
邏輯回歸
決策樹
支持向量機(jī)
樸素貝葉斯
K近鄰
K均值
隨機(jī)森林
梯度提升算法
GBM
XGBoost
LightGBM
貓助推器
在這里,我將簡(jiǎn)要概述一下機(jī)器學(xué)習(xí)中最簡(jiǎn)單的算法之一,即K近鄰算法(這是一種監(jiān)督學(xué)習(xí)算法),并說(shuō)明如何將其用于回歸和分類。我強(qiáng)烈建議檢查線性回歸和邏輯回歸,因?yàn)槲覀儗⒁獙?shí)現(xiàn)它們,并在實(shí)現(xiàn)部分將結(jié)果與KNN(K最近鄰)算法進(jìn)行比較。
您可能需要注意,對(duì)于回歸問(wèn)題和分類問(wèn)題,通常有單獨(dú)的算法。但是通過(guò)修改算法,我們可以將其用于分類和回歸,如下所示
K最近鄰居算法
KNN屬于一組懶惰的學(xué)習(xí)者。與急切的學(xué)習(xí)者(例如邏輯回歸,SVM,神經(jīng)網(wǎng)絡(luò))相反,懶惰的學(xué)習(xí)者只是將訓(xùn)練數(shù)據(jù)存儲(chǔ)在內(nèi)存中。在訓(xùn)練階段,KNN整理數(shù)據(jù)(建立索引的過(guò)程),以便在推理階段有效地找到最接近的鄰居。否則,它將不得不將推理期間的每個(gè)新個(gè)案與整個(gè)數(shù)據(jù)集進(jìn)行比較,從而使其效率很低。
因此,如果您想知道什么是訓(xùn)練階段,急切的學(xué)習(xí)者和懶惰的學(xué)習(xí)者,現(xiàn)在請(qǐng)記住,訓(xùn)練階段是算法從提供給它的數(shù)據(jù)中學(xué)習(xí)的時(shí)間。例如,如果您經(jīng)歷了上面鏈接的線性回歸算法,則在訓(xùn)練階段,該算法將嘗試找到最佳擬合線,該過(guò)程包括大量計(jì)算,因此需要大量時(shí)間,并且這種類型的算法被稱為渴望的學(xué)習(xí)者。另一方面,懶惰的學(xué)習(xí)者就像KNN一樣,不涉及很多計(jì)算,因此訓(xùn)練速度更快。
分類問(wèn)題的K-NN
現(xiàn)在讓我們看看如何使用K-NN進(jìn)行分類。這里是一個(gè)假設(shè)的數(shù)據(jù)集,它試圖根據(jù)身高和體重(特征)來(lái)預(yù)測(cè)一個(gè)人是男性還是女性(標(biāo)簽)。
高度(厘米)-特征 | 重量(kg)-特點(diǎn)。 | 性別(標(biāo)簽) |
187 | 80 | 男 |
165 | 50 | 女 |
199 | 99 | 男 |
145 | 70 | 女 |
180 | 87 | 男 |
178 | 65 | 女 |
187 | 60 | 男 |
現(xiàn)在讓我們繪制這些點(diǎn):
現(xiàn)在,我們要分類一個(gè)新點(diǎn),因?yàn)樗母叨葹?90 cm,重量為100 Kg。這是K-NN對(duì)這一點(diǎn)進(jìn)行分類的方式:
鴻蒙官方戰(zhàn)略合作共建——HarmonyOS技術(shù)社區(qū)
選擇K的值,用戶在分析數(shù)據(jù)后選擇他認(rèn)為最好的K值。
測(cè)量新點(diǎn)與其最接近的K個(gè)點(diǎn)的距離。有多種計(jì)算此距離的方法,其中最常用的方法是-Euclidian,Manhattan(用于連續(xù)數(shù)據(jù)點(diǎn),即回歸問(wèn)題)和Hamming距離(用于分類,即用于分類問(wèn)題)。
確定更接近新點(diǎn)的點(diǎn)的類別,并相應(yīng)地標(biāo)記新點(diǎn)。因此,如果更接近我們的新點(diǎn)的大多數(shù)點(diǎn)屬于某個(gè)“ a”類,則我們的新點(diǎn)預(yù)計(jì)將來(lái)自“ a”類。
現(xiàn)在讓我們將此算法應(yīng)用于我們自己的數(shù)據(jù)集。讓我們首先繪制新數(shù)據(jù)點(diǎn)。
現(xiàn)在讓我們?nèi) = 3,即,我們將看到與新點(diǎn)最接近的三個(gè)點(diǎn):
因此,它被分類為男性:
現(xiàn)在讓我們?nèi) = 5的值,看看會(huì)發(fā)生什么:
正如我們所看到的,最接近新數(shù)據(jù)點(diǎn)的四個(gè)點(diǎn)是男性,只有一個(gè)點(diǎn)是女性,因此我們以多數(shù)為準(zhǔn),再次將其分類為“男性”。分類時(shí),必須始終選擇K的值作為奇數(shù)。
回歸問(wèn)題的K-NN
我們已經(jīng)看到了如何使用K-NN進(jìn)行分類?,F(xiàn)在,讓我們看看進(jìn)行了哪些更改以將其用于回歸。該算法幾乎相同,只有一個(gè)區(qū)別。在分類中,我們檢查了所有最近點(diǎn)的大部分。在這里,我們將取所有最近點(diǎn)的平均值,并將其作為預(yù)測(cè)值。讓我們?cè)俅我韵嗤氖纠秊槔?,但是在這里我們必須根據(jù)一個(gè)人的身高(特征)來(lái)預(yù)測(cè)他的體重(標(biāo)簽)。
高度(厘米)-特征 | 重量(kg)-標(biāo)簽 |
187 | 80 |
165 | 50 |
199 | 99 |
145 | 70 |
180 | 87 |
178 | 65 |
187 | 60 |
現(xiàn)在我們有了一個(gè)高度為160cm的新數(shù)據(jù)點(diǎn),我們將K值分別設(shè)為1,2和4來(lái)預(yù)測(cè)其權(quán)重。
當(dāng)K = 1時(shí):我們數(shù)據(jù)中最接近160cm的點(diǎn)是165cm,其權(quán)重為50,因此我們得出的結(jié)論是預(yù)測(cè)的權(quán)重本身就是50。
當(dāng)K = 2時(shí):兩個(gè)最接近的點(diǎn)分別是165和145,權(quán)重分別等于50和70。取平均值,我們說(shuō)預(yù)測(cè)重量為(50 + 70)/ 2 = 60。
當(dāng)K = 4時(shí):重復(fù)相同的過(guò)程,現(xiàn)在我們?nèi)?個(gè)最接近的點(diǎn),因此我們得到70.6作為預(yù)測(cè)的權(quán)重。
您可能會(huì)認(rèn)為這真的很簡(jiǎn)單,并且機(jī)器學(xué)習(xí)沒(méi)有什么特別的,它只是基礎(chǔ)數(shù)學(xué)。但是請(qǐng)記住,這是最簡(jiǎn)單的算法,一旦前進(jìn),您將看到更加復(fù)雜的算法。
機(jī)器學(xué)習(xí)步驟
我希望機(jī)器學(xué)習(xí)只是在數(shù)據(jù)上應(yīng)用算法并獲得預(yù)測(cè)值,但這不是那么簡(jiǎn)單。機(jī)器學(xué)習(xí)中有幾個(gè)步驟對(duì)于每個(gè)項(xiàng)目都是必須的。
1. 收集數(shù)據(jù):這可能是最重要和最耗時(shí)的過(guò)程。在這一步中,我們需要收集可以幫助我們解決問(wèn)題的數(shù)據(jù)。例如,如果您要預(yù)測(cè)房屋的價(jià)格,我們需要一個(gè)適當(dāng)?shù)臄?shù)據(jù)集,其中包含有關(guān)過(guò)去房屋銷售的所有信息,然后形成表格結(jié)構(gòu)。我們將在實(shí)現(xiàn)部分中解決類似的問(wèn)題。
2. 準(zhǔn)備數(shù)據(jù):有了數(shù)據(jù)后,我們需要將其以正確的格式進(jìn)行處理。預(yù)處理涉及各種步驟,例如數(shù)據(jù)清理,例如,如果您的數(shù)據(jù)集包含一些空值或異常值(例如,字符串而不是數(shù)字),您將如何處理它?我們可以采用多種方法,但一種簡(jiǎn)單的方法是只刪除具有空值的行。
同樣有時(shí)候在數(shù)據(jù)集中,我們可能會(huì)有對(duì)結(jié)果沒(méi)有影響的列,例如id,我們也將這些列也刪除了。我們通常使用數(shù)據(jù)可視化通過(guò)圖形和圖表對(duì)數(shù)據(jù)進(jìn)行可視化,然后在分析圖形之后確定特點(diǎn)是important.Data預(yù)處理是一個(gè)巨大的話題。
3. 選擇模型:現(xiàn)在我們的數(shù)據(jù)已經(jīng)準(zhǔn)備就緒,可以輸入到機(jī)器學(xué)習(xí)算法中了。如果您想知道什么是模型?通常,“機(jī)器學(xué)習(xí)算法”與“機(jī)器學(xué)習(xí)模型”可以互換使用。模型是對(duì)數(shù)據(jù)運(yùn)行的機(jī)器學(xué)習(xí)算法的輸出。
簡(jiǎn)單來(lái)說(shuō),當(dāng)我們對(duì)所有數(shù)據(jù)實(shí)施算法時(shí),我們得到的輸出包含所有規(guī)則,數(shù)字以及進(jìn)行預(yù)測(cè)所需的任何其他特定于算法的數(shù)據(jù)結(jié)構(gòu)。例如,在對(duì)數(shù)據(jù)執(zhí)行線性回歸后,我們得到了最佳擬合線的方程式,該方程式稱為模型。下一步通常是訓(xùn)練模型,以防萬(wàn)一我們不想調(diào)整超參數(shù)并選擇默認(rèn)參數(shù)。
4. 超參數(shù)調(diào)整:超參數(shù)至關(guān)重要,因?yàn)樗鼈兛刂浦鴻C(jī)器學(xué)習(xí)模型的整體行為。最終目標(biāo)是找到能夠?yàn)槲覀儙?lái)最佳結(jié)果的超參數(shù)的最佳組合。但是這些超參數(shù)是什么?記住我們的K-NN算法中的變量K。
當(dāng)我們?cè)O(shè)置不同的K值時(shí),我們會(huì)得到不同的結(jié)果.K的最佳值不是預(yù)先定義的,并且對(duì)于不同的數(shù)據(jù)集是不同的。沒(méi)有方法可以知道K的最佳值,但是您可以嘗試不同的值并檢查哪個(gè)值可獲得最佳結(jié)果。這里的K是一個(gè)超參數(shù),每個(gè)算法都有自己的超參數(shù),我們需要調(diào)整它們的值以獲得最佳結(jié)果。
5. 評(píng)估:您可能想知道,如何知道模型的性能好壞,還有什么比在某些數(shù)據(jù)上測(cè)試模型更好的方法呢?該數(shù)據(jù)被稱為測(cè)試數(shù)據(jù),并且不能是我們?cè)谄渖嫌?xùn)練算法的數(shù)據(jù)(訓(xùn)練數(shù)據(jù))的子集。
訓(xùn)練模型的目的不是讓它學(xué)習(xí)訓(xùn)練數(shù)據(jù)集中的所有值,而是識(shí)別數(shù)據(jù)中的基礎(chǔ)模式,并基于此模式對(duì)從未見過(guò)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。有多種評(píng)估方法,例如K折交叉驗(yàn)證等。我們將在下一節(jié)中詳細(xì)討論此步驟。
6. 預(yù)測(cè):現(xiàn)在我們的模型在測(cè)試集上也表現(xiàn)良好,我們可以在現(xiàn)實(shí)世界中使用它,并希望它在現(xiàn)實(shí)世界的數(shù)據(jù)上能夠表現(xiàn)良好。
機(jī)器學(xué)習(xí)的優(yōu)勢(shì)
1. 輕松識(shí)別趨勢(shì)和模式
機(jī)器學(xué)習(xí)可以查看大量數(shù)據(jù),并發(fā)現(xiàn)人類看不到的特定趨勢(shì)和模式。例如,對(duì)于像Amazon和Flipkart這樣的電子商務(wù)網(wǎng)站,它可以了解其用戶的瀏覽行為和購(gòu)買歷史,以幫助他們選擇合適的產(chǎn)品,交易和提醒。它使用結(jié)果向他們顯示相關(guān)廣告。
2. 持續(xù)改進(jìn)
我們將不斷生成新數(shù)據(jù),并在將數(shù)據(jù)提供給機(jī)器學(xué)習(xí)模型時(shí)幫助其隨時(shí)間升級(jí)并提高其性能和準(zhǔn)確性。我們可以說(shuō),這就像獲得經(jīng)驗(yàn)一樣,因?yàn)樗麄儾粩嗵岣邷?zhǔn)確性和效率。這使他們可以做出更好的決策。
3. 處理多維和多元數(shù)據(jù)
機(jī)器學(xué)習(xí)算法擅長(zhǎng)處理多維和多類型的數(shù)據(jù),并且它們可以在動(dòng)態(tài)或不確定的環(huán)境中做到這一點(diǎn)。
4. 廣泛的應(yīng)用
您可以是電子零售商或醫(yī)療保健提供者,并可以使用機(jī)器學(xué)習(xí)。在適用的情況下,它具有幫助向客戶提供更多個(gè)人體驗(yàn)的能力,同時(shí)還可以針對(duì)合適的客戶。
“什么是Python機(jī)器學(xué)習(xí)”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
當(dāng)前文章:什么是Python機(jī)器學(xué)習(xí)
文章起源:http://jinyejixie.com/article2/poeooc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站改版、營(yíng)銷型網(wǎng)站建設(shè)、關(guān)鍵詞優(yōu)化、品牌網(wǎng)站設(shè)計(jì)、企業(yè)網(wǎng)站制作、域名注冊(cè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)