最近不少網(wǎng)友向我咨詢(xún)?nèi)绾螌W(xué)習(xí)大數(shù)據(jù)技術(shù)?大數(shù)據(jù)怎么入門(mén)?怎么做大數(shù)據(jù)分析?數(shù)據(jù)科學(xué)需要學(xué)習(xí)那些技術(shù)?大數(shù)據(jù)的應(yīng)用前景等等問(wèn)題。由于大數(shù)據(jù)技術(shù)涉及內(nèi)容太龐雜,大數(shù)據(jù)應(yīng)用領(lǐng)域廣泛,而且各領(lǐng)域和方向采用的關(guān)鍵技術(shù)差異性也會(huì)較大,難以三言?xún)烧Z(yǔ)說(shuō)清楚,本文從數(shù)據(jù)科學(xué)和大數(shù)據(jù)關(guān)鍵技術(shù)體系角度,來(lái)說(shuō)說(shuō)大數(shù)據(jù)的核心技術(shù)什么,到底要怎么學(xué)習(xí)它,以及怎么避免大數(shù)據(jù)學(xué)習(xí)的誤區(qū),以供參考。
專(zhuān)注于為中小企業(yè)提供成都網(wǎng)站設(shè)計(jì)、做網(wǎng)站、成都外貿(mào)網(wǎng)站建設(shè)公司服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)安順免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了近千家企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過(guò)網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。
1.大數(shù)據(jù)應(yīng)用的目標(biāo)是普適智能
要學(xué)好大數(shù)據(jù),首先要明確大數(shù)據(jù)應(yīng)用的目標(biāo),我曾經(jīng)講過(guò)大數(shù)據(jù)就好比萬(wàn)金油,像百度幾年前提的框計(jì)算,這個(gè)框什么都能往里裝。為什么會(huì)這樣,因?yàn)榇髷?shù)據(jù)這個(gè)框太大,其終極目標(biāo)是利用一系列信息技術(shù)實(shí)現(xiàn)海量數(shù)據(jù)條件下的人類(lèi)深度洞察和決策智能化,最終走向普適的人機(jī)智能融合!這不僅是傳統(tǒng)信息化管理的擴(kuò)展延伸,也是人類(lèi)社會(huì)發(fā)展管理智能化的核心技術(shù)驅(qū)動(dòng)力。通過(guò)大數(shù)據(jù)應(yīng)用,面向過(guò)去,發(fā)現(xiàn)數(shù)據(jù)規(guī)律,歸納已知;面向未來(lái),挖掘數(shù)據(jù)趨勢(shì),預(yù)測(cè)未知。從而提高人們對(duì)事物的理解和決策處置能力,最終實(shí)現(xiàn)社會(huì)的普適智能。不管是商業(yè)智能,機(jī)器智能,人工智能,還是智能客服,智能問(wèn)答,智能推薦,智慧醫(yī)療、智慧交通等相關(guān)技術(shù)和系統(tǒng),其本質(zhì)都是朝著這一目標(biāo)在演進(jìn)。隨著云計(jì)算平臺(tái)和大數(shù)據(jù)技術(shù)的高速發(fā)展,獲得大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)相關(guān)技術(shù)和支持越來(lái)越容易。同時(shí),移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)所具備的全面數(shù)據(jù)采集能力,客觀上促進(jìn)了大數(shù)據(jù)的積累和爆發(fā)??傊髷?shù)據(jù)就是個(gè)大框,什么都能往里裝,大數(shù)據(jù)源的采集如果用傳感器的話(huà)離不開(kāi)物聯(lián)網(wǎng)、大數(shù)據(jù)源的采集用智能手機(jī)的話(huà)離不開(kāi)移動(dòng)互聯(lián)網(wǎng),大數(shù)據(jù)海量數(shù)據(jù)存儲(chǔ)要高擴(kuò)展就離不開(kāi)云計(jì)算,大數(shù)據(jù)計(jì)算分析采用傳統(tǒng)的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)會(huì)比較慢,需要做并行計(jì)算和分布式計(jì)算擴(kuò)展,大數(shù)據(jù)要自動(dòng)特征工程離不開(kāi)深度學(xué)習(xí)、大數(shù)據(jù)要互動(dòng)展示離不開(kāi)可視化,而面向特定領(lǐng)域和多模態(tài)數(shù)據(jù)的大數(shù)據(jù)分析技術(shù)更是十分廣泛,金融大數(shù)據(jù)、交通大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、安全大數(shù)據(jù)、電信大數(shù)據(jù)、電商大數(shù)據(jù)、社交大數(shù)據(jù),文本大數(shù)據(jù)、圖像大數(shù)據(jù)、視頻大數(shù)據(jù)…諸如此類(lèi)等等范圍太廣,所以首先我們要搞清楚大數(shù)據(jù)應(yīng)用的核心目標(biāo),這個(gè)明確之后,才利于結(jié)合不同行業(yè)特點(diǎn)把握住共性關(guān)鍵技術(shù),從而有針對(duì)性的學(xué)習(xí)。
圖1 國(guó)外大數(shù)據(jù)企業(yè)關(guān)系圖,傳統(tǒng)信息技術(shù)企業(yè)也在向智能化發(fā)展,與新興大數(shù)據(jù)企業(yè)互為競(jìng)爭(zhēng)和支持。
2.從大數(shù)據(jù)版圖看數(shù)據(jù)科學(xué)及其關(guān)鍵技術(shù)體系
明確大數(shù)據(jù)應(yīng)用目標(biāo)之后,我們?cè)倏纯磾?shù)據(jù)科學(xué)(Data Science),數(shù)據(jù)科學(xué)可以理解為一個(gè)跨多學(xué)科領(lǐng)域的,從數(shù)據(jù)中獲取知識(shí)的科學(xué)方法,技術(shù)和系統(tǒng)集合,其目標(biāo)是從數(shù)據(jù)中提取出有價(jià)值的信息,它結(jié)合了諸多領(lǐng)域中的理論和技術(shù),包括應(yīng)用數(shù)學(xué),統(tǒng)計(jì),模式識(shí)別,機(jī)器學(xué)習(xí),人工智能,深度學(xué)習(xí),數(shù)據(jù)可視化,數(shù)據(jù)挖掘,數(shù)據(jù)倉(cāng)庫(kù),以及高性能計(jì)算等。圖靈獎(jiǎng)得主Jim Gray把數(shù)據(jù)科學(xué)喻為科學(xué)的“第四范式”(經(jīng)驗(yàn)、理論、計(jì)算和數(shù)據(jù)驅(qū)動(dòng)),并斷言因?yàn)樾畔⒓夹g(shù)的影響和數(shù)據(jù)的泛濫增長(zhǎng),未來(lái)不管什么領(lǐng)域的科學(xué)問(wèn)題都將由數(shù)據(jù)所驅(qū)動(dòng)。
在這里我還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流裙:532+二一八加上147,裙里都是學(xué)大數(shù)據(jù)開(kāi)發(fā)的,如果你正在學(xué)習(xí)大數(shù)據(jù) ,小編歡迎你加入,大家都是軟件開(kāi)發(fā)黨,不定期分享干貨(只有大數(shù)據(jù)開(kāi)發(fā)相關(guān)的),包括我自己整理的一份2018最新的大數(shù)據(jù)進(jìn)階資料和高級(jí)開(kāi)發(fā)教程,歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴
圖2 典型的數(shù)據(jù)科學(xué)過(guò)程:包括原始數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理和清洗,數(shù)據(jù)探索式分析,數(shù)據(jù)計(jì)算建模,數(shù)據(jù)可視化和報(bào)表,數(shù)據(jù)產(chǎn)品和決策支持等。
傳統(tǒng)信息化技術(shù)多是在結(jié)構(gòu)化和小規(guī)模數(shù)據(jù)上進(jìn)行計(jì)算處理,大數(shù)據(jù)時(shí)代呢,數(shù)據(jù)變大了,數(shù)據(jù)多源異構(gòu)了,需要智能預(yù)測(cè)和分析支持了,所以核心技術(shù)離不開(kāi)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能等,另外還需考慮海量數(shù)據(jù)的分布式存儲(chǔ)管理和機(jī)器學(xué)習(xí)算法并行處理,所以數(shù)據(jù)的大規(guī)模增長(zhǎng)客觀上促進(jìn)了DT(Data Technology)技術(shù)生態(tài)的繁榮與發(fā)展,包括大數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、分布式存儲(chǔ)、NoSql數(shù)據(jù)庫(kù)、多模式計(jì)算(批處理、在線(xiàn)處理、實(shí)時(shí)流處理、內(nèi)存處理)、多模態(tài)計(jì)算(圖像、文本、視頻、音頻)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)、并行計(jì)算、可視化等各種技術(shù)范疇和不同的層面??梢?jiàn)DT這種新技術(shù)泛型生態(tài)下的大數(shù)據(jù)版圖十分龐雜,當(dāng)然也有泡沫的成分存在,這個(gè)版圖也會(huì)時(shí)刻處于變化之中,就像PC時(shí)代的應(yīng)用程序,互聯(lián)網(wǎng)上的網(wǎng)站,移動(dòng)互聯(lián)網(wǎng)的APP,大數(shù)據(jù)時(shí)代的技術(shù)和產(chǎn)品也正處于優(yōu)勝劣汰的過(guò)程。下面我們來(lái)看2017版的大數(shù)據(jù)版圖:
圖3 國(guó)外和國(guó)內(nèi)中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)版圖(包括數(shù)據(jù)、技術(shù)、應(yīng)用、企業(yè)等)
上述大數(shù)據(jù)版圖基本涵蓋了國(guó)外大數(shù)據(jù)相關(guān)技術(shù)和產(chǎn)業(yè)鏈(國(guó)內(nèi)中關(guān)村版的大數(shù)據(jù)技術(shù)和企業(yè)還是太少,多是傳統(tǒng)信息技術(shù)企業(yè)在湊數(shù)),從大數(shù)據(jù)源,開(kāi)源技術(shù)框架,大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),大數(shù)據(jù)核心的計(jì)算挖掘分析,大數(shù)據(jù)行業(yè)應(yīng)用等方面進(jìn)行了相關(guān)技術(shù)、產(chǎn)品和企業(yè)的展示。大數(shù)據(jù)產(chǎn)業(yè)鏈從數(shù)據(jù)源〉開(kāi)源技術(shù)〉基礎(chǔ)設(shè)施〉分析計(jì)算〉行業(yè)應(yīng)用到產(chǎn)品落地,每個(gè)鏈條環(huán)節(jié)和下轄的細(xì)分內(nèi)容都涉及大量數(shù)據(jù)分析技術(shù)。不管是學(xué)習(xí)技術(shù)還是開(kāi)發(fā)產(chǎn)品,分析和理解這個(gè)大數(shù)據(jù)產(chǎn)業(yè)版圖都十分必要。版圖細(xì)節(jié)不做贅述,我們重點(diǎn)從學(xué)習(xí)的角度來(lái)看DT(Data technology)技術(shù)泛型下包括那些核心技術(shù),各技術(shù)領(lǐng)域之間是什么樣的邏輯關(guān)系,這是學(xué)習(xí)大數(shù)據(jù)首先要搞清楚的問(wèn)題:
(1)機(jī)器學(xué)習(xí)(machine learning):首先我們說(shuō)說(shuō)機(jī)器學(xué)習(xí),為什么先說(shuō)它,因?yàn)闄C(jī)器學(xué)習(xí)是大數(shù)據(jù)處理承上啟下的關(guān)鍵技術(shù),機(jī)器學(xué)習(xí)往上是深度學(xué)習(xí)、人工智能,機(jī)器學(xué)習(xí)往下是數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)習(xí)。機(jī)器學(xué)習(xí)屬于計(jì)算機(jī)和統(tǒng)計(jì)學(xué)交叉學(xué)科,核心目標(biāo)是通過(guò)函數(shù)映射、數(shù)據(jù)訓(xùn)練、最優(yōu)化求解、模型評(píng)估等一系列算法實(shí)現(xiàn)讓計(jì)算機(jī)擁有對(duì)數(shù)據(jù)進(jìn)行自動(dòng)分類(lèi)和預(yù)測(cè)的功能,機(jī)器學(xué)習(xí)領(lǐng)域包括很多種類(lèi)的智能處理算法,分類(lèi)、聚類(lèi)、回歸、相關(guān)分析等每類(lèi)下面都有很多算法進(jìn)行支撐,如SVM,神經(jīng)網(wǎng)絡(luò),Logistic回歸,決策樹(shù)、EM、HMM、貝葉斯網(wǎng)絡(luò)、隨機(jī)森林、LDA等,無(wú)論是網(wǎng)絡(luò)排名的十大算法還是二十大算法,都只能說(shuō)是冰山一角,隨著深度學(xué)習(xí)核心技術(shù)的突破性發(fā)展,機(jī)器學(xué)習(xí)算法得以高速擴(kuò)張;總之大數(shù)據(jù)處理要智能化,機(jī)器學(xué)習(xí)是核心的核心,深度學(xué)習(xí)、數(shù)據(jù)挖掘、商業(yè)智能、人工智能,大數(shù)據(jù)等概念的核心技術(shù)就是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)用于圖像處理和識(shí)別就是機(jī)器視覺(jué),機(jī)器學(xué)習(xí)用于模擬人類(lèi)語(yǔ)言就是自然語(yǔ)言處理,機(jī)器視覺(jué)和自然語(yǔ)言處理也是支撐人工智能的核心技術(shù),機(jī)器學(xué)習(xí)用于通用的數(shù)據(jù)分析就是數(shù)據(jù)挖掘。深度學(xué)習(xí)(deep learning)是機(jī)器學(xué)習(xí)里面現(xiàn)在比較火的一個(gè)子領(lǐng)域,屬于原來(lái)人工神經(jīng)網(wǎng)絡(luò)算法的一系列變種,由于在大數(shù)據(jù)條件下圖像,語(yǔ)音識(shí)別等領(lǐng)域的學(xué)習(xí)效果顯著,有望成為人工智能取得突破的關(guān)鍵性技術(shù),所以各大研究機(jī)構(gòu)和IT巨頭們都對(duì)其投入了極大的關(guān)注。
(2)數(shù)據(jù)挖掘(data mining),數(shù)據(jù)挖掘可以說(shuō)是機(jī)器學(xué)習(xí)的一個(gè)超集,是一個(gè)較為寬泛的概念,類(lèi)似于采礦,要從大量礦石里面挖出寶石,從海量數(shù)據(jù)里面挖掘有價(jià)值有規(guī)律的信息同理。數(shù)據(jù)挖掘核心技術(shù)來(lái)自于機(jī)器學(xué)習(xí)領(lǐng)域,如深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一類(lèi)比較火的算法,當(dāng)然也可以用于數(shù)據(jù)挖掘。還有傳統(tǒng)的商業(yè)智能(BI)領(lǐng)域也包括數(shù)據(jù)挖掘,OLAP多維數(shù)據(jù)分析可以做挖掘分析,甚至Excel基本的統(tǒng)計(jì)分析也可以做挖掘。關(guān)鍵是你的技術(shù)能否真正挖掘出有用的信息,然后這些信息可以指導(dǎo)決策。數(shù)據(jù)挖掘的提法比機(jī)器學(xué)習(xí)要早,應(yīng)用范圍要廣,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是大數(shù)據(jù)分析的核心技術(shù),互為支撐,為大數(shù)據(jù)處理提供相關(guān)模型和算法,而模型和算法是大數(shù)據(jù)處理的關(guān)鍵,探索式交互式分析、可視化分析、數(shù)據(jù)的采集存儲(chǔ)和管理等都較少用到學(xué)習(xí)模型。
(3)人工智能(artifical intelligence),AI和大數(shù)據(jù)是相互促進(jìn)的關(guān)系,一方面,AI基礎(chǔ)理論技術(shù)的發(fā)展為大數(shù)據(jù)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘提供了更豐富的模型和算法,如近幾年的深度學(xué)習(xí)一系列技術(shù)(強(qiáng)化學(xué)習(xí)、對(duì)抗學(xué)習(xí)等)和方法;另一方面,大數(shù)據(jù)為AI的發(fā)展提供了新的動(dòng)力和燃料,數(shù)據(jù)規(guī)模大了之后,傳統(tǒng)機(jī)器學(xué)習(xí)算法面臨挑戰(zhàn),要做并行化、要加速要改進(jìn)。AI的終極目標(biāo)是機(jī)器智能化擬人化,機(jī)器能完成和人一樣的工作,人腦僅憑幾十瓦的功率,能夠處理種種復(fù)雜的問(wèn)題,怎樣看都是很神奇的事情。雖然機(jī)器的計(jì)算能力比人類(lèi)強(qiáng)很多,但人類(lèi)的理解能力,感性的推斷,記憶和幻想,心理學(xué)等方面的功能,機(jī)器是難以比肩的,所以機(jī)器要擬人化很難單從技術(shù)角度把人工智能講清楚。人工智能與機(jī)器學(xué)習(xí)的關(guān)系,兩者的相當(dāng)一部分技術(shù)、算法都是重合的,深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)和×××走步等領(lǐng)域取得了巨大的成功,比如谷歌自動(dòng)識(shí)別一只貓,谷歌的AlpaGo還擊敗了人類(lèi)頂級(jí)的專(zhuān)業(yè)圍棋手等。但深度學(xué)習(xí)在現(xiàn)階段還不能實(shí)現(xiàn)類(lèi)腦計(jì)算,最多達(dá)到仿生層面,情感,記憶,認(rèn)知,經(jīng)驗(yàn)等人類(lèi)獨(dú)有能力機(jī)器在短期難以達(dá)到。
(4)其它大數(shù)據(jù)處理基礎(chǔ)技術(shù),如圖4,大數(shù)據(jù)基礎(chǔ)技術(shù)包括計(jì)算機(jī)科學(xué)相關(guān)如編程、云計(jì)算、分布式計(jì)算、系統(tǒng)架構(gòu)設(shè)計(jì)等方向,還有機(jī)器學(xué)習(xí)的理論基礎(chǔ)包括如算法、數(shù)據(jù)結(jié)構(gòu)、概率論、代數(shù)、矩陣分析、統(tǒng)計(jì)學(xué)習(xí)、特征工程等方面;商業(yè)分析與理解如領(lǐng)域知識(shí)管理、產(chǎn)品設(shè)計(jì)、可視化等技術(shù);數(shù)據(jù)管理如數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、信息檢索、多維分析、分布式存儲(chǔ)等技術(shù)。這些理論與技術(shù)是為大數(shù)據(jù)的基礎(chǔ)管理、機(jī)器學(xué)習(xí)和應(yīng)用決策等多個(gè)方面服務(wù)的。
圖4 數(shù)據(jù)科學(xué)的技術(shù)維度
上圖是數(shù)據(jù)科學(xué)的5個(gè)技術(shù)維度,基本涵蓋了數(shù)據(jù)科學(xué)的關(guān)鍵支撐技術(shù)體系,從數(shù)據(jù)管理、計(jì)算機(jī)科學(xué)基礎(chǔ)理論技術(shù)、數(shù)據(jù)分析、商業(yè)理解決策與設(shè)計(jì)幾個(gè)方面進(jìn)行了數(shù)據(jù)科學(xué)相關(guān)技術(shù)的梳理,其中計(jì)算機(jī)科學(xué)基礎(chǔ)理論方法與數(shù)據(jù)分析兩個(gè)板塊的學(xué)習(xí)內(nèi)容是最多的,也是最重要的?,F(xiàn)階段的大數(shù)據(jù)產(chǎn)品和服務(wù)多是在數(shù)據(jù)管理版塊,分析板塊和業(yè)務(wù)決策板塊的對(duì)接是數(shù)據(jù)科學(xué)和大數(shù)據(jù)產(chǎn)業(yè)后續(xù)發(fā)展的關(guān)鍵突破點(diǎn)。
另外圖中的Art&Design版塊只列了交通溝通和可視化,其實(shí)還不夠,這個(gè)藝術(shù)(Art)還說(shuō)明了數(shù)據(jù)科學(xué)與傳統(tǒng)信息化技術(shù)的本質(zhì)不同,數(shù)據(jù)科學(xué)的核心能力是根據(jù)問(wèn)題提出設(shè)想,再把設(shè)想轉(zhuǎn)化為學(xué)習(xí)模型,這種能力是要講藝術(shù)的,沒(méi)有這樣的設(shè)計(jì)藝術(shù),計(jì)算機(jī)要智能化不是那么容易。為什么上升為藝術(shù)了?因?yàn)榻?jīng)驗(yàn)告訴我們,把現(xiàn)實(shí)問(wèn)題轉(zhuǎn)化為模型沒(méi)有標(biāo)準(zhǔn)答案,可選的模型不只一種,技術(shù)路線(xiàn)多樣,評(píng)價(jià)指標(biāo)也有多個(gè)維度,甚至優(yōu)化方法也有很多種,機(jī)器學(xué)習(xí)的本質(zhì)就是在處理這門(mén)藝術(shù),給定原始數(shù)據(jù)、限制條件和問(wèn)題描述,沒(méi)有標(biāo)準(zhǔn)答案,每種方案的選擇就是一種設(shè)想假設(shè),需要具備利用精確的測(cè)試和實(shí)驗(yàn)方法來(lái)驗(yàn)證和證偽這些假設(shè)的能力,從這個(gè)層面講,未來(lái)所有科學(xué)問(wèn)題以及商業(yè)、政府管理決策問(wèn)題都將是數(shù)據(jù)科學(xué)問(wèn)題,而機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的核心。
3.大數(shù)據(jù)盲人摸象:如何構(gòu)建完整的知識(shí)結(jié)構(gòu)和分析能力
從數(shù)字化、信息化、網(wǎng)絡(luò)化到未來(lái)的智能化時(shí)代,移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、人工智能等前沿信息技術(shù)領(lǐng)域,逐個(gè)火了一遍。也代表了信息技術(shù)發(fā)展的大趨勢(shì),什么是大數(shù)據(jù),大數(shù)據(jù)的技術(shù)范疇及其邏輯關(guān)系,估計(jì)很多人都是根據(jù)自己所熟悉的領(lǐng)域在盲人摸象(如圖5)。其實(shí)我這里講的盲人摸象并不是貶義,畢竟一個(gè)領(lǐng)域的學(xué)習(xí)到精通就是從盲人摸象式開(kāi)始的。大數(shù)據(jù)、數(shù)據(jù)科學(xué)都是很虛的一個(gè)概念,分析目標(biāo)和采用技術(shù)都包羅萬(wàn)象,就好比寫(xiě)程序,分前端和后端,分B/S和C/S,分嵌入式、企業(yè)應(yīng)用和APP等,開(kāi)發(fā)語(yǔ)言更是有數(shù)十種,不同方向所需要的技術(shù)也是大不相同。
圖5 大數(shù)據(jù)盲人摸象
所以怎么從點(diǎn)到面,構(gòu)建大數(shù)據(jù)領(lǐng)域完整的知識(shí)結(jié)構(gòu)和分析能力至關(guān)重要,某方面的技術(shù)和語(yǔ)言只是工具而已。大數(shù)據(jù)知識(shí)結(jié)構(gòu),就是既有精深的大數(shù)據(jù)基礎(chǔ)理論知識(shí),又有廣博的知識(shí)面和應(yīng)用全局觀,具有大數(shù)據(jù)產(chǎn)業(yè)發(fā)展所需要的最合理、最優(yōu)化、最關(guān)鍵的核心技術(shù)與知識(shí)體系。通過(guò)合理的知識(shí)結(jié)構(gòu)和科學(xué)的大數(shù)據(jù)思維方法,提高大數(shù)據(jù)分析實(shí)戰(zhàn)技能。這個(gè)目標(biāo)很大,但還是可以達(dá)到的,首先要搞清楚大數(shù)據(jù)產(chǎn)業(yè)鏈的情況,接下來(lái)要明確大數(shù)據(jù)技術(shù)棧也就是相關(guān)技術(shù)體系,最后定下學(xué)習(xí)目標(biāo)和應(yīng)用方向,是面對(duì)什么行業(yè)的數(shù)據(jù),是關(guān)注存儲(chǔ)還是機(jī)器學(xué)習(xí),數(shù)據(jù)規(guī)模是什么量級(jí),數(shù)據(jù)類(lèi)型是文本、圖像、網(wǎng)頁(yè)還是商業(yè)數(shù)據(jù)庫(kù)?每個(gè)方向所用技術(shù)有較大差異,需要找準(zhǔn)學(xué)習(xí)的興趣點(diǎn)和切入點(diǎn)。
圖6 大數(shù)據(jù)技術(shù)棧與學(xué)習(xí)路線(xiàn)參考圖
上面這個(gè)大數(shù)據(jù)技術(shù)棧和學(xué)習(xí)路線(xiàn)圖,可以說(shuō)是一個(gè)大數(shù)據(jù)學(xué)習(xí)的總綱,專(zhuān)業(yè)性很強(qiáng),值得初學(xué)者深入研究和理解,對(duì)我在前面提到的數(shù)據(jù)科學(xué)技術(shù)體系來(lái)講,是更豐富的補(bǔ)充。比如基礎(chǔ)學(xué)習(xí)部分包括線(xiàn)性代數(shù)、關(guān)系代數(shù)、數(shù)據(jù)庫(kù)基礎(chǔ)、CAP理論、OLAP、多維數(shù)據(jù)模型、數(shù)據(jù)預(yù)處理ETL等都分析得很到位??傊髷?shù)據(jù)學(xué)習(xí)不能像炒菜一樣,等到把所有材料準(zhǔn)備好了才下鍋(因?yàn)檫@個(gè)領(lǐng)域技術(shù)體系龐雜應(yīng)用目標(biāo)廣泛,就算學(xué)個(gè)十年二十年也難以掌握其大部分核心理論技術(shù)),而是結(jié)合自己的興趣或工作需求,找一個(gè)點(diǎn)猛扎進(jìn)去,掌握這個(gè)點(diǎn)的相關(guān)技術(shù),深入理解其分析的流程、應(yīng)用和評(píng)價(jià)等環(huán)節(jié),搞透徹一個(gè)點(diǎn)之后,再以點(diǎn)帶面,舉一反三,逐步覆蓋大數(shù)據(jù)各個(gè)領(lǐng)域,從而構(gòu)建完整的知識(shí)結(jié)構(gòu)和技術(shù)能力體系,這才是大數(shù)據(jù)學(xué)習(xí)的最佳路徑。
4.大數(shù)據(jù)要怎么學(xué):數(shù)據(jù)科學(xué)特點(diǎn)與大數(shù)據(jù)學(xué)習(xí)誤區(qū)
(1)大數(shù)據(jù)學(xué)習(xí)要業(yè)務(wù)驅(qū)動(dòng),不要技術(shù)驅(qū)動(dòng):數(shù)據(jù)科學(xué)的核心能力是解決問(wèn)題。大數(shù)據(jù)的核心目標(biāo)是數(shù)據(jù)驅(qū)動(dòng)的智能化,要解決具體的問(wèn)題,不管是科學(xué)研究問(wèn)題,還是商業(yè)決策問(wèn)題,抑或是政府管理問(wèn)題。所以學(xué)習(xí)之前要明確問(wèn)題,理解問(wèn)題,所謂問(wèn)題導(dǎo)向、目標(biāo)導(dǎo)向,這個(gè)明確之后再研究和選擇合適的技術(shù)加以應(yīng)用,這樣才有針對(duì)性,言必hadoop,spark的大數(shù)據(jù)分析是不嚴(yán)謹(jǐn)?shù)?。不同的業(yè)務(wù)領(lǐng)域需要不同方向理論、技術(shù)和工具的支持。如文本、網(wǎng)頁(yè)要自然語(yǔ)言建模,隨時(shí)間變化數(shù)據(jù)流需要序列建模,圖像音頻和視頻多是時(shí)空混合建模;大數(shù)據(jù)處理如采集需要爬蟲(chóng)、倒入導(dǎo)出和預(yù)處理等支持,存儲(chǔ)需要分布式云存儲(chǔ)、云計(jì)算資源管理等支持,計(jì)算需要分類(lèi)、預(yù)測(cè)、描述等模型支持,應(yīng)用需要可視化、知識(shí)庫(kù)、決策評(píng)價(jià)等支持。所以是業(yè)務(wù)決定技術(shù),而不是根據(jù)技術(shù)來(lái)考慮業(yè)務(wù),這是大數(shù)據(jù)學(xué)習(xí)要避免的第一個(gè)誤區(qū)。
(2)大數(shù)據(jù)學(xué)習(xí)要善用開(kāi)源,不要重復(fù)造輪子:數(shù)據(jù)科學(xué)的技術(shù)基因在于開(kāi)源。IT前沿領(lǐng)域的開(kāi)源化已成不可逆轉(zhuǎn)的趨勢(shì),Android開(kāi)源讓智能手機(jī)平民化,讓我們跨入了移動(dòng)互聯(lián)網(wǎng)時(shí)代,智能硬件開(kāi)源將帶領(lǐng)跨入物聯(lián)網(wǎng)時(shí)代,以Hadoop和Spark為代表的大數(shù)據(jù)開(kāi)源生態(tài)加速了去IOE(IBM、ORACLE、EMC)進(jìn)程,倒逼傳統(tǒng)IT巨頭擁抱開(kāi)源,谷歌和OpenAI聯(lián)盟的深度學(xué)習(xí)開(kāi)源(以Tensorflow,Torch,Caffe等為代表)正在加速人工智能技術(shù)的發(fā)展。數(shù)據(jù)科學(xué)的標(biāo)配語(yǔ)言R和Python更是因開(kāi)源而生,因開(kāi)源而繁榮,諾基亞因沒(méi)把握開(kāi)源大勢(shì)而衰落。為什么要開(kāi)源,這得益于IT發(fā)展的工業(yè)化和構(gòu)件化,各大領(lǐng)域的基礎(chǔ)技術(shù)棧和工具庫(kù)已經(jīng)很成熟,下一階段就是怎么快速組合、快速搭積木、快速產(chǎn)出的問(wèn)題,不管是linux,anroid還是tensorflow,其基礎(chǔ)構(gòu)件庫(kù)基本就是利用已有開(kāi)源庫(kù),結(jié)合新的技術(shù)方法實(shí)現(xiàn),組合構(gòu)建而成,很少在重復(fù)造輪子。另外,開(kāi)源這種眾包開(kāi)發(fā)模式,是一種集體智慧編程的體現(xiàn),一個(gè)公司無(wú)法積聚全球工程師的開(kāi)發(fā)智力,而一個(gè)GitHub上的明星開(kāi)源項(xiàng)目可以,所以要善用開(kāi)源和集體智慧編程,而不要重復(fù)造輪子,這是大數(shù)據(jù)學(xué)習(xí)要避免的第二個(gè)誤區(qū)。
(3)大數(shù)據(jù)學(xué)習(xí)要以點(diǎn)帶面,不貪大求全:數(shù)據(jù)科學(xué)要把握好碎片化與系統(tǒng)性。根據(jù)前文的大數(shù)據(jù)技術(shù)體系分析,我們可以看到大數(shù)據(jù)技術(shù)的深度和廣度都是傳統(tǒng)信息技術(shù)難以比擬的。我們的精力很有限,短時(shí)間內(nèi)很難掌握多個(gè)領(lǐng)域的大數(shù)據(jù)理論和技術(shù),數(shù)據(jù)科學(xué)要把握好碎片化和系統(tǒng)性的關(guān)系。何為碎片化,這個(gè)碎片化包括業(yè)務(wù)層面和技術(shù)層面,大數(shù)據(jù)不只是谷歌,亞馬遜,BAT等互聯(lián)網(wǎng)企業(yè),每一個(gè)行業(yè)、企業(yè)里面都有它去關(guān)注數(shù)據(jù)的痕跡:一條生產(chǎn)線(xiàn)上的實(shí)時(shí)傳感器數(shù)據(jù),車(chē)輛身上的傳感數(shù)據(jù),高鐵設(shè)備的運(yùn)行狀態(tài)數(shù)據(jù),交通部門(mén)的監(jiān)控?cái)?shù)據(jù),醫(yī)療機(jī)構(gòu)的病例數(shù)據(jù),政府部門(mén)的海量數(shù)據(jù)等等,大數(shù)據(jù)的業(yè)務(wù)場(chǎng)景和分析目標(biāo)是碎片化的,而且相互之間分析目標(biāo)的差異很大;另外,技術(shù)層面來(lái)講,大數(shù)據(jù)技術(shù)就是萬(wàn)金油,一切服務(wù)于數(shù)據(jù)分析和決策的技術(shù)都屬于這個(gè)范疇,其技術(shù)體系也是碎片化的。那怎么把握系統(tǒng)性呢,不同領(lǐng)域的大數(shù)據(jù)應(yīng)用有其共性關(guān)鍵技術(shù),其系統(tǒng)技術(shù)架構(gòu)也有相通的地方,如系統(tǒng)的高度可擴(kuò)展性,能進(jìn)行橫向數(shù)據(jù)大規(guī)模擴(kuò)張,縱向業(yè)務(wù)大規(guī)模擴(kuò)展,高容錯(cuò)性和多源異構(gòu)環(huán)境的支持,對(duì)原有系統(tǒng)的兼容和集成等等,每個(gè)大數(shù)據(jù)系統(tǒng)都應(yīng)該考慮上述問(wèn)題。如何把握大數(shù)據(jù)的碎片化學(xué)習(xí)和系統(tǒng)性設(shè)計(jì),離不開(kāi)前面提出的兩點(diǎn)誤區(qū),建議從應(yīng)用切入、以點(diǎn)帶面,先從一個(gè)實(shí)際的應(yīng)用領(lǐng)域需求出發(fā),搞定一個(gè)一個(gè)技術(shù)點(diǎn),有一定功底之后,再舉一反三橫向擴(kuò)展逐步理解其系統(tǒng)性技術(shù)。
(4)大數(shù)據(jù)學(xué)習(xí)要勇于實(shí)踐,不要紙上談兵:數(shù)據(jù)科學(xué)還是數(shù)據(jù)工程?大數(shù)據(jù)只有和特定領(lǐng)域的應(yīng)用結(jié)合起來(lái)才能產(chǎn)生價(jià)值,數(shù)據(jù)科學(xué)還是數(shù)據(jù)工程是大數(shù)據(jù)學(xué)習(xí)要明確的關(guān)鍵問(wèn)題,搞學(xué)術(shù)發(fā)paper數(shù)據(jù)科學(xué)OK,但要大數(shù)據(jù)應(yīng)用落地,如果把數(shù)據(jù)科學(xué)成果轉(zhuǎn)化為數(shù)據(jù)工程進(jìn)行落地應(yīng)用,難度很大,這也是很多企業(yè)質(zhì)疑數(shù)據(jù)科學(xué)價(jià)值的原因。且不說(shuō)這種轉(zhuǎn)化需要一個(gè)過(guò)程,從業(yè)人員自身也是需要審視思考的。工業(yè)界包括政府管理機(jī)構(gòu)如何引入研究智力,數(shù)據(jù)分析如何轉(zhuǎn)化和價(jià)值變現(xiàn)?數(shù)據(jù)科學(xué)研究人員和企業(yè)大數(shù)據(jù)系統(tǒng)開(kāi)發(fā)工程人員都得想想這些關(guān)鍵問(wèn)題。目前數(shù)據(jù)工程要解決的關(guān)鍵問(wèn)題主線(xiàn)是數(shù)據(jù)(Data)>知識(shí)(Knowledge)>服務(wù)(Service),數(shù)據(jù)采集和管理,挖掘分析獲取知識(shí),知識(shí)規(guī)律進(jìn)行決策支持和應(yīng)用轉(zhuǎn)化為持續(xù)服務(wù)。解決好這三個(gè)問(wèn)題,才算大數(shù)據(jù)應(yīng)用落地,那么從學(xué)習(xí)角度講,DWS就是大數(shù)據(jù)學(xué)習(xí)要解決問(wèn)題的總目標(biāo),特別要注重?cái)?shù)據(jù)科學(xué)的實(shí)踐應(yīng)用能力,而且實(shí)踐要重于理論。從模型,特征,誤差,實(shí)驗(yàn),測(cè)試到應(yīng)用,每一步都要考慮是否能解決現(xiàn)實(shí)問(wèn)題,模型是否具備可解釋性,要勇于嘗試和迭代,模型和軟件包本身不是萬(wàn)能的,大數(shù)據(jù)應(yīng)用要注重魯棒性和實(shí)效性,溫室模型是沒(méi)有用的,訓(xùn)練集和測(cè)試集就OK了嗎?大數(shù)據(jù)如何走出實(shí)驗(yàn)室和工程化落地,一是不能閉門(mén)造車(chē),模型收斂了就想當(dāng)然萬(wàn)事大吉了;二是要走出實(shí)驗(yàn)室充分與業(yè)界實(shí)際決策問(wèn)題對(duì)接;三是關(guān)聯(lián)關(guān)系和因果關(guān)系都不能少,不能描述因果關(guān)系的模型無(wú)助于解決現(xiàn)實(shí)問(wèn)題;四是注重模型的迭代和產(chǎn)品化,持續(xù)升級(jí)和優(yōu)化,解決新數(shù)據(jù)增量學(xué)習(xí)和模型動(dòng)態(tài)調(diào)整的問(wèn)題。所以,大數(shù)據(jù)學(xué)習(xí)一定要清楚我是在做數(shù)據(jù)科學(xué)還是數(shù)據(jù)工程,各需要哪些方面的技術(shù)能力,現(xiàn)在處于哪一個(gè)階段等,不然為了技術(shù)而技術(shù),是難以學(xué)好和用好大數(shù)據(jù)的。
(5)大數(shù)據(jù)學(xué)習(xí)的三個(gè)階段:不同階段的技術(shù)路線(xiàn)各有側(cè)重,把握主要矛盾。在大數(shù)據(jù)應(yīng)用實(shí)施過(guò)程中,由于技術(shù)和成本考慮,不可能短時(shí)間內(nèi)解決所有問(wèn)題,大數(shù)據(jù)應(yīng)用本身有其規(guī)律和特點(diǎn),比如分析目標(biāo)一定是要跟數(shù)據(jù)規(guī)模匹配,分析技術(shù)的采用取決于數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)源條件,數(shù)據(jù)集成一定要覆蓋比較全面的業(yè)務(wù)背景,關(guān)鍵環(huán)節(jié)數(shù)據(jù)不能有缺失等等。大數(shù)據(jù)學(xué)習(xí)可以根據(jù)應(yīng)用目標(biāo)分三個(gè)階段:
1)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)階段:這個(gè)階段的重點(diǎn)是把大數(shù)據(jù)存起來(lái),管起來(lái),能用起來(lái),同時(shí)要考慮大數(shù)據(jù)平臺(tái)和原有業(yè)務(wù)系統(tǒng)的互通聯(lián)合問(wèn)題。一句話(huà),做好全局?jǐn)?shù)據(jù)集成解決數(shù)據(jù)孤島問(wèn)題!要完成大數(shù)據(jù)基礎(chǔ)設(shè)施系統(tǒng)建設(shè)開(kāi)發(fā),需要明確數(shù)據(jù)采集、存儲(chǔ)和分析各層核心組件的選型和使用,搭建穩(wěn)定的大數(shù)據(jù)集群,或選擇私有云方案的服務(wù)集群,與生產(chǎn)系統(tǒng)并線(xiàn)運(yùn)行,使待分析的歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)得以采集并源源不斷流入大數(shù)據(jù)系統(tǒng)。這個(gè)階段的關(guān)鍵技術(shù)學(xué)習(xí)包括采集爬蟲(chóng)、數(shù)據(jù)接口、分布式存儲(chǔ)、數(shù)據(jù)預(yù)處理ETL、數(shù)據(jù)集成、數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)管理、云計(jì)算和資源調(diào)度管理等等內(nèi)容。
2)大數(shù)據(jù)描述性分析階段:此階段主要定位于離線(xiàn)或在線(xiàn)對(duì)數(shù)據(jù)進(jìn)行基本描述統(tǒng)計(jì)和探索式可視化分析,對(duì)管理起來(lái)的大數(shù)據(jù)能進(jìn)行海量存儲(chǔ)條件下的交互式查詢(xún)、匯總、統(tǒng)計(jì)和可視化,如果建設(shè)了BI系統(tǒng)的,還需整合傳統(tǒng)BI技術(shù)進(jìn)行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型數(shù)據(jù)挖掘分析。這個(gè)基礎(chǔ)分析階段是對(duì)數(shù)據(jù)集成質(zhì)量的檢驗(yàn),也是對(duì)海量數(shù)據(jù)條件下的分布式存儲(chǔ)管理技術(shù)應(yīng)用穩(wěn)定性的測(cè)試,同時(shí)要能替代或集成傳統(tǒng)BI的各類(lèi)報(bào)表。這個(gè)階段的關(guān)鍵技術(shù)學(xué)習(xí)包括可視化、探索式交互式分析、多維分析、各類(lèi)基本報(bào)表和圖表的查詢(xún)?cè)O(shè)計(jì)等等。
3)大數(shù)據(jù)高級(jí)預(yù)測(cè)分析和生產(chǎn)部署階段:在初步描述分析結(jié)果合理,符合預(yù)期目標(biāo),數(shù)據(jù)分布式管理和描述型分析穩(wěn)定成熟的條件下,可結(jié)合進(jìn)一步智能化分析需求,采用如深度學(xué)習(xí)等適用海量數(shù)據(jù)處理的機(jī)器學(xué)習(xí)模型,進(jìn)行高級(jí)預(yù)測(cè)性挖掘分析。并通過(guò)逐步迭代優(yōu)化挖掘模型和數(shù)據(jù)質(zhì)量,形成穩(wěn)定可靠和性能可擴(kuò)展的智能預(yù)測(cè)模型,并在企業(yè)相關(guān)業(yè)務(wù)服務(wù)中進(jìn)行分析結(jié)果的決策支持,進(jìn)行驗(yàn)證、部署、評(píng)估和反饋。這個(gè)階段的關(guān)鍵技術(shù)包括機(jī)器學(xué)習(xí)建模、決策支持、可視化、模型部署和運(yùn)維等。
在上述幾個(gè)階段的技術(shù)學(xué)習(xí)過(guò)程中,需要注意幾個(gè)關(guān)鍵問(wèn)題:一是重視可視化和業(yè)務(wù)決策,大數(shù)據(jù)分析結(jié)果是為決策服務(wù),而大數(shù)據(jù)決策的表現(xiàn)形式,可視化技術(shù)的優(yōu)劣起決定性作用;二是問(wèn)問(wèn)自己,Hadoop、Spark等是必須的嗎?要從整個(gè)大數(shù)據(jù)技術(shù)棧來(lái)考慮技術(shù)選型和技術(shù)路線(xiàn)的確定;三是建模問(wèn)題處于核心地位,模型的選擇和評(píng)估至關(guān)重要,在課堂和實(shí)驗(yàn)室中,多數(shù)模型的評(píng)估是靜態(tài)的,少有考慮其運(yùn)行速度、實(shí)時(shí)性及增量處理,因此多使用復(fù)雜的臃腫模型,其特征變量往往及其復(fù)雜。而Kaggle競(jìng)賽中的各種Boost方法,XGBDT、隨機(jī)森林等模型,在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)教材中卻少有提及,所以要充分參考業(yè)界實(shí)戰(zhàn)經(jīng)驗(yàn)不能盡信書(shū);四是開(kāi)發(fā)語(yǔ)言的選擇,基礎(chǔ)框架系統(tǒng)Java是必須掌握的,應(yīng)用級(jí)的機(jī)器學(xué)習(xí)和數(shù)據(jù)分析庫(kù)Python是必須掌握的,而要深入各種框架和學(xué)習(xí)庫(kù)的底層,C++是必須掌握的;五是模型的產(chǎn)品化,需要將實(shí)際數(shù)據(jù)通過(guò)管道設(shè)計(jì)轉(zhuǎn)換為輸入特征傳遞給模型,如何最小化模型在線(xiàn)上和線(xiàn)下的表現(xiàn)差距,這些都是要解決關(guān)鍵的問(wèn)題。
(6)其它補(bǔ)充:Kaggle,眾包與培訓(xùn)。眾包是一種基于互聯(lián)網(wǎng)的創(chuàng)新生產(chǎn)組織形式,企業(yè)利用網(wǎng)絡(luò)將工作分配出去,通過(guò)讓更合適的人群參與其中來(lái)發(fā)現(xiàn)創(chuàng)意和解決問(wèn)題,如維基百科,還有IT資源社區(qū)GitHub,都是典型的眾包平臺(tái)。眾包+開(kāi)源極大推動(dòng)了IT產(chǎn)業(yè)的快速發(fā)展,當(dāng)然Kaggle作為數(shù)據(jù)科學(xué)領(lǐng)域頂級(jí)的眾包平臺(tái),其影響力遠(yuǎn)不止于此(所以剛剛被谷歌收購(gòu))。企業(yè)和研究者可在Kaggle上發(fā)布數(shù)據(jù),數(shù)據(jù)分析人員可在其上進(jìn)行競(jìng)賽以產(chǎn)生最好的模型。這一眾包模式本質(zhì)就是集體智慧編程的體現(xiàn),即有眾多策略可以用于解決幾乎所有預(yù)測(cè)建模問(wèn)題,而分析人員不可能一開(kāi)始就能找到最佳方案,Kaggle的目標(biāo)就是通過(guò)眾包的形式來(lái)解決這一難題,進(jìn)而使數(shù)據(jù)科學(xué)成為一場(chǎng)集體智慧運(yùn)動(dòng)。所以說(shuō)要學(xué)好大數(shù)據(jù),嚴(yán)重推薦去Kaggle沖沖浪,很好的歷練平臺(tái)。至于大數(shù)據(jù)培訓(xùn)嘛,基礎(chǔ)理論和技術(shù)還不甚了解的情況下可以去培訓(xùn)學(xué)習(xí),有基礎(chǔ)之后還得靠自己多練多解決實(shí)際問(wèn)題。
5.結(jié)論與展望
做個(gè)小結(jié),大數(shù)據(jù)不是銀彈(Silver Bullet),大數(shù)據(jù)的興起只是說(shuō)明了一種現(xiàn)象,隨著科技的高速發(fā)展,數(shù)據(jù)在人類(lèi)生活和決策中所占的比重越來(lái)越大。面對(duì)如此廣度和深度的大數(shù)據(jù)技術(shù)棧和工具集,如何學(xué)習(xí)和掌握好大數(shù)據(jù)分析這種技能,猶如盲人摸象,冷暖自知。不過(guò)技術(shù)的學(xué)習(xí)和應(yīng)用也是相通的,條條大路通羅馬,關(guān)鍵是要找準(zhǔn)切入點(diǎn),理論與實(shí)踐結(jié)合,有全局觀,工程化思維,對(duì)復(fù)雜系統(tǒng)設(shè)計(jì)開(kāi)發(fā)與關(guān)鍵技術(shù)體系的主要矛盾要有所把握。熟悉大數(shù)據(jù)基礎(chǔ)理論與算法、應(yīng)用切入、以點(diǎn)帶面、舉一反三、橫向擴(kuò)展,從而構(gòu)建完整的大數(shù)據(jù)知識(shí)結(jié)構(gòu)和核心技術(shù)能力,這樣的學(xué)習(xí)效果就會(huì)好很多。
另外,技術(shù)發(fā)展也遵循量變到質(zhì)變規(guī)律,人工智能+物聯(lián)網(wǎng)+大數(shù)據(jù)+云計(jì)算是四位一體發(fā)展的(時(shí)間有先后,但技術(shù)實(shí)質(zhì)性突破都在最近幾年),未來(lái)智能時(shí)代的基礎(chǔ)設(shè)施、核心架構(gòu)將基于這四個(gè)層面,這種社會(huì)演化趨勢(shì)也很明顯:農(nóng)業(yè)時(shí)代〉工業(yè)時(shí)代〉互聯(lián)網(wǎng)時(shí)代〉智能化時(shí)代。在這個(gè)四位一體智能技術(shù)鏈條里面,物聯(lián)網(wǎng)重在數(shù)據(jù)采集,云計(jì)算重在基礎(chǔ)設(shè)施,大數(shù)據(jù)技術(shù)處于核心地位,人工智能則是發(fā)展目標(biāo),所以學(xué)習(xí)大數(shù)據(jù)技術(shù)還需要對(duì)這四個(gè)方面加以綜合研究和理解。
最后潑點(diǎn)冷水,簡(jiǎn)單說(shuō)說(shuō)大數(shù)據(jù)的前景,未來(lái)大數(shù)據(jù)崗位需求不會(huì)有媒體宣傳的那么多,大數(shù)據(jù)具體工作不會(huì)有美國(guó)大片里那么炫酷,不要老盯著B(niǎo)AT,我國(guó)大數(shù)據(jù)的發(fā)展還處于初級(jí)階段??傊夹g(shù)歸于技術(shù),實(shí)踐才能出真知,落地解決問(wèn)題是關(guān)鍵,Palantir也是十年才磨出一劍。不過(guò)在大數(shù)據(jù)時(shí)代,人人都得懂點(diǎn)數(shù)據(jù)分析,這倒是最實(shí)在的,不懂編程?那就學(xué)Python吧,如果說(shuō)人工智能時(shí)代的大媽和小學(xué)生都能編程的話(huà),那一定用的是Python:)更多編程方面的分享請(qǐng)關(guān)注微信公眾號(hào):程序員大牛!
文章名稱(chēng):大數(shù)據(jù)學(xué)習(xí)內(nèi)容有哪些?大數(shù)據(jù)學(xué)習(xí)路線(xiàn)圖
新聞來(lái)源:http://jinyejixie.com/article2/jjppoc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供ChatGPT、用戶(hù)體驗(yàn)、小程序開(kāi)發(fā)、全網(wǎng)營(yíng)銷(xiāo)推廣、定制網(wǎng)站、網(wǎng)站內(nèi)鏈
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)