2024-04-10 分類: 網(wǎng)站建設(shè)
大數(shù)據(jù)的開(kāi)發(fā)過(guò)程,如圖1-1所示。
圖 1-1大數(shù)據(jù)開(kāi)發(fā)通用步驟圖
上圖只是一個(gè)簡(jiǎn)化后的步驟和流程,實(shí)際開(kāi)發(fā)中,有的步驟可能不需要,有的還需要增加步驟,有的流程可能更復(fù)雜,因具體情況而定。
下面以Google搜索引擎為例,來(lái)說(shuō)明以上步驟。
對(duì)大數(shù)據(jù)以及人工智能概念都是模糊不清的,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群:458345782,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國(guó)內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系 。從java和linux入手,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相關(guān)知識(shí)一一分享!
1. 大數(shù)據(jù)采集
Google Spider是一個(gè)程序,運(yùn)行在全球各地的Google服務(wù)器之中,Spider們非常勤奮,日夜不停地工作。
2008年Google數(shù)據(jù)表明,它們每天都會(huì)訪問(wèn)大約200億個(gè)網(wǎng)頁(yè),而在總量上,它們追蹤著300億個(gè)左右的獨(dú)立URL鏈接。
可以說(shuō),只要是互聯(lián)網(wǎng)上的網(wǎng)站,只要沒(méi)有在robots.txt文件禁止Spider訪問(wèn)的話,其網(wǎng)頁(yè)基本上都會(huì)在很短的時(shí)間內(nèi),被抓取到Google的服務(wù)器上。
全球的網(wǎng)頁(yè),這是典型的大數(shù)據(jù)。因此,Google Spider所做的就是典型的大數(shù)據(jù)采集工作。
2. 大數(shù)據(jù)預(yù)處理
Google Spider爬取的網(wǎng)頁(yè),無(wú)論是從格式還是結(jié)構(gòu)等,都不統(tǒng)一,為了便于后續(xù)處理,需要先做一些處理,例如,在存儲(chǔ)之前,先轉(zhuǎn)碼,使用統(tǒng)一的格式對(duì)網(wǎng)頁(yè)進(jìn)行編碼,這些工作就是預(yù)處理。
3. 大數(shù)據(jù)存儲(chǔ)
網(wǎng)頁(yè)經(jīng)過(guò)預(yù)處理后,就可以存儲(chǔ)到Google的服務(wù)器上。
2008年,Google已經(jīng)索引了全世界1萬(wàn)億個(gè)網(wǎng)頁(yè),到2014年,這個(gè)數(shù)字變成了30萬(wàn)億個(gè)。
為了減少開(kāi)銷,節(jié)約空間,Google將多個(gè)網(wǎng)頁(yè)文件合并成一個(gè)大文件,文件大小通常在1GB以上。
這還是15年以前的數(shù)字,那時(shí),主流臺(tái)式機(jī)硬盤也就是60GB左右,1GB的文件在當(dāng)時(shí)可以說(shuō)是大文件了。
為了實(shí)現(xiàn)這些大文件高效、可靠、低成本存儲(chǔ),Google發(fā)明了一種構(gòu)建在普通商業(yè)機(jī)器之上的分布式文件系統(tǒng):Google File System,縮寫為GFS,用來(lái)存儲(chǔ)文件(又稱之為非結(jié)構(gòu)化數(shù)據(jù))。
網(wǎng)頁(yè)文件存儲(chǔ)下來(lái)后,就可以對(duì)這些網(wǎng)頁(yè)進(jìn)行處理了,例如統(tǒng)計(jì)每個(gè)網(wǎng)頁(yè)出現(xiàn)的單詞以及次數(shù),統(tǒng)計(jì)每個(gè)網(wǎng)頁(yè)的外鏈等等。
這些被統(tǒng)計(jì)的信息,就成為了數(shù)據(jù)庫(kù)表中的一個(gè)屬性,每個(gè)網(wǎng)頁(yè)最終就會(huì)成為數(shù)據(jù)庫(kù)表中的一條或若干條記錄。
由于Google存儲(chǔ)的網(wǎng)頁(yè)太多,30萬(wàn)億個(gè)以上,因此,這個(gè)數(shù)據(jù)庫(kù)表也是超級(jí)龐大的,傳統(tǒng)的數(shù)據(jù)庫(kù),像Oracle等,根本無(wú)法處理這么大的數(shù)據(jù),因此Google基于GFS,發(fā)明了一種存儲(chǔ)海量結(jié)構(gòu)化數(shù)據(jù)(數(shù)據(jù)庫(kù)表)的分布式系統(tǒng)Bigtable。
上述兩個(gè)系統(tǒng)(GFS和Bigtable)并未開(kāi)源,Google僅通過(guò)文章的形式,描述了它們的設(shè)計(jì)思想。
所幸的是,基于Google的這些設(shè)計(jì)思想,時(shí)至今日,已經(jīng)出現(xiàn)了不少開(kāi)源海量數(shù)據(jù)分布式文件系統(tǒng),如HDFS等,也出現(xiàn)了許多開(kāi)源海量結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng),如HBase、Cassandra等,它們分別用于不同類型大數(shù)據(jù)的存儲(chǔ)。
總之,如果采集過(guò)來(lái)的大數(shù)據(jù)需要存儲(chǔ),要先判斷數(shù)據(jù)類型,再確定存儲(chǔ)方案選型;
如果不需要存儲(chǔ)(如有的流數(shù)據(jù)不需要存儲(chǔ),直接處理),則直接跳過(guò)此步驟,進(jìn)行處理。
4. 大數(shù)據(jù)處理
網(wǎng)頁(yè)存儲(chǔ)后,就可以對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行處理了,對(duì)于搜索引擎來(lái)說(shuō),主要有3步:
1)單詞統(tǒng)計(jì):統(tǒng)計(jì)網(wǎng)頁(yè)中每個(gè)單詞出現(xiàn)的次數(shù);
3)計(jì)算網(wǎng)頁(yè)級(jí)別:根據(jù)特定的排序算法,如PageRank,來(lái)計(jì)算每個(gè)網(wǎng)頁(yè)的級(jí)別,越重要的網(wǎng)頁(yè),級(jí)別越高,以此決定網(wǎng)頁(yè)在搜索返回結(jié)果中的排序位置。
例如,當(dāng)用戶在搜索框輸入關(guān)鍵詞足球后,搜索引擎會(huì)查找倒排索引表,得到足球這個(gè)關(guān)鍵詞在哪些網(wǎng)頁(yè)(URL)中出現(xiàn),然后,根據(jù)這些網(wǎng)頁(yè)的級(jí)別進(jìn)行排序,將級(jí)別最高的網(wǎng)頁(yè)排在最前面,返回給用戶,這就是點(diǎn)擊搜索后,看到的最終結(jié)果。
大數(shù)據(jù)處理時(shí),往往需要從存儲(chǔ)系統(tǒng)讀取數(shù)據(jù),處理完畢后,其結(jié)果也往往需要輸出到存儲(chǔ)。因此,大數(shù)據(jù)處理階段和存儲(chǔ)系統(tǒng)的交互非常頻繁。
大數(shù)據(jù)處理和前面大數(shù)據(jù)預(yù)處理,在技術(shù)上是相通的,只是所處階段不同;
此處理環(huán)節(jié)是大數(shù)據(jù)開(kāi)發(fā)階段的一個(gè)必需的環(huán)節(jié)!
5. 大數(shù)據(jù)可視化
大數(shù)據(jù)可視化是將數(shù)據(jù)以圖形的方式展現(xiàn)出來(lái),與純粹的數(shù)字表示相比,圖形方式更為直觀,更容易發(fā)現(xiàn)數(shù)據(jù)之間的規(guī)律。
例如,Google Analytics是一個(gè)網(wǎng)站流量分析工具,它統(tǒng)計(jì)每個(gè)用戶使用搜索引擎訪問(wèn)網(wǎng)站的數(shù)據(jù),然后得到每個(gè)網(wǎng)站的流量信息,包括網(wǎng)站每天的訪問(wèn)次數(shù),訪問(wèn)量最多的頁(yè)面、用戶的平均停留時(shí)間、回訪率等,所有數(shù)據(jù)都以圖形的方式,直觀地顯示出來(lái),如圖1-2所示
圖1-2 Google網(wǎng)站訪問(wèn)量分析圖
非常感謝您讀完創(chuàng)新互聯(lián)的這篇文章:"大數(shù)據(jù)開(kāi)發(fā)過(guò)程中的5個(gè)通用步驟",僅為提供更多信息供用戶參考使用或?yàn)閷W(xué)習(xí)交流的方便。我們公司提供:網(wǎng)站建設(shè)、網(wǎng)站制作、官網(wǎng)建設(shè)、SEO優(yōu)化、小程序制作等服務(wù),歡迎聯(lián)系我們提供您的需求。
本文題目:大數(shù)據(jù)開(kāi)發(fā)過(guò)程中的5個(gè)通用步驟
當(dāng)前網(wǎng)址:http://jinyejixie.com/news7/323057.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、網(wǎng)站改版、網(wǎng)站策劃、品牌網(wǎng)站制作、云服務(wù)器、微信公眾號(hào)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容