大數(shù)據(jù)技術(shù)之?dāng)?shù)據(jù)采集篇

【導(dǎo)讀】數(shù)據(jù)采集是進(jìn)行大數(shù)據(jù)分析的前提也是必要條件，在整個(gè)流程中占據(jù)重要地位。本文將介紹大數(shù)據(jù)三種采集形式：系統(tǒng)日志采集法、網(wǎng)絡(luò)數(shù)據(jù)采集法以及其他數(shù)據(jù)采集法。

成都創(chuàng)新互聯(lián)公司從2013年創(chuàng)立，先為白塔等服務(wù)建站，白塔等地企業(yè)，進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為白塔企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。

（一）系統(tǒng)日志采集法

系統(tǒng)日志是記錄系統(tǒng)中硬件、軟件和系統(tǒng)問(wèn)題的信息，同時(shí)還可以監(jiān)視系統(tǒng)中發(fā)生的事件。用戶可以通過(guò)它來(lái)檢查錯(cuò)誤發(fā)生的原因，或者尋找受到***時(shí)***者留下的痕跡。系統(tǒng)日志包括系統(tǒng)日志、應(yīng)用程序日志和安全日志。（百度百科）大數(shù)據(jù)平臺(tái)或者說(shuō)類似于開源Hadoop平臺(tái)會(huì)產(chǎn)生大量高價(jià)值系統(tǒng)日志信息，如何采集成為研究者研究熱點(diǎn)。目前基于Hadoop平臺(tái)開發(fā)的Chukwa、Cloudera的Flume以及Facebook的Scribe（李聯(lián)寧，2016）均可成為是系統(tǒng)日志采集法的典范。目前此類的采集技術(shù)大約可以每秒傳輸數(shù)百M(fèi)B的日志數(shù)據(jù)信息，滿足了目前人們對(duì)信息速度的需求。一般而言與我們相關(guān)的并不是此類采集法，而是網(wǎng)絡(luò)數(shù)據(jù)采集法。

在這里還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流群:529867072，群里都是學(xué)大數(shù)據(jù)開發(fā)的，如果你正在學(xué)習(xí)大數(shù)據(jù) ，小編歡迎你加入,大家都是軟件開發(fā)黨，不定期分享干貨（只有大數(shù)據(jù)軟件開發(fā)相關(guān)的），包括我自己整理的一份最新的大數(shù)據(jù)進(jìn)階資料和高級(jí)開發(fā)教程，歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴加入。

（二）網(wǎng)絡(luò)數(shù)據(jù)采集法

做自然語(yǔ)言的同學(xué)可能對(duì)這點(diǎn)感觸頗深，除了目前已經(jīng)存在的公開數(shù)據(jù)集，用于日常的算法研究外，有時(shí)為了滿足項(xiàng)目的實(shí)際需求，需要對(duì)現(xiàn)實(shí)網(wǎng)頁(yè)中的數(shù)據(jù)進(jìn)行采集，預(yù)處理和保存。目前網(wǎng)絡(luò)數(shù)據(jù)采集有兩種方法一種是API，另一種是網(wǎng)絡(luò)爬蟲法。

1.API

API又叫應(yīng)用程序接口，是網(wǎng)站的管理者為了使用者方面，編寫的一種程序接口。該類接口可以屏蔽網(wǎng)站底層復(fù)雜算法僅僅通過(guò)簡(jiǎn)簡(jiǎn)單單調(diào)用即可實(shí)現(xiàn)對(duì)數(shù)據(jù)的請(qǐng)求功能。目前主流的社交媒體平臺(tái)如新浪微博、百度貼吧以及Facebook等均提供API服務(wù)，可以在其官網(wǎng)開放平臺(tái)上獲取相關(guān)DEMO。但是API技術(shù)畢竟受限于平臺(tái)開發(fā)者，為了減小網(wǎng)站（平臺(tái)）的負(fù)荷，一般平臺(tái)均會(huì)對(duì)每天接口調(diào)用上限做限制，這給我們帶來(lái)極大的不便利。為此我們通常采用第二種方式——網(wǎng)絡(luò)爬蟲。

2.網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲（又被稱為網(wǎng)頁(yè)蜘蛛，網(wǎng)絡(luò)機(jī)器人，在FOFA社區(qū)中間，更經(jīng)常的稱為網(wǎng)頁(yè)追逐者），是一種按照一定的規(guī)則，自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。（百度百科）最常見(jiàn)的爬蟲便是我們經(jīng)常使用的搜索引擎，如百度，360搜索等。此類爬蟲統(tǒng)稱為通用型爬蟲，對(duì)于所有的網(wǎng)頁(yè)進(jìn)行無(wú)條件采集。通用型爬蟲具體工作原理見(jiàn)圖1。

圖1 爬蟲工作原理[2]

給予爬蟲初始URL，爬蟲將網(wǎng)頁(yè)中所需要提取的資源進(jìn)行提取并保存，同時(shí)提取出網(wǎng)站中存在的其他網(wǎng)站鏈接，經(jīng)過(guò)發(fā)送請(qǐng)求，接收網(wǎng)站響應(yīng)以及再次解析頁(yè)面，提取所需資源并保存，再將網(wǎng)頁(yè)中所需資源進(jìn)行提取......以此類推，實(shí)現(xiàn)過(guò)程并不復(fù)雜，但是在采集時(shí)尤其注意對(duì)IP地址，報(bào)頭的偽造，以免被網(wǎng)管發(fā)現(xiàn)禁封IP（我就被封過(guò)），禁封IP也就意味著整個(gè)采集任務(wù)的失敗。當(dāng)然為了滿足更多需求，多線程爬蟲，主題爬蟲也應(yīng)運(yùn)而生。多線程爬蟲是通過(guò)多個(gè)線程，同時(shí)執(zhí)行采集任務(wù)，一般而言幾個(gè)線程，數(shù)據(jù)采集數(shù)據(jù)就會(huì)提升幾倍。主題爬蟲和通用型爬蟲截然相反，通過(guò)一定的策略將于主題（采集任務(wù)）無(wú)關(guān)的網(wǎng)頁(yè)信息過(guò)濾，僅僅留下需要的數(shù)據(jù)。此舉可以大幅度減少無(wú)關(guān)數(shù)據(jù)導(dǎo)致的數(shù)據(jù)稀疏問(wèn)題。

（三）其他采集法

其他采集法是指對(duì)于科研院所，企業(yè)政府等擁有機(jī)密信息，如何保證數(shù)據(jù)的安全傳遞？可以采用系統(tǒng)特定端口，進(jìn)行數(shù)據(jù)傳輸任務(wù)，從而減少數(shù)據(jù)被泄露的風(fēng)險(xiǎn)。

【結(jié)語(yǔ)】大數(shù)據(jù)采集技術(shù)是大數(shù)據(jù)技術(shù)的開端，好的開端是成功的一半，因此在做數(shù)據(jù)采集時(shí)一定要謹(jǐn)慎選擇方法，尤其是爬蟲技術(shù)，主題爬蟲應(yīng)該是對(duì)于大部分?jǐn)?shù)據(jù)采集任務(wù)而言是較好的方法，可以深入研究。

網(wǎng)頁(yè)題目：大數(shù)據(jù)技術(shù)之?dāng)?shù)據(jù)采集篇
當(dāng)前網(wǎng)址：http://jinyejixie.com/article34/gpecse.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供品牌網(wǎng)站制作、標(biāo)簽優(yōu)化、軟件開發(fā)、網(wǎng)站收錄、網(wǎng)站內(nèi)鏈、搜索引擎優(yōu)化

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

大數(shù)據(jù)技術(shù)之?dāng)?shù)據(jù)采集篇