成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

大數(shù)據(jù)技術(shù)之?dāng)?shù)據(jù)采集篇

【導(dǎo)讀】數(shù)據(jù)采集是進(jìn)行大數(shù)據(jù)分析的前提也是必要條件,在整個(gè)流程中占據(jù)重要地位。本文將介紹大數(shù)據(jù)三種采集形式:系統(tǒng)日志采集法、網(wǎng)絡(luò)數(shù)據(jù)采集法以及其他數(shù)據(jù)采集法。

成都創(chuàng)新互聯(lián)公司從2013年創(chuàng)立,先為白塔等服務(wù)建站,白塔等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為白塔企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。

(一)系統(tǒng)日志采集法

系統(tǒng)日志是記錄系統(tǒng)中硬件、軟件和系統(tǒng)問(wèn)題的信息,同時(shí)還可以監(jiān)視系統(tǒng)中發(fā)生的事件。用戶可以通過(guò)它來(lái)檢查錯(cuò)誤發(fā)生的原因,或者尋找受到***時(shí)***者留下的痕跡。系統(tǒng)日志包括系統(tǒng)日志、應(yīng)用程序日志和安全日志。(百度百科)大數(shù)據(jù)平臺(tái)或者說(shuō)類似于開源Hadoop平臺(tái)會(huì)產(chǎn)生大量高價(jià)值系統(tǒng)日志信息,如何采集成為研究者研究熱點(diǎn)。目前基于Hadoop平臺(tái)開發(fā)的Chukwa、Cloudera的Flume以及Facebook的Scribe(李聯(lián)寧,2016)均可成為是系統(tǒng)日志采集法的典范。目前此類的采集技術(shù)大約可以每秒傳輸數(shù)百M(fèi)B的日志數(shù)據(jù)信息,滿足了目前人們對(duì)信息速度的需求。一般而言與我們相關(guān)的并不是此類采集法,而是網(wǎng)絡(luò)數(shù)據(jù)采集法。

在這里還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流群:529867072,群里都是學(xué)大數(shù)據(jù)開發(fā)的,如果你正在學(xué)習(xí)大數(shù)據(jù) ,小編歡迎你加入,大家都是軟件開發(fā)黨,不定期分享干貨(只有大數(shù)據(jù)軟件開發(fā)相關(guān)的),包括我自己整理的一份最新的大數(shù)據(jù)進(jìn)階資料和高級(jí)開發(fā)教程,歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴加入。

(二)網(wǎng)絡(luò)數(shù)據(jù)采集法

做自然語(yǔ)言的同學(xué)可能對(duì)這點(diǎn)感觸頗深,除了目前已經(jīng)存在的公開數(shù)據(jù)集,用于日常的算法研究外,有時(shí)為了滿足項(xiàng)目的實(shí)際需求,需要對(duì)現(xiàn)實(shí)網(wǎng)頁(yè)中的數(shù)據(jù)進(jìn)行采集,預(yù)處理和保存。目前網(wǎng)絡(luò)數(shù)據(jù)采集有兩種方法一種是API,另一種是網(wǎng)絡(luò)爬蟲法。

1.API

API又叫應(yīng)用程序接口,是網(wǎng)站的管理者為了使用者方面,編寫的一種程序接口。該類接口可以屏蔽網(wǎng)站底層復(fù)雜算法僅僅通過(guò)簡(jiǎn)簡(jiǎn)單單調(diào)用即可實(shí)現(xiàn)對(duì)數(shù)據(jù)的請(qǐng)求功能。目前主流的社交媒體平臺(tái)如新浪微博、百度貼吧以及Facebook等均提供API服務(wù),可以在其官網(wǎng)開放平臺(tái)上獲取相關(guān)DEMO。但是API技術(shù)畢竟受限于平臺(tái)開發(fā)者,為了減小網(wǎng)站(平臺(tái))的負(fù)荷,一般平臺(tái)均會(huì)對(duì)每天接口調(diào)用上限做限制,這給我們帶來(lái)極大的不便利。為此我們通常采用第二種方式——網(wǎng)絡(luò)爬蟲。

2.網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOFA社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。(百度百科)最常見(jiàn)的爬蟲便是我們經(jīng)常使用的搜索引擎,如百度,360搜索等。此類爬蟲統(tǒng)稱為通用型爬蟲,對(duì)于所有的網(wǎng)頁(yè)進(jìn)行無(wú)條件采集。通用型爬蟲具體工作原理見(jiàn)圖1。

圖1 爬蟲工作原理[2]

給予爬蟲初始URL,爬蟲將網(wǎng)頁(yè)中所需要提取的資源進(jìn)行提取并保存,同時(shí)提取出網(wǎng)站中存在的其他網(wǎng)站鏈接,經(jīng)過(guò)發(fā)送請(qǐng)求,接收網(wǎng)站響應(yīng)以及再次解析頁(yè)面,提取所需資源并保存,再將網(wǎng)頁(yè)中所需資源進(jìn)行提取......以此類推,實(shí)現(xiàn)過(guò)程并不復(fù)雜,但是在采集時(shí)尤其注意對(duì)IP地址,報(bào)頭的偽造,以免被網(wǎng)管發(fā)現(xiàn)禁封IP(我就被封過(guò)),禁封IP也就意味著整個(gè)采集任務(wù)的失敗。當(dāng)然為了滿足更多需求,多線程爬蟲,主題爬蟲也應(yīng)運(yùn)而生。多線程爬蟲是通過(guò)多個(gè)線程,同時(shí)執(zhí)行采集任務(wù),一般而言幾個(gè)線程,數(shù)據(jù)采集數(shù)據(jù)就會(huì)提升幾倍。主題爬蟲和通用型爬蟲截然相反,通過(guò)一定的策略將于主題(采集任務(wù))無(wú)關(guān)的網(wǎng)頁(yè)信息過(guò)濾,僅僅留下需要的數(shù)據(jù)。此舉可以大幅度減少無(wú)關(guān)數(shù)據(jù)導(dǎo)致的數(shù)據(jù)稀疏問(wèn)題。

(三)其他采集法

其他采集法是指對(duì)于科研院所,企業(yè)政府等擁有機(jī)密信息,如何保證數(shù)據(jù)的安全傳遞?可以采用系統(tǒng)特定端口,進(jìn)行數(shù)據(jù)傳輸任務(wù),從而減少數(shù)據(jù)被泄露的風(fēng)險(xiǎn)。

【結(jié)語(yǔ)】大數(shù)據(jù)采集技術(shù)是大數(shù)據(jù)技術(shù)的開端,好的開端是成功的一半,因此在做數(shù)據(jù)采集時(shí)一定要謹(jǐn)慎選擇方法,尤其是爬蟲技術(shù),主題爬蟲應(yīng)該是對(duì)于大部分?jǐn)?shù)據(jù)采集任務(wù)而言是較好的方法,可以深入研究。

網(wǎng)頁(yè)題目:大數(shù)據(jù)技術(shù)之?dāng)?shù)據(jù)采集篇
當(dāng)前網(wǎng)址:http://jinyejixie.com/article34/gpecse.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站制作、標(biāo)簽優(yōu)化軟件開發(fā)、網(wǎng)站收錄、網(wǎng)站內(nèi)鏈搜索引擎優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都app開發(fā)公司
鄂尔多斯市| 武鸣县| 璧山县| 柞水县| 怀远县| 区。| 泸溪县| 昭平县| 岱山县| 枣强县| 奉节县| 磐石市| 锦屏县| 金坛市| 东方市| 黑龙江省| 怀来县| 衡南县| 淳安县| 乐东| 临朐县| 盈江县| 莎车县| 扎鲁特旗| 莱州市| 江孜县| 元阳县| 松原市| 婺源县| 泰和县| 监利县| 宿迁市| 邳州市| 天气| 金秀| 灵寿县| 历史| 白银市| 和政县| 双流县| 北京市|