2021-02-01 分類: 網(wǎng)站建設(shè)
大數(shù)據(jù)聽(tīng)著很牛,實(shí)際上也很牛嗎?
就是收集很多用戶數(shù)據(jù),用機(jī)器進(jìn)行處理嘛,干嘛整天吵得這么high。傳統(tǒng)行業(yè)的數(shù)據(jù),收集和分析慢,互聯(lián)網(wǎng)時(shí)代特別是移動(dòng)互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)收集和分析都變得更快更智能,僅此而已吧。
真的是這樣嗎?今天創(chuàng)新互聯(lián)來(lái)看看兩位業(yè)內(nèi)人士的深入分析。
01
大數(shù)據(jù)的商業(yè)價(jià)值
大數(shù)據(jù)是近年來(lái)新出熱門詞匯,人們對(duì)于大數(shù)據(jù)的理解還不夠全面,甚至存在一些誤區(qū),認(rèn)為數(shù)據(jù)量大就是大數(shù)據(jù),或者認(rèn)為里面數(shù)字大也是大數(shù)據(jù),實(shí)際上這些只屬于統(tǒng)計(jì)的范疇,和大數(shù)據(jù)是沒(méi)有關(guān)系的。
所謂大數(shù)據(jù),其實(shí)是有兩部分組成的。一部分是海量運(yùn)算存儲(chǔ)能力,一部分是數(shù)據(jù)建模算法。
認(rèn)為大數(shù)據(jù)是更快更智能的處理技術(shù)的人,只是認(rèn)識(shí)到了大數(shù)據(jù)海量運(yùn)算儲(chǔ)存能力,而這部分只是量變,卻沒(méi)有認(rèn)識(shí)到質(zhì)變。
如果針對(duì)消費(fèi)者市場(chǎng),大數(shù)據(jù)的目標(biāo)是對(duì)每個(gè)消費(fèi)者有清楚的認(rèn)知和跟蹤。
你的年齡、身高、家庭背景、收入水平、信用水平等等這些表面的客觀的信息自不必說(shuō),你此刻在哪里、喜歡什么顏色、喜歡什么風(fēng)格、想要什么東西,都能夠收集分析出來(lái)。之后便會(huì)在你正在看的視頻網(wǎng)站、正刷的APP,所有這些界面上呈現(xiàn)信息,引導(dǎo)你關(guān)注。
隨著這項(xiàng)技術(shù)的進(jìn)步,甚至可以提前預(yù)知你想要購(gòu)買的東西,提前一步給你送達(dá)。可以想象一下,你想買一個(gè)東西下單二十分鐘就到你家門口了,因?yàn)樵缇皖A(yù)測(cè)到你什么時(shí)候想要什么了,所以幾天前預(yù)測(cè)到就提前發(fā)貨到你小區(qū)的提貨點(diǎn)了。
這樣的精準(zhǔn)的服務(wù),以后對(duì)消費(fèi)者而言當(dāng)然是習(xí)慣了就不再記得它有多偉大。就像過(guò)去的工業(yè)革命,只有經(jīng)歷那個(gè)時(shí)代的當(dāng)事人那個(gè)時(shí)代的締造者們才會(huì)對(duì)那些創(chuàng)造充滿激情,而我們對(duì)隨手可得的電和各種電器還會(huì)有什么驚喜嗎?
傳統(tǒng)的數(shù)據(jù)行業(yè),一沒(méi)有足夠強(qiáng)的數(shù)據(jù)獲取能力,二沒(méi)有足夠強(qiáng)的數(shù)據(jù)加工能力。包括以前靠預(yù)測(cè)總統(tǒng)大選起家的那家公司,他們的采樣是局限的,比如寄調(diào)查問(wèn)卷,調(diào)查問(wèn)卷這種采樣是難以重現(xiàn)真實(shí)的,且基于傳統(tǒng)的小樣本統(tǒng)計(jì)方法。另外,數(shù)據(jù)處理能力也很有限。
與之相反,大數(shù)據(jù)的采樣是無(wú)法說(shuō)謊的,你點(diǎn)擊、瀏覽、地理信息等等這一切行為都在眼皮底下發(fā)生。這是大數(shù)據(jù)的第一個(gè)“大”,維度大。
同時(shí),數(shù)據(jù)采樣是覆蓋幾億人口全天候的。這是大數(shù)據(jù)的第二個(gè)“大”,數(shù)量大。相對(duì)傳統(tǒng)的抽樣小樣本集而言,大數(shù)據(jù)可以稱之為全樣本。正是這兩個(gè)“大”,就能夠帶來(lái)數(shù)據(jù)的質(zhì)變。
再看數(shù)據(jù)加工。傳統(tǒng)的加工,恐怕多數(shù)人靠Excel吧!我們采一天的數(shù)據(jù)就能撐爆幾萬(wàn)臺(tái)你們家里的電腦硬盤。至于計(jì)算,可以想像一下,對(duì)這個(gè)數(shù)量級(jí)的數(shù)據(jù)矩陣做個(gè)最簡(jiǎn)單的矩陣分解要怎么實(shí)現(xiàn)。這是機(jī)器的能力。
人的方面,現(xiàn)在很多傳統(tǒng)的搞這些的統(tǒng)計(jì)方向的人經(jīng)常會(huì)說(shuō),“唉,現(xiàn)在都搞算法去了”。沒(méi)錯(cuò),算法就是人與機(jī)器協(xié)作的溝通方式,只有和機(jī)器深度合作,才能得到更高的生產(chǎn)力。
這一切,在消費(fèi)者的眼里,也許也不是那么的了不起,不就是一下單馬上就到嘛,不就是各種方便嘛,怎樣還不是一樣的活。但是這對(duì)商業(yè)而言卻是驚天動(dòng)地的。
過(guò)去你賣衣服的,你的周轉(zhuǎn)庫(kù)存和滯銷庫(kù)存恐怕吃掉了你一半的利潤(rùn)都不止;一旦有了大數(shù)據(jù)支撐,你的庫(kù)存幾乎可以忽略了。過(guò)去你搞設(shè)計(jì)的,你耗盡心力設(shè)計(jì)出來(lái)的作品很可能在市場(chǎng)上得不到認(rèn)可;有了這個(gè)精準(zhǔn)大殺器,消費(fèi)者的數(shù)據(jù)會(huì)告訴你他們要什么,你設(shè)計(jì)師錦上添花就好,真正的設(shè)計(jì)者其實(shí)是消費(fèi)者自己。
過(guò)去你搞營(yíng)銷的,投入一大筆錢搞個(gè)營(yíng)銷方案,結(jié)果收效甚微;一旦有了這個(gè)精準(zhǔn)大殺器,營(yíng)銷的投入風(fēng)險(xiǎn)就低多了。
大數(shù)據(jù)帶來(lái)的精準(zhǔn)對(duì)商業(yè)的影響是方方面面的。這是新時(shí)代對(duì)舊時(shí)代的淘汰。除了商業(yè),還有大量別的用處,都將深刻地改變世界。比如個(gè)人征信、醫(yī)療行業(yè)、能源行業(yè)、公路交通等等。太多太多,這些都會(huì)深刻地改變世界的運(yùn)作方式
02
技術(shù)角度分析大數(shù)據(jù)
我有20個(gè)整數(shù),一把全裝進(jìn)內(nèi)存,調(diào)用個(gè)sort,完事了。
我有2GB那么多的整數(shù),一把全裝進(jìn)內(nèi)存……恩恩,如果機(jī)器不那么破,勉強(qiáng)也完事吧。
我有20GB那么多的整數(shù),對(duì),往你家PC里多插幾條8GB的內(nèi)存條試試?
那我現(xiàn)在有200GB那么多的整數(shù)……看你丫的怎么裝內(nèi)存,哈哈哈哈哈哈!
嚇尿了吧???寫外排序?你寫??!It's ONLY the beginning!很多人可是連內(nèi)存里的快排都寫不出的哦~
200GB算個(gè)啥大數(shù)據(jù)啊,蒼老師的合集都不止咳咳……
OK,顯然我們已經(jīng)意識(shí)到1臺(tái)機(jī)器裝不下了。咋辦?多找?guī)着_(tái)機(jī)器唄。多找?guī)着_(tái)機(jī)器意味著啥?。糠植际接?jì)算懂不懂,連分布式都不懂說(shuō)個(gè)毛大數(shù)據(jù)啊?。。?/p>
好,現(xiàn)在有200GB的整數(shù),排個(gè)序吧……呃,給你10臺(tái)機(jī)器吧。
1)這200GB的整數(shù),如何分配?
2)這10臺(tái)機(jī)器之間如何通訊?沒(méi)錯(cuò),我不止坑了你去寫外排序,我還得坑你去玩網(wǎng)絡(luò)編程。
3)假設(shè)每一臺(tái)機(jī)器上的數(shù)據(jù)都已經(jīng)完全排好,如何多快好省地把各自排序好的結(jié)果merge在一起?
4)如何設(shè)計(jì)有效的merge邏輯減少10臺(tái)機(jī)器之間的網(wǎng)絡(luò)IO。
5)別以為10臺(tái)機(jī)器不需要維護(hù),萬(wàn)一在排序的時(shí)候其中一臺(tái)機(jī)器掛了,怎么辦?具體包括但不限于:他在掛之前有響應(yīng)其他機(jī)器發(fā)給他的request嗎?他在掛之前自身的任務(wù)完成了多少了?假設(shè)這臺(tái)機(jī)器在掛的時(shí)候正在跟隔壁的機(jī)器互相傳輸數(shù)據(jù)腫么辦?
6)誰(shuí)去監(jiān)聽(tīng)這10臺(tái)機(jī)器的健康?或者是其他機(jī)器怎么知道某臺(tái)機(jī)器掛了?如果是連接超時(shí),怎么知道是網(wǎng)絡(luò)阻塞還是目標(biāo)機(jī)真的掛了?
7)如果某臺(tái)機(jī)器真的掛了無(wú)法恢復(fù),又或者由于隔壁的黃大牛要打魔獸了劫走了一臺(tái)(集群升級(jí),集群中的節(jié)點(diǎn)被臨時(shí)撤走的事常有哦),如何把那臺(tái)機(jī)器上那20GB的數(shù)據(jù)分給其余的9臺(tái)?
如果數(shù)據(jù)不是200GB,而是2TB,2PB……
1)這么大的數(shù)據(jù),這么大的集群,同一時(shí)間掛掉的機(jī)器數(shù)量可能會(huì)很多。如果這個(gè)集群用來(lái)做存儲(chǔ)(例如百度云),怎么保證用戶的數(shù)據(jù)不丟失?
2)如果這個(gè)集群用來(lái)做離線計(jì)算,怎么設(shè)計(jì)調(diào)度程序提高每臺(tái)機(jī)器的資源利用率,減少集群內(nèi)的網(wǎng)絡(luò)IO和盡可能地提高每臺(tái)機(jī)器的響應(yīng)速度?
3)我希望集群是可擴(kuò)展的,最好架構(gòu)能支持我只要簡(jiǎn)單地增加機(jī)器數(shù)目就能擴(kuò)充集群的計(jì)算和存儲(chǔ)能力,這個(gè)架構(gòu)要怎么設(shè)計(jì)?
建議題主有空去了解下mapreduce,hadoop,yarn,mpi,vfs等等內(nèi)容。
“傳統(tǒng)行業(yè)的數(shù)據(jù),收集和分析慢,互聯(lián)網(wǎng)時(shí)代特別是移動(dòng)互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)收集和分析都變得更快更智能,僅此而已吧。”
只所以題主會(huì)這么說(shuō),是因?yàn)轭}主作為局外人,能看到的就只有這些表面的最直觀的現(xiàn)象。一句簡(jiǎn)單的“數(shù)據(jù)分析變得智能了更快了”的背后,實(shí)際上是無(wú)數(shù)人付出的勤奮、創(chuàng)造力、勇敢還有艱辛!
馬云爸爸說(shuō),未來(lái)是DT時(shí)代,大數(shù)據(jù)是最重要的資產(chǎn)。
未來(lái)三至五年,中國(guó)需要180萬(wàn)數(shù)據(jù)人才,但目前只有約30萬(wàn)人。到2020年,企業(yè)基于大數(shù)據(jù)計(jì)算分析存儲(chǔ)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,我國(guó)需要更多的數(shù)據(jù)人才。
本文標(biāo)題:大數(shù)據(jù)技術(shù)真的很牛嗎?大數(shù)據(jù)到底值錢在什么地方?
標(biāo)題鏈接:http://jinyejixie.com/news1/98651.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、域名注冊(cè)、微信公眾號(hào)、軟件開(kāi)發(fā)、關(guān)鍵詞優(yōu)化、品牌網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容