2022-07-17 分類: 網(wǎng)站建設(shè)
海量數(shù)據(jù)的浪潮有多迅猛?IDC在2006年估計(jì)全世界產(chǎn)生的數(shù)據(jù)量是0.18ZB(1ZB=100萬(wàn)PB),而今年這個(gè)數(shù)字已經(jīng)提升了一個(gè)數(shù)量級(jí),達(dá)到1.8ZB,差不多對(duì)應(yīng)全世界每個(gè)人一塊100多GB的硬盤。這種增長(zhǎng)還在加速,預(yù)計(jì)2015年將達(dá)到近8ZB。目前IT系統(tǒng)的存儲(chǔ)能力遠(yuǎn)遠(yuǎn)不足,就更不用說(shuō)深入地挖掘和分析了。
在本文中,百度首席科學(xué)家威廉·張、Teradata首席客戶官周俊凌、Yahoo!北京全球軟件研發(fā)中心架構(gòu)師韓軼平、SAP中國(guó)區(qū)企業(yè)信息管理咨詢資深顧問(wèn)杜韜等四位業(yè)內(nèi)專家,將分享他們?cè)趹?yīng)對(duì)海量數(shù)據(jù)挑戰(zhàn)方面的見(jiàn)解和經(jīng)驗(yàn)。
您所在企業(yè)的數(shù)據(jù)量現(xiàn)在達(dá)到了什么規(guī)模?
威廉·張:這個(gè)問(wèn)題比較容易回答。百度不是一個(gè)產(chǎn)品,不僅有搜索引擎,還包括很多社區(qū)產(chǎn)品和媒體產(chǎn)品,所以這個(gè)數(shù)字大概是數(shù)百個(gè)PB,每天處理的數(shù)據(jù)大約有幾十個(gè)PB。我是差不多四年半前加入百度的,所以我比較清楚地記得那時(shí)候的規(guī)模。與那時(shí)相比,現(xiàn)在的數(shù)據(jù)規(guī)模成長(zhǎng)比較驚人,大概是那時(shí)的500~1000倍。
威廉·張:數(shù)據(jù)量大并不可怕,問(wèn)題是要實(shí)時(shí)處理數(shù)據(jù)
數(shù)據(jù)量大并不可怕,問(wèn)題是要實(shí)時(shí)處理數(shù)據(jù),因?yàn)槿魏蔚臅r(shí)延都會(huì)使服務(wù)失去一些優(yōu)勢(shì),從而導(dǎo)致商業(yè)經(jīng)濟(jì)的下降。我們所做的策略都是針對(duì)實(shí)時(shí)性的,而且今天互聯(lián)網(wǎng)用戶的需求更加實(shí)時(shí)化,比如說(shuō)微博、團(tuán)購(gòu)、秒殺。
周俊凌:從IDC的數(shù)據(jù)統(tǒng)計(jì)報(bào)告來(lái)看,數(shù)據(jù)增長(zhǎng)是非??斓?。相對(duì)于具體的數(shù)據(jù)量,Teradata更關(guān)注數(shù)據(jù)發(fā)展的趨勢(shì),并大量投入研究這種發(fā)展趨勢(shì),包括BI方面的變化和增長(zhǎng)模式,這個(gè)模式對(duì)于我們非常有價(jià)值,通過(guò)研究這種模式,包括每分鐘、每秒鐘交易量有多大等這些數(shù)據(jù)的發(fā)掘和建模,數(shù)據(jù)科學(xué)家進(jìn)行研究和探討,把這些技術(shù)應(yīng)用到生產(chǎn)系統(tǒng)里面,對(duì)企業(yè)發(fā)揮作用。
韓軼平:Yahoo!的主要云計(jì)算平臺(tái)Hadoop現(xiàn)在有34個(gè)集群,總數(shù)超過(guò)3萬(wàn)臺(tái)機(jī)器,大的集群是4000臺(tái)左右,總存儲(chǔ)容量超過(guò)100PB。這個(gè)數(shù)量級(jí)可以說(shuō)并不大,主要原因在于我們最近將很多精力放在處理用戶隱私性和數(shù)據(jù)安全性上,因?yàn)榘凑諝W盟的規(guī)定,Yahoo!不能存儲(chǔ)超過(guò)一年的數(shù)據(jù),所以我們的應(yīng)對(duì)措施就是:不保存原始數(shù)據(jù),但做很深入的數(shù)據(jù)挖掘,挖掘出真正蘊(yùn)含的有價(jià)值的信息,把這些信息保存下來(lái)。
杜韜:SAP作為企業(yè)級(jí)應(yīng)用提供商,更關(guān)注客戶的數(shù)據(jù)量,而我們的客戶有許多數(shù)據(jù)密集型企業(yè),比如電信、金融、政府、零售等,數(shù)據(jù)量級(jí)從幾個(gè)TB到數(shù)百TB。SAP在德國(guó)總部的數(shù)據(jù)中心有3萬(wàn)臺(tái)服務(wù)器,數(shù)據(jù)量大概是15PB,主要為客戶提供服務(wù)。我們正在幫助客戶將內(nèi)部應(yīng)用遷移到我們的數(shù)據(jù)中心服務(wù)平臺(tái),這也意味著越來(lái)越多的客戶數(shù)據(jù)會(huì)存在我們這兒。
面對(duì)如此海量的數(shù)據(jù),您所在公司是怎樣進(jìn)行存儲(chǔ)、處理、分析的?
杜韜:一方面在數(shù)據(jù)中心,我們使用了標(biāo)準(zhǔn)的虛擬化以及分布式存儲(chǔ);另一方面,我們推出了內(nèi)存計(jì)算技術(shù),用以應(yīng)對(duì)數(shù)據(jù)應(yīng)用和分析的挑戰(zhàn)。傳統(tǒng)的架構(gòu)存在很大的瓶頸,磁盤讀取是以毫秒,而內(nèi)存讀取則是納秒。因此,我們將以前需要在應(yīng)用層做的計(jì)算分析,比如預(yù)測(cè)分析或者大量運(yùn)算,都放到內(nèi)存里操作,從而實(shí)現(xiàn)性能提升,幫助用戶充分利用數(shù)據(jù)。
周俊凌:通過(guò)數(shù)據(jù)訪問(wèn)頻率高低確認(rèn)數(shù)據(jù)溫度,進(jìn)行數(shù)據(jù)壓縮
韓軼平:對(duì)Yahoo!的情況,我想分三個(gè)部分來(lái)說(shuō)明:數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理。
在數(shù)據(jù)采集方面,我們建立了一個(gè)遍布Yahoo!幾個(gè)數(shù)據(jù)中心、幾十萬(wàn)臺(tái)機(jī)器的實(shí)時(shí)搜集數(shù)據(jù)系統(tǒng),該系統(tǒng)特點(diǎn)是一個(gè)主干道負(fù)責(zé)把數(shù)據(jù)經(jīng)過(guò)過(guò)濾、清理以后,進(jìn)行整合,并且在高可靠性的情況下,把它放到Hadoop平臺(tái)。雖然相對(duì)來(lái)說(shuō)精度很高、效果很好,但速度會(huì)慢一些。為了滿足威廉·張所說(shuō)實(shí)時(shí)性的需求,還有一個(gè)旁路系統(tǒng),旁路系統(tǒng)在秒級(jí)能夠把數(shù)據(jù)匯到主干道上,這是數(shù)據(jù)采集的部分。
在數(shù)據(jù)存儲(chǔ)方面,基本上以HDFS為核心。在數(shù)據(jù)處理方面,主要技術(shù)是Hadoop、MapReduce以及我們自己開(kāi)發(fā)的Pig。目前,我們有超過(guò)一半數(shù)據(jù)處理引擎是用Pig完成的。
周俊凌:Teradata一直在持續(xù)創(chuàng)新傳統(tǒng)的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品線,在對(duì)接大數(shù)據(jù)時(shí)代的同時(shí),繼續(xù)傳統(tǒng)的BI領(lǐng)域,包括提高數(shù)據(jù)處理的能力,從而更容易適應(yīng)大數(shù)據(jù)管理。例如,通過(guò)數(shù)據(jù)訪問(wèn)頻率高低確認(rèn)數(shù)據(jù)溫度,進(jìn)行數(shù)據(jù)壓縮,適應(yīng)大數(shù)據(jù)的分析要求,使數(shù)據(jù)管理更容易。
我們有適應(yīng)超高規(guī)模數(shù)據(jù)容量要求的硬件平臺(tái)產(chǎn)品Teradata 1000,可以壓縮35PB的數(shù)據(jù)。特別適用一些結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù)的分析,同時(shí)開(kāi)發(fā)了很多能夠進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和分析的軟件包,包括將Hadoop等架構(gòu)整合到Teradata數(shù)據(jù)倉(cāng)庫(kù)之中,可以基于目前的Teradata企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)接口使用。
我們提供基于云的架構(gòu),能夠使用Amazon EC2,為客戶提供安全的存儲(chǔ)產(chǎn)品,用來(lái)存儲(chǔ)公司防火墻以外的、存儲(chǔ)在云端的數(shù)據(jù)。我們剛剛收購(gòu)了Aster Data公司,它有一些非常好的工具,適用于Hadoop、MapReduce的一些應(yīng)用。
威廉·張:各互聯(lián)網(wǎng)企業(yè)在云計(jì)算技術(shù)方面的應(yīng)用都差不多,比如說(shuō)百度也用了Hadoop,我提幾個(gè)比較有特點(diǎn)的地方。
第一個(gè)是大搜索,即不僅是把網(wǎng)頁(yè)抓過(guò)來(lái),建立極其龐大的索引,而且為了使數(shù)據(jù)做到準(zhǔn)實(shí)時(shí)或者更快速的更新,進(jìn)行一些優(yōu)化,比如根據(jù)地域分布和重要性分布,放在南方或者北方的機(jī)房里,主要還是根據(jù)數(shù)據(jù)應(yīng)用制訂的策略。另外就是采用數(shù)據(jù)流技術(shù)。
第二個(gè)是機(jī)器學(xué)習(xí)算法。在科技領(lǐng)域里,機(jī)器學(xué)習(xí)以前更多的是對(duì)一臺(tái)服務(wù)器內(nèi)存里的數(shù)據(jù)進(jìn)行高復(fù)雜的計(jì)算,可能要跑很長(zhǎng)時(shí)間。而在百度,機(jī)器學(xué)習(xí)應(yīng)用于所有地方,比如判斷用戶需求,從用戶行為反饋中得到我們應(yīng)該推薦什么樣的內(nèi)容、匹配什么樣的廣告等,時(shí)效性非常高。可以稱得上是增量型、大規(guī)模的機(jī)器學(xué)習(xí)方法。
此外,互聯(lián)網(wǎng)應(yīng)用要繼續(xù)發(fā)展,最關(guān)鍵還是找到更有價(jià)值的數(shù)據(jù),即不管數(shù)據(jù)來(lái)自何方,都要按照價(jià)值來(lái)決定如何處理它。
您怎樣看待層出不窮的NoSQL技術(shù)?
杜韜:我一直認(rèn)為,存在的就是合理的,NoSQL的產(chǎn)生和演進(jìn)也是因?yàn)槲覀儸F(xiàn)有的應(yīng)用需求所導(dǎo)致。當(dāng)前在大并發(fā)量、海量數(shù)據(jù)的高效讀寫等方面,對(duì)關(guān)系型數(shù)據(jù)庫(kù)提出了更高的要求,而NoSQL在這方面有獨(dú)特的價(jià)值和優(yōu)勢(shì)。
韓軼平:Yahoo!不保存原始數(shù)據(jù),但做很深入的數(shù)據(jù)挖掘
當(dāng)然,這并不是說(shuō)NoSQL的出現(xiàn)就代表著關(guān)系型數(shù)據(jù)庫(kù)的世界末日,因?yàn)閷?duì)于一些應(yīng)用,特別是企業(yè)級(jí)應(yīng)用,對(duì)于事務(wù)的一致性以及讀寫的實(shí)時(shí)性等各方面有很高的要求,而關(guān)系型數(shù)據(jù)庫(kù)在這些年的發(fā)展中積累了自己的優(yōu)勢(shì)。
因此,我很認(rèn)同NoSQL是“Not Only SQL”的說(shuō)法,相信在未來(lái)關(guān)系型數(shù)據(jù)庫(kù)和NoSQL會(huì)并存甚至是相互融合。
韓軼平:NoSQL是一個(gè)很寬泛的概念。在Yahoo!,雖然NoSQL說(shuō)得不多,但用的NoSQL工具非常多,我們的Key-Value數(shù)據(jù)庫(kù)等各種各樣的系統(tǒng),都屬于NoSQL框架。至于說(shuō)NoSQL和SQL之間的關(guān)系,因?yàn)楹芏鄨?chǎng)合需要ACID,也就需要NoSQL的東西,而NoSQL之所以會(huì)出現(xiàn),就像我經(jīng)常說(shuō)的“上帝是公平的”,當(dāng)有一個(gè)需求出現(xiàn)時(shí)必須放棄另一個(gè)東西。我們的很多需求,比如大數(shù)據(jù)量、高分布性,當(dāng)有了這些需求以后另一個(gè)需求可能成為新的瓶頸。事實(shí)上,對(duì)我們來(lái)說(shuō),互聯(lián)網(wǎng)行業(yè)在很多應(yīng)用中并不需要一致性。當(dāng)把需求放寬時(shí),自然能夠滿足另一些需求。
怎樣挖掘數(shù)據(jù)中的價(jià)值?
威廉·張:我舉一個(gè)直觀的匹配廣告的例子,它包括兩類數(shù)據(jù):一類是廣告庫(kù),即廣告內(nèi)容信息和廣告客戶信息,這類信息很適合于傳統(tǒng)數(shù)據(jù)庫(kù);另一類信息是用戶看到廣告之后的一切行為,經(jīng)歷了日積月累,可能會(huì)有幾百萬(wàn)億的用戶行為。這兩種數(shù)據(jù)可以相結(jié)合,經(jīng)過(guò)機(jī)器學(xué)習(xí)算法就能產(chǎn)生價(jià)值。顯然,第二種信息更重要,因?yàn)樗芙o用戶提供想要的信息,比如搜索一個(gè)詞,可以利用所有用戶在他之前、在他之后的群體智能、群體行為,判定哪一類的信息最重要、最優(yōu)質(zhì),哪一類信息可能是作弊信息,然后經(jīng)過(guò)反饋機(jī)制,把最好的內(nèi)容提供給用戶,甚至推薦相關(guān)的一些搜索、查詢信息。總而言之,對(duì)任何企業(yè)來(lái)說(shuō),數(shù)據(jù)是命根子;對(duì)云計(jì)算來(lái)說(shuō),數(shù)據(jù)處理就是云數(shù)據(jù)中心或者云計(jì)算存在的理由。
韓軼平:我們工作之余經(jīng)常開(kāi)玩笑說(shuō):從數(shù)據(jù)中能挖出的東西,不一定是錢,更重要的是用戶體驗(yàn),對(duì)互聯(lián)網(wǎng)公司來(lái)說(shuō),數(shù)據(jù)就是一切。Yahoo!不僅僅是搜索引擎,也有很多在美國(guó)各領(lǐng)域中排名第一的網(wǎng)站。我們做的很多工作,比如新聞網(wǎng)站信息,都是根據(jù)新聞的相關(guān)性和大家的興趣推薦的,我們希望根據(jù)每一個(gè)用戶自己的興趣,甚至每一個(gè)用戶此時(shí)此刻的興趣,進(jìn)行推薦。Yahoo!新聞的推薦系統(tǒng),是把Yahoo!所有的數(shù)據(jù)搜集起來(lái),用戶在Yahoo!搜索上的所有行為都搜集到一起,做深度挖掘和個(gè)性化,對(duì)每一個(gè)用戶都進(jìn)行分析和推薦,沒(méi)有這些數(shù)據(jù)我們不可能為客戶提供體驗(yàn),數(shù)據(jù)對(duì)我們來(lái)說(shuō)就是一切。
杜韜:既然各位是從互聯(lián)網(wǎng)的角度來(lái)看數(shù)據(jù)的價(jià)值,那么我就從企業(yè)的角度來(lái)分享一下。
周俊凌:通過(guò)數(shù)據(jù)訪問(wèn)頻率高低確認(rèn)數(shù)據(jù)溫度,進(jìn)行數(shù)據(jù)壓縮
智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國(guó),為了鼓勵(lì)利用太陽(yáng)能,會(huì)在家庭安裝太陽(yáng)能,除了賣電給你,當(dāng)你的太陽(yáng)能有多余電的時(shí)候還可以買回來(lái)。通過(guò)電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來(lái)的這些數(shù)據(jù)可以用來(lái)預(yù)測(cè)客戶的用電習(xí)慣等,從而推斷出在未來(lái)2~3個(gè)月時(shí)間里,整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預(yù)測(cè)后,就可以向發(fā)電或者供電企業(yè)購(gòu)買一定數(shù)量的電。因?yàn)殡娪悬c(diǎn)像期貨一樣,如果提前買就會(huì)比較便宜,買現(xiàn)貨就比較貴。通過(guò)這個(gè)預(yù)測(cè)后,可以降低采購(gòu)成本。
另一個(gè)例子更偏我個(gè)人的興趣。丹·布朗的《失落的秘符》一書講到,如果把很多人的精神集中在一個(gè)點(diǎn),能夠移動(dòng)物體。當(dāng)然這個(gè)我們無(wú)從考證,但我們?cè)诰W(wǎng)上搜索關(guān)鍵詞、敏感詞時(shí),就可以判斷出某件事情的公眾態(tài)度。有一些新的業(yè)務(wù)模式,比如做一個(gè)網(wǎng)絡(luò)廣告投放評(píng)估公司,利用這樣的技術(shù)評(píng)估網(wǎng)絡(luò)廣告的效果,我覺(jué)得也許是未來(lái)的業(yè)務(wù)價(jià)值產(chǎn)生點(diǎn)。
海量數(shù)據(jù)時(shí)代對(duì)企業(yè)和技術(shù)人員帶來(lái)了哪些挑戰(zhàn)?怎樣看待海量數(shù)據(jù)的未來(lái)?
韓軼平:以前我們都說(shuō)自己是軟件工程師,我們這個(gè)行業(yè)也經(jīng)常被叫做軟件行業(yè),但我認(rèn)為我們是真正的Information Technology行業(yè)。對(duì)大多數(shù)人來(lái)說(shuō),現(xiàn)在最重要的一點(diǎn)是轉(zhuǎn)變觀念,從Code/Program觀念轉(zhuǎn)變成Data觀念,在做任何設(shè)計(jì)和開(kāi)發(fā)時(shí),要把Data放在第一位。
杜韜:海量數(shù)據(jù)一直在增長(zhǎng),但是我們應(yīng)該想辦法控制下來(lái),未來(lái)的趨勢(shì)應(yīng)該放在怎樣縮小海量數(shù)據(jù)上,而不是任憑它擴(kuò)張。此外,海量數(shù)據(jù)時(shí)代對(duì)中國(guó)來(lái)說(shuō)是一次引領(lǐng)世界IT業(yè)的機(jī)會(huì)。
周俊凌:在云計(jì)算時(shí)代,業(yè)務(wù)數(shù)據(jù)與云緊密結(jié)合在一起,提供業(yè)務(wù)開(kāi)發(fā)的能力,我們從中學(xué)到了很多新的東西,有一些東西不再是自己去存儲(chǔ)和開(kāi)發(fā),而是都放在云里面存儲(chǔ)。技術(shù)產(chǎn)品推向市場(chǎng)的方式與以往相比,發(fā)生了很大變化。云的這樣一種環(huán)境也給數(shù)據(jù)庫(kù)提供商帶來(lái)很多技術(shù)上的挑戰(zhàn),例如如何保證存儲(chǔ)的安全性,包括身份識(shí)別的健全。這關(guān)系到數(shù)據(jù)的存儲(chǔ)地方,例如現(xiàn)在發(fā)貨的數(shù)據(jù)都是放在全球任何一個(gè)地方,不是放在某一個(gè)國(guó)家里面,這就帶來(lái)關(guān)于數(shù)據(jù)主權(quán)的問(wèn)題,可能有一些國(guó)家和政府不允許把數(shù)據(jù)放在國(guó)家某些地方,這都是一些挑戰(zhàn),需要從技術(shù)上解決安全等問(wèn)題。
威廉·張:這里我淺談一下兩點(diǎn)感受。
首先,數(shù)據(jù)管理是DBA的一項(xiàng)重要本領(lǐng),而高校的計(jì)算機(jī)專業(yè)教育里沒(méi)有特別重視數(shù)據(jù)程序員,并沒(méi)有數(shù)據(jù)管理員;其次,MapReduce并不是一個(gè)新概念,早在30~40年前當(dāng)計(jì)算機(jī)能力還超小的時(shí)候,函數(shù)式編程語(yǔ)言就出現(xiàn)了,但至今大學(xué)里還沒(méi)有開(kāi)設(shè)MapReduce或者類似數(shù)據(jù)處理的課程,也基本上沒(méi)有人聽(tīng)過(guò)這些東西。
未來(lái)將所有人的生活經(jīng)驗(yàn)數(shù)據(jù)放在云里,這個(gè)大概可以實(shí)現(xiàn),但如果解決不好數(shù)據(jù)安全性問(wèn)題的話,那么距離最終的實(shí)現(xiàn)就會(huì)很遠(yuǎn)。
我期待云計(jì)算變成云知識(shí)、云智能,而不僅僅是計(jì)算的工具。建立數(shù)據(jù)整合分享是云計(jì)算成功的必要和充分條件。
標(biāo)簽:
成都網(wǎng)站建設(shè) 成都網(wǎng)站制作 成都網(wǎng)站設(shè)計(jì)成都網(wǎng)站建設(shè)公司 成都網(wǎng)站制作公司成都網(wǎng)站設(shè)計(jì)公司 成都精品網(wǎng)站建設(shè)成都精品網(wǎng)站設(shè)計(jì) 成都精品網(wǎng)站設(shè)計(jì)公司 成都精典網(wǎng)站設(shè)計(jì) 成都精典網(wǎng)站建設(shè) 成都精典網(wǎng)站設(shè)計(jì)公司 成都精典網(wǎng)站制作 成都精品網(wǎng)站制作
本文題目:【成都網(wǎng)站建設(shè)】圓桌論壇:如何應(yīng)對(duì)海量數(shù)據(jù)的挑戰(zhàn)
當(dāng)前地址:http://jinyejixie.com/news/180133.html
網(wǎng)站建設(shè)、網(wǎng)絡(luò)推廣公司-創(chuàng)新互聯(lián),是專注品牌與效果的網(wǎng)站制作,網(wǎng)絡(luò)營(yíng)銷seo公司;服務(wù)項(xiàng)目有網(wǎng)站建設(shè)等
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容