成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

【成都網(wǎng)站設計】數(shù)據(jù)戰(zhàn)爭——直面海量處理+實時分析的雙重挑戰(zhàn)

2022-07-24    分類: 網(wǎng)站建設

時至今日,“Bigdata”(大數(shù)據(jù))時代的來臨已經(jīng)毋庸置疑,尤其是在電信、金融等行業(yè), 幾乎已經(jīng)到了“數(shù)據(jù)就是業(yè)務本身”的地步。在這其中,還挾裹著一個更為重要的趨勢,即數(shù)據(jù)的社會化(Socialization of Data)。從博客論壇到游戲社區(qū)再到微博,從互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng)再到物聯(lián)網(wǎng),人類以及各類物理實體的實時聯(lián)網(wǎng)已經(jīng)而且還將繼續(xù)產(chǎn)生難以估量的數(shù)據(jù)。對于時刻關注市場走向的企業(yè)來講,他們需要關注的數(shù)據(jù)顯然已經(jīng)不僅限于企業(yè)內(nèi)部數(shù)據(jù)庫中的業(yè)務數(shù)據(jù),還要包括互聯(lián)網(wǎng)(以及未來的物聯(lián)網(wǎng))上各類網(wǎng)絡活動所產(chǎn)生的相關數(shù)據(jù)記錄。

顯然,大數(shù)據(jù)是一種創(chuàng)新,它在任何時候都知道你在哪里。我們可以以有效方式利用這些數(shù)據(jù),而且已經(jīng)看到了市場需求。

日前,在北京舉辦的大數(shù)據(jù)世界論壇上,內(nèi)存計算、實時查詢、有效的存儲管理、智能挖掘分析,成為了眾多IT人士關注的焦點。

用戶需求——海量+實時分析

來自IDC全球存儲及大數(shù)據(jù)研究項目副總裁Benjamin Woo表示,到2020年,全球數(shù)據(jù)使用量預計暴增44倍,達到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB*35=37580963840TB),也就是說全球大概需要376億個1TB硬盤來存儲數(shù)據(jù)。

而另一個需求則來自于對海量數(shù)據(jù)的實時查詢訪問需求。在數(shù)據(jù)倉庫誕生的第一天,一直就有一個話題,要把大查詢分解成小任務,這些小任務由一臺臺的機器來完成。

“我們的要求在于,上億條數(shù)據(jù)的分析能夠在5秒鐘內(nèi)完成”,中國民族證券信息技術部總經(jīng)理顏陽表示,在證券行業(yè)由于發(fā)展的波動性很大,因此證券公司的投入也是基于量入為出,采用了MPP(大規(guī)模并行處理)架構的數(shù)據(jù)庫(數(shù)據(jù)倉庫)。其基本特征在于是由多個SMP服務器通過節(jié)點互連,而每個節(jié)點只能訪問本地資源,是一種完全無共享的結構,因此擴展性很好。當基于此數(shù)據(jù)庫來開發(fā)應用時,不需要考慮服務器由多少節(jié)點組成,也不需要考慮負載問題。

顯然,和NUMA架構(非一致性存儲訪問)相比,MPP的優(yōu)勢在于更適合復雜的數(shù)據(jù)總和分析與處理。當然它也需要借助支持MPP的數(shù)據(jù)庫系統(tǒng)來屏蔽節(jié)點之間的負載均衡與調(diào)度復雜性。

同時,顏陽也給出了BI和ETL工具選型建議——兼容性、操作性、功能性、展現(xiàn)力、維護性。他表示,在數(shù)據(jù)中心,每一個轉換要保證數(shù)據(jù)的完整性和準確性,要進行安全性的管理和控制,這些都要通過開發(fā)工具加上適度的編程來實現(xiàn)。如果開發(fā)團隊對這個工具的理解和整合程度不好的話,最后的數(shù)據(jù)倉庫的數(shù)據(jù)會形成很多垃圾,甚至造成很多錯誤的數(shù)據(jù)出現(xiàn)。因此,要兼顧五個方面去開展。

大數(shù)據(jù)并不等于IT重構

本次大會傳遞出來的另一個信息是,對真正需要大數(shù)據(jù)的企業(yè)而言,大數(shù)據(jù)的需求并不等于IT重構。

實際上,并非所有的數(shù)據(jù)都需要進行分析,對企業(yè)而言,核心在于找出關鍵的數(shù)據(jù),并運用適合MPP系統(tǒng)的相干數(shù)據(jù),得到一些結構化的數(shù)據(jù),而一些非結構化的數(shù)據(jù),可以用Hadoop進行處理。

另一方面,大數(shù)據(jù)的基礎架構需要的是前瞻性,隨著數(shù)據(jù)的不斷增長,用戶需要從硬體、軟件層面思考需要什么樣的架構去實現(xiàn)。必然,未來需要的是一個能夠支持非常好的、可擴張性的、對文件存儲友好的文件系統(tǒng)。

目前,不管是IBM、EMC還是SAP都推出了自己的Bigdata Total solution,從中對比我們可見一斑。

IBM——數(shù)據(jù)倉庫一體機

IBM將數(shù)據(jù)倉庫做成了硬件化的產(chǎn)品,標配Power服務器、存儲,再加上剛收購的Netezza。Netezza新型數(shù)據(jù)倉庫一體機渠道經(jīng)理鄭曉軍表示,“凡是玩過云計算、Hadoop的用戶,對于Netezza的環(huán)境搭建只是小菜一碟。”據(jù)了解,Netezza一體機是一個小型的、成集成度很高的多機并行處理環(huán)境。其架構基于MPP,由兩個Hosts系統(tǒng)接受查詢請求,查詢語句將分散成幾十個或者上百個分片,傳給第二層,第二層的每一個單元是一樣的(內(nèi)部名稱S-Blades分區(qū)內(nèi)存),再把每一個分片看成MPP環(huán)境中的每一臺機器,中間的網(wǎng)絡構成MPP網(wǎng)絡。

當數(shù)據(jù)存進去的時候,會把數(shù)據(jù)平均的分在所有的節(jié)點上,節(jié)點的均衡是由Netezza自己來決定的。數(shù)據(jù)存在硬盤的時候用的格式是“Zone Maps”,把一張表里所有的字段,根據(jù)值不同,分了所有的分片。有了Zone Maps之后,F(xiàn)PGA掃描的時候,只會讀取那些包含記錄的區(qū)域,這些地方硬盤加速效率很高的。如果數(shù)據(jù)修改的話,會在新增添的數(shù)據(jù)記錄里面增添,定時會對數(shù)據(jù)重組,進行壓縮,這些都是通過后臺進程管理的。

EMC——自服務數(shù)據(jù)倉庫

Greenplum Chorus是EMC的數(shù)據(jù)云平臺,堆棧了各種大數(shù)據(jù)分析工具(業(yè)務分析、BI、統(tǒng)計等)。

EMC中國研發(fā)中心首席技術官陶波表示,Greenplum Chorus構成主要由自助式的調(diào)配、數(shù)據(jù)服務協(xié)作分析所組成。當用戶同時部署Chorus、VMware、Greenplum后,可以完全實現(xiàn)自服務,自服務可以是一個服務器,也可以生成一個沙箱,而這個沙箱既可以基于虛擬化的IT云計算平臺上,也可以是在Greenplum的數(shù)據(jù)庫上。同時,用戶可以把在企業(yè)云里面其他的原數(shù)據(jù)導入到自己的沙箱中進行操作。與此同時,開發(fā)者還可以創(chuàng)造一個合作環(huán)境,在分享數(shù)據(jù)的同時要控制授權,避免私人數(shù)據(jù)被不適當?shù)氖褂?。比如寫一段R代碼,并把R代碼進行分享,同時看到別人的評論,可以隨時隨地的進行自己的工作。

SAP——內(nèi)存計算+開放平臺

SAP在此次大會上提出了開放的內(nèi)存計算平臺HANA,據(jù)SAP解決方案和架構部總經(jīng)理張志琦介紹,HANA將成為SAP未來的平臺,未來所有的應用都會發(fā)布在HANA平臺之上,并且用作實時分析。而HANA將主要用于實時處理大量交易數(shù)據(jù)的軟件,包括數(shù)據(jù)建模、數(shù)據(jù)和生命周期管理、安全、運營的工具,基于行業(yè)標準為多個接口提供支持。

“內(nèi)存比磁盤計算快1000000倍,傳統(tǒng)數(shù)據(jù)庫磁盤讀取速度是5毫秒,內(nèi)存數(shù)據(jù)庫磁盤讀取速度是5納秒。用戶可以利用內(nèi)存高速的性能,更快速的獲取數(shù)據(jù)、匯總數(shù)據(jù)、分析數(shù)據(jù)。此外,大數(shù)據(jù)時代,一臺服務器不一定夠,用戶可以通過分而治之的方式將動態(tài)的服務器分到不同的節(jié)點上,快速的進行數(shù)據(jù)分散計算、數(shù)據(jù)分散匯總、獲取更快速的結果。每臺服務器還有更多的CPU,可以在總的內(nèi)存計算中更給力。所有的數(shù)據(jù)都可以通過分布式的環(huán)境。”

張志琦表示,“HANA將是一個開放的平臺,SAP將和業(yè)務伙伴等在HANA之上開發(fā)應用,體現(xiàn)更多的支持。SAP HANA平臺將支持更多的內(nèi)存應用程序,比如報表、運營報告、能力分析加速器,更多的獲取價值。HANA不僅僅是分析應用,更多的是一個業(yè)務應用。我們希望企業(yè)可以在不需要IT人員關注的情況下就可以獲得信息的獲取。這本身是SAP HANA平臺提供的能力。”

數(shù)據(jù)分析職業(yè)未來很吃香


隨著大數(shù)據(jù)的流行,可以預見的是,數(shù)據(jù)分析師將是將來最熱門的行業(yè)之一,大量的行業(yè)比如政府、能源行業(yè)、互聯(lián)網(wǎng)行業(yè)都需要數(shù)據(jù)科學家,而這些數(shù)據(jù)科學家要不斷的提出關鍵性、對業(yè)務有重大啟示性的問題。阿里巴巴目前已經(jīng)有一百多個數(shù)據(jù)分析家,他們不同的部門都在對數(shù)據(jù)進行分析,共享對于數(shù)據(jù)的分析以及和數(shù)據(jù)管理員、企業(yè)管理層形成合作性的數(shù)據(jù)分析。

Informatica企業(yè)數(shù)據(jù)集成產(chǎn)品管理總監(jiān)鄭瑋表示,大數(shù)據(jù)分析師可能會有越來越大的需要,可能是IT組織的一部分,也可能是業(yè)務組織的一部分。從互聯(lián)網(wǎng)的情況來看,提供用戶的價值,可以發(fā)掘很多用戶價值,比如汽車銷售等等有直接的銷售影響。在世界的各個地方,尤其是一些數(shù)據(jù)比較多的、比較成熟的行業(yè)中,會有大量的數(shù)據(jù)分析、數(shù)據(jù)科學家的需求。

Teradata天睿公司首席客戶官周俊凌談到,企業(yè)必須要有一些專注于數(shù)據(jù)研究的科學家,一旦有了數(shù)據(jù)科學家,企業(yè)需要對數(shù)據(jù)科學要進行相關培訓,了解相關的業(yè)務。

IBM硅谷實驗室大數(shù)據(jù)項目總監(jiān)Steven Sitze則認為,現(xiàn)在一些大的企業(yè)都有數(shù)據(jù)分析師。而這些數(shù)據(jù)分析師現(xiàn)在并沒有分析大量或者子類型的數(shù)據(jù),這在發(fā)展工具上會有很大的機會。對企業(yè)而言,光有一個大數(shù)據(jù)的平臺是不夠的,要有一些發(fā)展的工具幫助他們利用來展示大數(shù)據(jù)的分析展示能力。

觀察:大數(shù)據(jù)產(chǎn)業(yè)才剛剛上路

對數(shù)據(jù)存儲廠商來說,不管是大數(shù)據(jù)還是海量數(shù)據(jù)還是有不少挑戰(zhàn)存在,首當其沖的是,他們必須要強化關聯(lián)式數(shù)據(jù)庫的效能,增加數(shù)據(jù)管理和數(shù)據(jù)壓縮的功能。

因為過往關聯(lián)性數(shù)據(jù)庫產(chǎn)品處理大量數(shù)據(jù)時的運算速度都不快,需要引進新技術比如Hadoop來加速數(shù)據(jù)查詢的功能。另外,數(shù)據(jù)存儲的廠商也開始嘗試不只采用傳統(tǒng)硬盤來存儲數(shù)據(jù),像是使用快速閃存的數(shù)據(jù)庫、閃存數(shù)據(jù)庫等,都逐漸產(chǎn)生。

另一個挑戰(zhàn)就是傳統(tǒng)關聯(lián)性數(shù)據(jù)庫無法分析非結構化數(shù)據(jù),因此,并購具有分析非結構化數(shù)據(jù)的廠商以及數(shù)據(jù)管理廠商,是目前數(shù)據(jù)存儲大廠擴展實力的方向。

同時,數(shù)據(jù)管理的影響也在于對數(shù)據(jù)安全的考量。IDC軟件市場分析師吳乃沛表示,大數(shù)據(jù)對于存儲技術與資源安全也都會產(chǎn)生沖擊。首先,快照、重復數(shù)據(jù)刪除等技術在大數(shù)據(jù)時代都很重要,就衍生了數(shù)據(jù)權限的管理。

舉例來說,現(xiàn)在企業(yè)后端與前端所看到的數(shù)據(jù)模式并不一樣,當企業(yè)要處理非結構化數(shù)據(jù)時,就必須制定出是IT部門還是業(yè)務單位才是數(shù)據(jù)管理者。由于這牽涉的不僅是技術問題,還有公司政策的制定,因此界定出數(shù)據(jù)管理者是企業(yè)目前最頭痛的問題,而這一切,對大數(shù)據(jù)而言,不管是技術還是應用都才剛剛上路。

成都網(wǎng)站設計公司成都網(wǎng)站建設公司成都網(wǎng)站制作公司成都網(wǎng)站設計成都網(wǎng)站建設成都網(wǎng)站制作成都精品網(wǎng)站制作成都精典網(wǎng)站制作成都精品網(wǎng)站設計

本文標題:【成都網(wǎng)站設計】數(shù)據(jù)戰(zhàn)爭——直面海量處理+實時分析的雙重挑戰(zhàn)
標題鏈接:http://jinyejixie.com/news/181844.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設Google、自適應網(wǎng)站企業(yè)網(wǎng)站制作、做網(wǎng)站搜索引擎優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)頁設計公司
洛川县| 平阳县| 唐河县| 蕉岭县| 漠河县| 昌邑市| 恩施市| 北碚区| 东乡族自治县| 廉江市| 昆明市| 金山区| 佳木斯市| 蓝山县| 林甸县| 运城市| 柳林县| 若羌县| 汝城县| 兴国县| 喀喇| 永顺县| 通州区| 元阳县| 松原市| 民乐县| 信丰县| 城步| 公主岭市| 盐山县| 遂昌县| 疏附县| 准格尔旗| 凤冈县| 夏河县| 嘉义县| 霍林郭勒市| 吴堡县| 麟游县| 永善县| 广元市|