數(shù)據(jù)庫有兩種類型,分別是關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫。
10年積累的成都網(wǎng)站建設(shè)、網(wǎng)站設(shè)計經(jīng)驗,可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認識你,你也不認識我。但先制作網(wǎng)站后付款的網(wǎng)站建設(shè)流程,更有西安免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
數(shù)據(jù)庫,簡而言之可視為電子化的文件柜——存儲電子文件的處所,用戶可以對文件中的數(shù)據(jù)進行新增、截取、更新、刪除等操作。
關(guān)系型數(shù)據(jù)庫主要有:
Oracle、DB2、Microsoft SQL Server、Microsoft Access、MySQL等等。
非關(guān)系型數(shù)據(jù)庫主要有:
NoSql、Cloudant、MongoDb、redis、HBase等等。
擴展資料:
非關(guān)系型數(shù)據(jù)庫的優(yōu)勢:
1、性能高:NOSQL是基于鍵值對的,可以想象成表中的主鍵和值的對應(yīng)關(guān)系,而且不需要經(jīng)過SQL層的解析,所以性能非常高。
2、可擴展性好:同樣也是因為基于鍵值對,數(shù)據(jù)之間沒有耦合性,所以非常容易水平擴展。
關(guān)系型數(shù)據(jù)庫的優(yōu)勢:
1、可以復(fù)雜查詢:可以用SQL語句方便的在一個表以及多個表之間做非常復(fù)雜的數(shù)據(jù)查詢。
2、事務(wù)支持良好:使得對于安全性能很高的數(shù)據(jù)訪問要求得以實現(xiàn)。
參考資料來源:百度百科-數(shù)據(jù)庫
1.可視化分析
大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現(xiàn)大數(shù)據(jù)特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
2. 數(shù)據(jù)挖掘算法
大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學(xué)的呈現(xiàn)出數(shù)據(jù)本身具備的特點,也正是因為這些被全世界統(tǒng)計 學(xué)家所公認的各種統(tǒng)計方法(可以稱之為真理)才能深入數(shù)據(jù)內(nèi)部,挖掘出公認的價值。另外一個方面也是因為有這些數(shù)據(jù)挖掘的算法才能更快速的處理大數(shù)據(jù),如 果一個算法得花上好幾年才能得出結(jié)論,那大數(shù)據(jù)的價值也就無從說起了。
3. 預(yù)測性分析
大數(shù)據(jù)分析最終要的應(yīng)用領(lǐng)域之一就是預(yù)測性分析,從大數(shù)據(jù)中挖掘出特點,通過科學(xué)的建立模型,之后便可以通過模型帶入新的數(shù)據(jù),從而預(yù)測未來的數(shù)據(jù)。
4. 語義引擎
非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來新的挑戰(zhàn),我們需要一套工具系統(tǒng)的去分析,提煉數(shù)據(jù)。語義引擎需要設(shè)計到有足夠的人工智能以足以從數(shù)據(jù)中主動地提取信息。
5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。 大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無論是在學(xué)術(shù)研究還是在商業(yè)應(yīng)用領(lǐng)域,都能夠保證分析結(jié)果的真實和有價值。
大數(shù)據(jù)分析的基礎(chǔ)就是以上五個方面,當(dāng)然更加深入大數(shù)據(jù)分析的話,還有很多很多更加有特點的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。
大數(shù)據(jù)的技術(shù)
數(shù)據(jù)采集: ETL工具負責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
數(shù)據(jù)存?。?關(guān)系數(shù)據(jù)庫、NOSQL、SQL等。
基礎(chǔ)架構(gòu): 云存儲、分布式文件存儲等。
數(shù)據(jù)處理: 自然語言處理(NLP,Natural Language Processing)是研究人與計算機交互的語言問題的一門學(xué)科。處理自然語言的關(guān)鍵是要讓計算機”理解”自然語言,所以自然語言處理又叫做自然語言理解也稱為計算語言學(xué)。一方面它是語言信息處理的一個分支,另一方面它是人工智能的核心課題之一。
統(tǒng)計分析: 假設(shè)檢驗、顯著性檢驗、差異分析、相關(guān)分析、T檢驗、 方差分析 、 卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、 因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應(yīng)分析、多元對應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。
數(shù)據(jù)挖掘: 分類 (Classification)、估計(Estimation)、預(yù)測(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預(yù)測 :預(yù)測模型、機器學(xué)習(xí)、建模仿真。
結(jié)果呈現(xiàn): 云計算、標簽云、關(guān)系圖等。
大數(shù)據(jù)的處理
1. 大數(shù)據(jù)處理之一:采集
大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的 數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除 此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶 來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間 進行負載均衡和分片的確是需要深入的思考和設(shè)計。
2. 大數(shù)據(jù)處理之二:導(dǎo)入/預(yù)處理
雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應(yīng)該將這 些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使 用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,來滿足部分業(yè)務(wù)的實時計算需求。
導(dǎo)入與預(yù)處理過程的特點和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達到百兆,甚至千兆級別。
3. 大數(shù)據(jù)處理之三:統(tǒng)計/分析
統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通 的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。
統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
4. 大數(shù)據(jù)處理之四:挖掘
與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù) 據(jù)上面進行基于各種算法的計算,從而起到預(yù)測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于 統(tǒng)計學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并 且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
整個大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個方面的步驟,才能算得上是一個比較完整的大數(shù)據(jù)處理。
1、MySQL
MySQL是一個快速的、多線程、多用戶和健壯的SQL數(shù)據(jù)庫服務(wù)器。MySQL服務(wù)器支持關(guān)鍵任務(wù)、重負載生產(chǎn)系統(tǒng)的使用,也可以將它嵌入到一個大配置(mass- deployed)的軟件中去。
2、SQL Server
SQL Server 提供了眾多的Web和電子商務(wù)功能,如對XML和Internet標準的豐富支持,通過Web對數(shù)據(jù)進行輕松安全的訪問,具有強大的、靈活的、基于Web的和安全的應(yīng)用程序管理等。
3、Oracle
Oracle產(chǎn)品系列齊全,幾乎囊括所有應(yīng)用領(lǐng)域,大型,完善,安全,可以支持多個實例同時運行,功能強。能在所有主流平臺上運行。完全支持所有的工業(yè)標準。采用完全開放策略??梢允箍蛻暨x擇最適合的解決方案。對開發(fā)商全力支持。
擴展資料:
數(shù)據(jù)庫的發(fā)展現(xiàn)狀:
在數(shù)據(jù)庫的發(fā)展歷史上,數(shù)據(jù)庫先后經(jīng)歷了層次數(shù)據(jù)庫、網(wǎng)狀數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫等各個階段的發(fā)展,數(shù)據(jù)庫技術(shù)在各個方面的快速的發(fā)展。
特別是關(guān)系型數(shù)據(jù)庫已經(jīng)成為目前數(shù)據(jù)庫產(chǎn)品中最重要的一員,80年代以來, 幾乎所有的數(shù)據(jù)庫廠商新出的數(shù)據(jù)庫產(chǎn)品都支持關(guān)系型數(shù)據(jù)庫,即使一些非關(guān)系數(shù)據(jù)庫產(chǎn)品也幾乎都有支持關(guān)系數(shù)據(jù)庫的接口。這主要是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫可以比較好的解決管理和存儲關(guān)系型數(shù)據(jù)的問題。
隨著云計算的發(fā)展和大數(shù)據(jù)時代的到來,關(guān)系型數(shù)據(jù)庫越來越無法滿足需要,這主要是由于越來越多的半關(guān)系型和非關(guān)系型數(shù)據(jù)需要用數(shù)據(jù)庫進行存儲管理,以此同時,分布式技術(shù)等新技術(shù)的出現(xiàn)也對數(shù)據(jù)庫的技術(shù)提出了新的要求,于是越來越多的非關(guān)系型數(shù)據(jù)庫就開始出現(xiàn);
這類數(shù)據(jù)庫與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在設(shè)計和數(shù)據(jù)結(jié)構(gòu)有了很大的不同, 它們更強調(diào)數(shù)據(jù)庫數(shù)據(jù)的高并發(fā)讀寫和存儲大數(shù)據(jù),這類數(shù)據(jù)庫一般被稱為NoSQL(Not only SQL)數(shù)據(jù)庫。 而傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在一些傳統(tǒng)領(lǐng)域依然保持了強大的生命力。
參考資料來源:百度百科-數(shù)據(jù)庫
參考資料來源:百度百科-數(shù)據(jù)庫系統(tǒng)
大數(shù)據(jù)的概念
概念:難以用常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理、分析的數(shù)據(jù)集合。
特征:
1、數(shù)據(jù)量大:起始單位是PB級的。
1KB=1024B
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
2、類型多:
結(jié)構(gòu)化、板結(jié)構(gòu)化、非結(jié)構(gòu)化:網(wǎng)諾日志、音頻、視頻、圖片、地理位置等信息混雜。
3、價值密度低:
獲取數(shù)據(jù)的價值就像是淘金一般。
4、速度快時效高:
數(shù)據(jù)呈指數(shù)倍增長,時效性要求高,比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法盡可能的完成實時推薦。
5、永遠在線:
大數(shù)據(jù)時代的數(shù)據(jù)是永遠在線的,隨時應(yīng)用計算,這也是區(qū)別于傳統(tǒng)的數(shù)據(jù)的最大特征。
大數(shù)據(jù)從哪來
1、搜索引擎服務(wù)
百度數(shù)據(jù)量1000PB,每天響應(yīng)138個國家數(shù)十億次請求,每日新增10TB
2、電子商務(wù)
3、社交網(wǎng)絡(luò)
QQ:8.5億用戶,用4400臺服務(wù)器存儲用戶產(chǎn)生的信息,壓縮后的數(shù)據(jù)100PB,每天新增200~300TB
4、音視頻在線服務(wù)
5、個人數(shù)據(jù)業(yè)務(wù)
6、地理信息數(shù)據(jù)
7、傳統(tǒng)企業(yè)
8、公共機構(gòu)
智慧城市:攝像頭拍攝的圖片,1080P高清網(wǎng)絡(luò)攝像機一月產(chǎn)生1.8TB數(shù)據(jù),大點的城市50萬個攝像頭,一個月3PB的數(shù)據(jù)量。
醫(yī)療、中國的氣象系統(tǒng)。
大數(shù)據(jù)的存儲與計算模式
存儲:
面臨的問題:數(shù)據(jù)量大、類型復(fù)雜(結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化)
關(guān)鍵技術(shù):
1、分布式文件系統(tǒng)(高效元數(shù)據(jù)管理技術(shù)、系統(tǒng)彈性擴展技術(shù)、存儲層級內(nèi)的優(yōu)化、針對應(yīng)用和負載的存儲優(yōu)化技術(shù)、針對存儲器件的優(yōu)化技術(shù))
2、分布式數(shù)據(jù)庫
事務(wù)性數(shù)據(jù)庫技術(shù):NoSQL:(支持非關(guān)系數(shù)據(jù)庫、具有多個節(jié)點分割和復(fù)制數(shù)據(jù)的能力、用最終一致性機制解決并發(fā)讀操作與控制問題、充分利用分布式索引及內(nèi)存提高性能)代表有:BigTable、HBase、MongoDB、Dynamo。
分析型的數(shù)據(jù)庫技術(shù):Hive 、Impala
3、大數(shù)據(jù)索引和查詢技術(shù)
4、實時流式大數(shù)據(jù)存儲與處理技術(shù)
計算:
面臨的問題:數(shù)據(jù)結(jié)構(gòu)特征、并行計算(以分布式文件為基礎(chǔ)的Hadoop\以分布式內(nèi)存緩存為基礎(chǔ)的Spark)、數(shù)據(jù)獲?。ㄅ幚韁流處理)、數(shù)據(jù)處理類型(傳統(tǒng)查詢\數(shù)據(jù)挖掘分析計算)、實時響應(yīng)性能、迭代計算、數(shù)據(jù)關(guān)聯(lián)性(先map一下再reduce一下)。
關(guān)鍵技術(shù):
1、大數(shù)據(jù)查詢分析計算模式與技術(shù):HBase、Hive、Cassandra、Impala
2、批處理計算:Hadoop MapReduce、Spark
3、流式計算:Storm、Spark Steaming
4、圖計算:Giraph、GraphX
5、內(nèi)存計算:Spark、Hana(SAP公司全內(nèi)存式分布式數(shù)據(jù)庫系統(tǒng))、Dremel
應(yīng)用領(lǐng)域
1、智慧醫(yī)療(臨床數(shù)據(jù)、公共衛(wèi)生數(shù)據(jù)、移動醫(yī)療健康數(shù)據(jù))(共享疾病案例,基因分類參考)
2、智慧農(nóng)業(yè)(主要指依據(jù)商業(yè)需求進行農(nóng)產(chǎn)品生產(chǎn),降低菜殘傷農(nóng)概率)
3、金融行業(yè):
精準的營銷:根據(jù)可與習(xí)慣進行推銷
風(fēng)險管控:根據(jù)用戶的交易流水實施反欺詐
決策支持:抵押貸款這一塊,實施產(chǎn)業(yè)信貸的風(fēng)險控制。
效率提升:加快內(nèi)部數(shù)據(jù)處理。
產(chǎn)品設(shè)計:根據(jù)客戶的投資行為設(shè)計滿足客戶需求的金融產(chǎn)品。
4、零售行業(yè)(對零售商來說:精準營銷(降低營銷成本,擴大營銷額);對廠商:降低產(chǎn)品過剩)
5、電子商務(wù)行業(yè)
6、電子政務(wù)
希望對您有所幫助!~
在大數(shù)據(jù)時代,“多種架構(gòu)支持多類應(yīng)用”成為數(shù)據(jù)庫行業(yè)應(yīng)對大數(shù)據(jù)的基本思路,數(shù)據(jù)庫行業(yè)出現(xiàn)互為補充的三大陣營,適用于事務(wù)處理應(yīng)用的OldSQL、適用于數(shù)據(jù)分析應(yīng)用的NewSQL和適用于互聯(lián)網(wǎng)應(yīng)用的NoSQL。但在一些復(fù)雜的應(yīng)用場景中,單一數(shù)據(jù)庫架構(gòu)都不能完全滿足應(yīng)用場景對海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲管理、復(fù)雜分析、關(guān)聯(lián)查詢、實時性處理和控制建設(shè)成本等多方面的需要,因此不同架構(gòu)數(shù)據(jù)庫混合部署應(yīng)用成為滿足復(fù)雜應(yīng)用的必然選擇。不同架構(gòu)數(shù)據(jù)庫混合使用的模式可以概括為:OldSQL+NewSQL、OldSQL+NoSQL、NewSQL+NoSQL三種主要模式。下面通過三個案例對不同架構(gòu)數(shù)據(jù)庫的混合應(yīng)用部署進行介紹。
OldSQL+NewSQL 在數(shù)據(jù)中心類應(yīng)用中混合部署
采用OldSQL+NewSQL模式構(gòu)建數(shù)據(jù)中心,在充分發(fā)揮OldSQL數(shù)據(jù)庫的事務(wù)處理能力的同時,借助NewSQL在實時性、復(fù)雜分析、即席查詢等方面的獨特優(yōu)勢,以及面對海量數(shù)據(jù)時較強的擴展能力,滿足數(shù)據(jù)中心對當(dāng)前“熱”數(shù)據(jù)事務(wù)型處理和海量歷史“冷”數(shù)據(jù)分析兩方面的需求。OldSQL+NewSQL模式在數(shù)據(jù)中心類應(yīng)用中的互補作用體現(xiàn)在,OldSQL彌補了NewSQL不適合事務(wù)處理的不足,NewSQL彌補了OldSQL在海量數(shù)據(jù)存儲能力和處理性能方面的缺陷。
商業(yè)銀行數(shù)據(jù)中心采用OldSQL+NewSQL混合部署方式搭建,OldSQL數(shù)據(jù)庫滿足各業(yè)務(wù)系統(tǒng)數(shù)據(jù)的歸檔備份和事務(wù)型應(yīng)用,NewSQL MPP數(shù)據(jù)庫集群對即席查詢、多維分析等應(yīng)用提供高性能支持,并且通過MPP集群架構(gòu)實現(xiàn)應(yīng)對海量數(shù)據(jù)存儲的擴展能力。
商業(yè)銀行數(shù)據(jù)中心存儲架構(gòu)
與傳統(tǒng)的OldSQL模式相比,商業(yè)銀行數(shù)據(jù)中心采用OldSQL+NewSQL混合搭建模式,數(shù)據(jù)加載性能提升3倍以上,即席查詢和統(tǒng)計分析性能提升6倍以上。NewSQL MPP的高可擴展性能夠應(yīng)對新的業(yè)務(wù)需求,可隨著數(shù)據(jù)量的增長采用集群方式構(gòu)建存儲容量更大的數(shù)據(jù)中心。
OldSQL+NoSQL 在互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用中混合部署
在互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用中采用OldSQL+NoSQL混合模式,能夠很好的解決互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用對海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進行存儲和快速處理的需求。在諸如大型電子商務(wù)平臺、大型SNS平臺等互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用場景中,OldSQL在應(yīng)用中負責(zé)高價值密度結(jié)構(gòu)化數(shù)據(jù)的存儲和事務(wù)型處理,NoSQL在應(yīng)用中負責(zé)存儲和處理海量非結(jié)構(gòu)化的數(shù)據(jù)和低價值密度結(jié)構(gòu)化數(shù)據(jù)。OldSQL+NoSQL模式在互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用中的互補作用體現(xiàn)在,OldSQL彌補了NoSQL在ACID特性和復(fù)雜關(guān)聯(lián)運算方面的不足,NoSQL彌補了OldSQL在海量數(shù)據(jù)存儲和非結(jié)構(gòu)化數(shù)據(jù)處理方面的缺陷。
數(shù)據(jù)魔方是淘寶網(wǎng)的一款數(shù)據(jù)產(chǎn)品,主要提供行業(yè)數(shù)據(jù)分析、店鋪數(shù)據(jù)分析。淘寶數(shù)據(jù)產(chǎn)品在存儲層采用OldSQL+NoSQL混合模式,由基于MySQL的分布式關(guān)系型數(shù)據(jù)庫集群MyFOX和基于HBase的NoSQL存儲集群Prom組成。由于OldSQL強大的語義和關(guān)系表達能力,在應(yīng)用中仍然占據(jù)著重要地位,目前存儲在MyFOX中的統(tǒng)計結(jié)果數(shù)據(jù)已經(jīng)達到10TB,占據(jù)著數(shù)據(jù)魔方總數(shù)據(jù)量的95%以上。另一方面,NoSQL作為SQL的有益補充,解決了OldSQL數(shù)據(jù)庫無法解決的全屬性選擇器等問題。
淘寶海量數(shù)據(jù)產(chǎn)品技術(shù)架構(gòu)
基于OldSQL+NoSQL混合架構(gòu)的特點,數(shù)據(jù)魔方目前已經(jīng)能夠提供壓縮前80TB的數(shù)據(jù)存儲空間,支持每天4000萬的查詢請求,平均響應(yīng)時間在28毫秒,足以滿足未來一段時間內(nèi)的業(yè)務(wù)增長需求。
NewSQL+NoSQL 在行業(yè)大數(shù)據(jù)應(yīng)用中混合部署
行業(yè)大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的區(qū)別在于行業(yè)大數(shù)據(jù)的價值密度更高,并且對結(jié)構(gòu)化數(shù)據(jù)的實時處理、復(fù)雜的多表關(guān)聯(lián)分析、即席查詢、數(shù)據(jù)強一致性等都比互聯(lián)網(wǎng)大數(shù)據(jù)有更高的要求。行業(yè)大數(shù)據(jù)應(yīng)用場景主要是分析類應(yīng)用,如:電信、金融、政務(wù)、能源等行業(yè)的決策輔助、預(yù)測預(yù)警、統(tǒng)計分析、經(jīng)營分析等。
在行業(yè)大數(shù)據(jù)應(yīng)用中采用NewSQL+NoSQL混合模式,充分利用NewSQL在結(jié)構(gòu)化數(shù)據(jù)分析處理方面的優(yōu)勢,以及NoSQL在非結(jié)構(gòu)數(shù)據(jù)處理方面的優(yōu)勢,實現(xiàn)NewSQL與NoSQL的功能互補,解決行業(yè)大數(shù)據(jù)應(yīng)用對高價值結(jié)構(gòu)化數(shù)據(jù)的實時處理、復(fù)雜的多表關(guān)聯(lián)分析、即席查詢、數(shù)據(jù)強一致性等要求,以及對海量非結(jié)構(gòu)化數(shù)據(jù)存儲和精確查詢的要求。在應(yīng)用中,NewSQL承擔(dān)高價值密度結(jié)構(gòu)化數(shù)據(jù)的存儲和分析處理工作,NoSQL承擔(dān)存儲和處理海量非結(jié)構(gòu)化數(shù)據(jù)和不需要關(guān)聯(lián)分析、Ad-hoc查詢較少的低價值密度結(jié)構(gòu)化數(shù)據(jù)的工作。
當(dāng)前電信運營商在集中化BI系統(tǒng)建設(shè)過程中面臨著數(shù)據(jù)規(guī)模大、數(shù)據(jù)處理類型多等問題,并且需要應(yīng)對大量的固定應(yīng)用,以及占統(tǒng)計總數(shù)80%以上的突發(fā)性臨時統(tǒng)計(ad-hoc)需求。在集中化BI系統(tǒng)的建設(shè)中采用NewSQL+NoSQL混搭的模式,充分利用NewSQL在復(fù)雜分析、即席查詢等方面處理性能的優(yōu)勢,及NoSQL在非結(jié)構(gòu)化數(shù)據(jù)處理和海量數(shù)據(jù)存儲方面的優(yōu)勢,實現(xiàn)高效低成本。
集中化BI系統(tǒng)數(shù)據(jù)存儲架構(gòu)
集中化BI系統(tǒng)按照數(shù)據(jù)類型和處理方式的不同,將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)分別存儲在不同的系統(tǒng)中:非結(jié)構(gòu)化數(shù)據(jù)在Hadoop平臺上存儲與處理;結(jié)構(gòu)化、不需要關(guān)聯(lián)分析、Ad-hoc查詢較少的數(shù)據(jù)保存在NoSQL數(shù)據(jù)庫或Hadoop平臺;結(jié)構(gòu)化、需要關(guān)聯(lián)分析或經(jīng)常ad-hoc查詢的數(shù)據(jù),保存在NewSQL MPP數(shù)據(jù)庫中,短期高價值數(shù)據(jù)放在高性能平臺,中長期放在低成本產(chǎn)品中。
結(jié)語
當(dāng)前信息化應(yīng)用的多樣性、復(fù)雜性,以及三種數(shù)據(jù)庫架構(gòu)各自所具有的優(yōu)勢和局限性,造成任何一種架構(gòu)的數(shù)據(jù)庫都不能完全滿足應(yīng)用需求,因此不同架構(gòu)數(shù)據(jù)庫混合使用,從而彌補其他架構(gòu)的不足成為必然選擇。根據(jù)應(yīng)用場景采用不同架構(gòu)數(shù)據(jù)庫進行組合搭配,充分發(fā)揮每種架構(gòu)數(shù)據(jù)庫的特點和優(yōu)勢,并且與其他架構(gòu)數(shù)據(jù)庫形成互補,完全涵蓋應(yīng)用需求,保證數(shù)據(jù)資源的最優(yōu)化利用,將成為未來一段時期內(nèi)信息化應(yīng)用主要采用的解決方式。
目前在國內(nèi)市場上,OldSQL主要為Oracle、IBM等國外數(shù)據(jù)庫廠商所壟斷,達夢、金倉等國產(chǎn)廠商仍處于追趕狀態(tài);南大通用憑借國產(chǎn)新型數(shù)據(jù)庫GBase 8a異軍突起,與EMC的Greenplum和HP的Vertica躋身NewSQL市場三強;NoSQL方面用戶則大多采用Hadoop開源方案。
分享名稱:nosql電子商務(wù),nosql產(chǎn)品
轉(zhuǎn)載來源:http://jinyejixie.com/article40/dssiceo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開發(fā)、網(wǎng)站改版、搜索引擎優(yōu)化、手機網(wǎng)站建設(shè)、移動網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)