互聯(lián)網(wǎng)IDC圈12月28日報道:看一看所有與大數(shù)據(jù)相關(guān)的活動,我們應(yīng)該問一個問題:究竟有多少大數(shù)據(jù)在實際上是有用的。根據(jù)常識稍微思考一下,我們就會發(fā)現(xiàn)只有一小部分。
創(chuàng)新互聯(lián)專注于企業(yè)營銷型網(wǎng)站建設(shè)、網(wǎng)站重做改版、江南網(wǎng)站定制設(shè)計、自適應(yīng)品牌網(wǎng)站建設(shè)、H5技術(shù)、商城建設(shè)、集團公司官網(wǎng)建設(shè)、外貿(mào)網(wǎng)站制作、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計等建站業(yè)務(wù),價格優(yōu)惠性價比高,為江南等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。我已經(jīng)與數(shù)據(jù)打交道超過40年。在前互聯(lián)網(wǎng)的時代,我們經(jīng)歷了所謂的數(shù)據(jù)過載(dataoverload)。結(jié)果后來我們發(fā)現(xiàn)數(shù)據(jù)本身其實是沒有價值的,只有一小部分被證明對實際商業(yè)決策有直接影響。銘記歷史教訓,現(xiàn)在最關(guān)鍵的問題已經(jīng)變成了找到真正有用的數(shù)據(jù)。數(shù)據(jù)的量的確增加了,但值得注意的是:大部分的增長都來源于非結(jié)構(gòu)化數(shù)據(jù)。
讓我先根據(jù)Webopedia的定義來解釋什么是非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是指沒有任何相同結(jié)構(gòu)的數(shù)據(jù)。例如,圖片、視頻、電子郵件、文件和文本都被認為是一個數(shù)據(jù)集內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)。
盡管每個單獨的文檔可能都包含基于其創(chuàng)建程序的特定結(jié)構(gòu)或格式,非結(jié)構(gòu)化數(shù)據(jù)也可以被認為是“結(jié)構(gòu)松散的數(shù)據(jù)”,因為數(shù)據(jù)源其實是具有結(jié)構(gòu)的,但數(shù)據(jù)集內(nèi)的所有數(shù)據(jù)包含的結(jié)構(gòu)可能不盡相同。與此相反,數(shù)據(jù)庫則是一種常見的“結(jié)構(gòu)化”數(shù)據(jù)。
所以回顧歷史,我們現(xiàn)在討論的除了數(shù)據(jù)超載還加上了一個新的變數(shù)——代表了大部分新增數(shù)據(jù)量的非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)代表著新的量的產(chǎn)生。我認為,具有強大的數(shù)據(jù)分析能力同時能很好地把握行業(yè)標準并遵守規(guī)則的公司可以提供精確的過濾解決方案,從而為用戶鑒別出最有價值的數(shù)據(jù)。
多剝一點洋蔥(Onion)
盡管有眾多關(guān)于過濾和分析結(jié)構(gòu)化數(shù)據(jù)的解決方案不斷出現(xiàn),例如Splunk企業(yè)版,它可收集、索引和處理所有應(yīng)用程序、服務(wù)器和設(shè)備(物理、虛擬和云中)生成的可轉(zhuǎn)移操作的機器數(shù)據(jù)。在討論“Hadoop會帶來什么”時,有很多人在爭論其優(yōu)缺點,在這里我就不多加討論了。
我的觀點是,真正的挑戰(zhàn)是提供價格可取的,關(guān)于更復(fù)雜的過濾和實時分析非結(jié)構(gòu)化數(shù)據(jù)的解決方案。雖然所有類型的數(shù)據(jù)總量預(yù)計在未來五年中將增長800%,其中80%將是非結(jié)構(gòu)化數(shù)據(jù)。
我建議具備數(shù)據(jù)建模、分析、OCL、本體模型的數(shù)據(jù)挖掘等能力的公司,可以通過提供既針對結(jié)構(gòu)化又針對非結(jié)構(gòu)化數(shù)據(jù)的解決方案來獲得一定優(yōu)勢。時至今日,仍然沒有公司可以真正提供能在海量大數(shù)據(jù)中精確定位和尋找的“神器”。
本體論在大數(shù)據(jù)中扮演什么角色?
本體論
正規(guī)來說,本體論將知識表示為在一個領(lǐng)域內(nèi)的分層結(jié)構(gòu),并通過一個共享的詞匯表來表示這些概念的類型、性質(zhì)和相互關(guān)系。
本體論是用于組織信息的結(jié)構(gòu)框架,可作為一種知識展現(xiàn)用于人工智能、語義網(wǎng)、系統(tǒng)工程、軟件工程、生物信息學、圖書館學、企業(yè)書簽和信息架構(gòu)。領(lǐng)域本體的創(chuàng)建也定義本體論和其企業(yè)組織架構(gòu)方面應(yīng)用的基礎(chǔ)。
本體論為什么重要?
因為它使我們在尋找關(guān)鍵數(shù)據(jù)或趨勢時不需要整合系統(tǒng)和應(yīng)用程序。它是如何應(yīng)用的,哪些是實現(xiàn)它功能的重要元素?
本體論結(jié)合了一個本質(zhì)上非常靈活、基于圖形的語義模型和語義搜索,從而降低復(fù)雜數(shù)據(jù)集成的時間尺度和成本。本體論正在重新思考后谷歌世界中數(shù)據(jù)采集、數(shù)據(jù)關(guān)聯(lián)和數(shù)據(jù)遷移的項目。
為什么會有人想要發(fā)展本體論?
開發(fā)本體的最常見的目標之一是共享人們或軟件代理之間的對信息結(jié)構(gòu)的相同理解。例如,假設(shè)幾個不同的網(wǎng)站都包含醫(yī)療信息或提供醫(yī)療電子商務(wù)服務(wù)。如果這些網(wǎng)站共享和發(fā)布信息時所使用的術(shù)語背后潛在的本體論是相同的,那么計算機代理可以從這些不同的網(wǎng)站中提取和聚合信息。代理也可以使用這些聚合信息來回答用戶查詢或?qū)⑵渥鳛槠渌麘?yīng)用程序的輸入數(shù)據(jù)。
以一些明確的域假設(shè)作為具體實施的基礎(chǔ)使我們可以在關(guān)于域的知識發(fā)生改變時很容易地改變這些假設(shè)。關(guān)于編程語言代碼的硬編碼假設(shè)使得這些假設(shè)不僅很難找到和理解,更加難以被改變,特別是對沒有編程經(jīng)驗的人。此外,對于領(lǐng)域知識的明確闡述對于必須學會這些術(shù)語在領(lǐng)域內(nèi)代表什么意思的新用戶也是很有幫助的。
通常一個領(lǐng)域的本體本身并不是一個目標。開發(fā)一個本體就類似于定義一組數(shù)據(jù)以及供其他程序使用時的結(jié)構(gòu)。解決問題的方法、域獨立應(yīng)用程序和軟件代理都是將本體和基于本體的知識庫作為數(shù)據(jù)來使用的。
分類法與本體論間的區(qū)別是什么?
在信息管理領(lǐng)域中,人們經(jīng)常使用的兩個術(shù)語就是“分類法”和“本體論”,但人們卻往往不知道兩者之間的區(qū)別是什么。
在技術(shù)方面,本體論意味著更廣泛的信息范圍。人們通常把一個分類法稱為“樹”,以此延伸,本體論則更像是“森林”。本體論可以包含許多種分類法,每個分類法都有其特定的組織方式。
分類法一般只局限于特定的專題范圍,例如產(chǎn)品或醫(yī)療條件。當你想通過添加結(jié)構(gòu)或上下文使非結(jié)構(gòu)化信息更容易被搜索時,分類法是很有用的。例如,如果用分類法來標記搜索索引中的文件,那么當用戶用關(guān)鍵字搜索該內(nèi)容時,分類法就可以作為給終端用戶的篩選選項顯示在搜索結(jié)果的左側(cè)。多種分類法可以結(jié)合起來作為過濾器來實現(xiàn)強效深度挖掘的搜索體驗。這正是你所看到的許多大牌的電子商務(wù)網(wǎng)站如Amazon和Costco正在做的事情。
本體論可以被認為更像一個網(wǎng)絡(luò),包含了所有概念之間的不同類型的聯(lián)系。本體可以包含無限種聯(lián)系,在不同的主題域的概念之間創(chuàng)建聯(lián)系相對更加容易。例如,你可以創(chuàng)建一個材料分類中的“木材”和產(chǎn)品分類中的“椅子”之間的聯(lián)系。關(guān)系類型可以是“例子”、“目的”或“部分”。
如果要創(chuàng)建一個可能會被用于處理高級自然語言或者文本分析的更復(fù)雜的信息模型,就會用到本體論。本體論可以讓你更好地理解在信息語料庫中的概念和因果關(guān)系。本體論還可以讓問題回答引擎更加強大:例如,如果我搜索“誰是第十六任總統(tǒng)?”引擎利用本體論就可以返回一個特定的結(jié)果:“亞伯拉罕-林肯”。
分享題目:大數(shù)據(jù)的真正價值在哪里?
鏈接URL:http://jinyejixie.com/article6/sdooog.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站維護、網(wǎng)站導(dǎo)航、用戶體驗、定制網(wǎng)站、面包屑導(dǎo)航、營銷型網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)