科普:數(shù)據(jù)湖和數(shù)據(jù)倉庫
發(fā)布日期:2022/1/20 13:45:41 瀏覽量:
進行數(shù)據(jù)分析工作的時候會用到很多的工具,比如說數(shù)據(jù)湖和數(shù)據(jù)倉庫,不過這兩者之間的差異和區(qū)別,可能會讓人困惑。那么大家知道不知道數(shù)據(jù)湖和數(shù)據(jù)倉庫的區(qū)別是什么呢?下面我們就給大家介紹一下數(shù)據(jù)湖和數(shù)據(jù)庫的相關(guān)知識。
2010年,James Dixon提出數(shù)據(jù)湖(Data Lake)的概念。
2011年Dan Woods在福布斯發(fā)表“大數(shù)據(jù)需要更大的新架構(gòu)”(Big Data Requires a Big New Architecture),數(shù)據(jù)湖開始廣為傳播。

數(shù)據(jù)湖是與數(shù)據(jù)倉庫相對的概念。數(shù)據(jù)倉庫有兩個局限:一是只可以回答預(yù)先設(shè)定的問題,二是數(shù)據(jù)已經(jīng)被篩選包裝好,無法看見其最初狀態(tài)。
為了說明數(shù)據(jù)湖與數(shù)據(jù)倉庫的不同,James Dixon說:“如果數(shù)據(jù)集市是一個商店的瓶裝水,經(jīng)過過濾包裝和結(jié)構(gòu)化以供使用——數(shù)據(jù)湖則是在更自然狀態(tài)下的大量的水。數(shù)據(jù)湖中的數(shù)據(jù)來源于不同地方,用戶可以進入數(shù)據(jù)湖中提取所需要的數(shù)據(jù)”。
數(shù)據(jù)湖的核心原則是集中存儲原始的、未經(jīng)改變的全量數(shù)據(jù),在提取數(shù)據(jù)時才進行轉(zhuǎn)換。數(shù)據(jù)湖存儲各種類型數(shù)據(jù),重點是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),通過統(tǒng)一視圖提供開放訪問。數(shù)據(jù)湖具有強大的元數(shù)據(jù)管理能力,保證所存儲數(shù)據(jù)資源的語義一致性,這是進行大數(shù)據(jù)分析的基本前提。

將城市數(shù)據(jù)湖與谷歌數(shù)據(jù)中心做個類比,不難發(fā)現(xiàn):數(shù)據(jù)湖的定位和搜索引擎類似,核心的技術(shù)實現(xiàn)是多源異構(gòu)數(shù)據(jù)的自動化標(biāo)注,才能像在搜索引擎上查找信息一樣實現(xiàn)按需檢索、即取即用。
Google、Facebook、Infomatica、亞馬遜AWS、微軟Azure等IT巨頭積極采納數(shù)據(jù)湖概念,并推進實際落地。很多數(shù)據(jù)倉庫遷移到以Hadoop為核心的技術(shù)棧,將半結(jié)構(gòu)化、非結(jié)構(gòu)數(shù)據(jù)存儲到數(shù)據(jù)湖中,以彌補數(shù)據(jù)倉庫的技術(shù)局限性。
1、數(shù)據(jù)湖的基本定位
數(shù)據(jù)湖是城市的“數(shù)據(jù)工廠”,是城市大數(shù)據(jù)應(yīng)用的“中央廚房”。
數(shù)據(jù)湖定位于數(shù)據(jù)采集、匯聚和存儲環(huán)節(jié),是公用數(shù)據(jù)集和分析型應(yīng)用的源頭。狹義數(shù)據(jù)湖僅是對應(yīng)“存儲”這個環(huán)節(jié),廣義數(shù)據(jù)湖則對應(yīng)“入湖、存儲、出湖”三個環(huán)節(jié)。
(1)數(shù)據(jù)匯聚
接入多源異構(gòu)數(shù)據(jù)源,擴展新型大數(shù)據(jù)和流式數(shù)據(jù)采集能力,統(tǒng)一監(jiān)控運行狀態(tài)。
(2)數(shù)據(jù)標(biāo)注
引入人工智能技術(shù),實現(xiàn)元數(shù)據(jù)的自動化標(biāo)注,提升到數(shù)據(jù)資產(chǎn)管理。
(3)數(shù)據(jù)分發(fā)
提供一站式數(shù)據(jù)服務(wù),從數(shù)據(jù)發(fā)現(xiàn)、準(zhǔn)備到提取,實現(xiàn)按需提供、即取即用。
2、數(shù)據(jù)湖的服務(wù)對象
數(shù)據(jù)湖定位于提供原料數(shù)據(jù)而不是成品數(shù)據(jù),重點解決數(shù)據(jù)供給側(cè)的問題。
按照辦業(yè)務(wù)和做決策兩類業(yè)務(wù)場景對獲取原料數(shù)據(jù)的共性需求,數(shù)據(jù)湖的服務(wù)對象不外乎兩類:一類是生產(chǎn)數(shù)據(jù)內(nèi)容產(chǎn)品的公用數(shù)據(jù)集建設(shè)者,比如建立人口庫、法人庫等基準(zhǔn)數(shù)據(jù),用于自然人和組織機構(gòu)的統(tǒng)一身份認(rèn)證;另一類是生產(chǎn)數(shù)據(jù)分析產(chǎn)品的分析型應(yīng)用開發(fā)者,比如開發(fā)城市大腦等決策系統(tǒng),用于城市中長期規(guī)劃和重大風(fēng)險預(yù)警。
3、數(shù)據(jù)湖的體系結(jié)構(gòu)
數(shù)據(jù)湖由元數(shù)據(jù)平臺、數(shù)據(jù)湖倉庫和數(shù)據(jù)湖服務(wù)三個部分組成。
元數(shù)據(jù)平臺用于數(shù)據(jù)資產(chǎn)登記、盤點、評估和處置,數(shù)據(jù)湖倉庫用于原生數(shù)據(jù)可管理、可擴展的統(tǒng)一存儲,數(shù)據(jù)湖服務(wù)用于對外提供數(shù)據(jù)發(fā)現(xiàn)、準(zhǔn)備和提取服務(wù)。
4、數(shù)據(jù)湖的核心特性
按照數(shù)據(jù)湖的基本定位,應(yīng)該具有以下核心特性:
(1)數(shù)據(jù)總收總發(fā)
(2)以原生格式存儲,在提取時再轉(zhuǎn)換
(3)元數(shù)據(jù)自動化標(biāo)注
(4)元數(shù)據(jù)標(biāo)注質(zhì)量的機器學(xué)習(xí)改進機制
(5)供需對接的數(shù)據(jù)資源市場機制
(6)數(shù)據(jù)按需提取、即取即用
(7)數(shù)據(jù)資產(chǎn)的全生命周期價值管理
5、數(shù)據(jù)湖的技術(shù)難點
數(shù)據(jù)湖的技術(shù)門檻很高,元數(shù)據(jù)自動化標(biāo)注是最大難題。
數(shù)據(jù)湖有點像圖書館管理員。不編制書目,你就找不到你想要的書;不編制數(shù)據(jù)目錄,你就找不到你想要的數(shù)據(jù)。
可以把數(shù)據(jù)湖想象成一個元數(shù)據(jù)標(biāo)注的機器人,它每時每刻要對進入數(shù)據(jù)湖的數(shù)據(jù)進行認(rèn)讀——這篇文章、這張圖片、這段視頻、這段語音、這些傳感器數(shù)據(jù)等等,到底說了什么;然后進行編目——數(shù)據(jù)從哪里來,作者是誰,標(biāo)題是什么,主題詞、關(guān)鍵字是什么,從而建立數(shù)據(jù)目錄,以支撐數(shù)據(jù)資源管理和服務(wù)活動。
這就牽涉到人工智能技術(shù)在元數(shù)據(jù)管理領(lǐng)域的綜合運用。比如,文書型數(shù)據(jù)要用到自然語言處理,媒體型數(shù)據(jù)要用到圖像識別和語音識別;為了提高元數(shù)據(jù)標(biāo)注的速度和準(zhǔn)確性,還要引入機器學(xué)習(xí)。恕我孤陋寡聞,單領(lǐng)域有很牛的公司,但是將多領(lǐng)域的人工智能技術(shù)用于元數(shù)據(jù)管理,有這樣技術(shù)預(yù)研和儲備的公司幾乎沒有。
其實,并非是技術(shù)上做不到,而是商業(yè)上是否可以期許。城市數(shù)據(jù)湖在技術(shù)復(fù)雜度高于谷歌數(shù)據(jù)中心的情況下,如果可以預(yù)判在不久的將來,城市數(shù)據(jù)的大規(guī)模集中和深層次利用是大勢所趨,但是又缺少堪用的城市數(shù)據(jù)基礎(chǔ)設(shè)施,那么投資于城市數(shù)據(jù)湖研發(fā)就是理所當(dāng)然。
鏈接:https://www.jianshu.com/p/e2beae3fddc9
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生