GBase新聞
GBASE觀察:擴(kuò)展分析型數(shù)據(jù)庫(kù)
一、多模態(tài)數(shù)據(jù)庫(kù)
隨著大數(shù)據(jù)應(yīng)用的發(fā)展,企業(yè)需要處理的數(shù)據(jù)量爆炸式增長(zhǎng),同時(shí)面臨數(shù)據(jù)的結(jié)構(gòu)也越來(lái)越靈活多樣。傳統(tǒng)基于關(guān)系型理論構(gòu)建起來(lái)的數(shù)據(jù)庫(kù)管理系統(tǒng)遭遇到了巨大挑戰(zhàn)。為了滿足企業(yè)發(fā)展需求,企業(yè)不同業(yè)務(wù)IT系統(tǒng)需要用不同類型數(shù)據(jù)庫(kù)來(lái)支撐。以下示意了不同類型數(shù)據(jù)庫(kù)及其適用場(chǎng)景。
不同應(yīng)用類型采用不同數(shù)據(jù)庫(kù)可以有針對(duì)性提供數(shù)據(jù)支持,但數(shù)據(jù)庫(kù)維護(hù)的難度較大且數(shù)據(jù)交換的復(fù)雜。為此,多模態(tài)數(shù)據(jù)庫(kù)(multi-model database)受到了高度關(guān)注,所謂多模態(tài)數(shù)據(jù)庫(kù)就是能夠管理具有不同模型(如關(guān)系模型、樹(shù)模型、圖形模型和對(duì)象模型)的數(shù)據(jù)庫(kù)系統(tǒng)。多模態(tài)數(shù)據(jù)庫(kù)具有多個(gè)數(shù)據(jù)庫(kù)引擎,可以同時(shí)滿足應(yīng)用程序?qū)τ诮Y(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理需求。多模態(tài)式數(shù)據(jù)管理使得數(shù)據(jù)庫(kù)能夠進(jìn)行跨部門、跨業(yè)務(wù)的數(shù)據(jù)統(tǒng)一管理,實(shí)現(xiàn)多業(yè)務(wù)數(shù)據(jù)融合,支撐多樣化的應(yīng)用服務(wù)。
目前,國(guó)內(nèi)外已經(jīng)有多模態(tài)數(shù)據(jù)庫(kù)產(chǎn)品,其中,ArangoDB,是比較有名的多模態(tài)數(shù)據(jù)庫(kù)。在ArangoDB數(shù)據(jù)庫(kù)中,數(shù)據(jù)可以存儲(chǔ)為文檔、鍵/值對(duì)或圖形。使用單一的聲明性查詢語(yǔ)言,可以訪問(wèn)任何或所有數(shù)據(jù)。此外,可以在單個(gè)查詢中組合不同的模型。而且,由于其多模態(tài)型風(fēng)格,人們可以制作精益應(yīng)用程序,可以使用多種數(shù)據(jù)模型中的任何一種或全部進(jìn)行水平擴(kuò)展。
雖然多模態(tài)數(shù)據(jù)塊庫(kù)能夠統(tǒng)一支撐多類型業(yè)務(wù)應(yīng)用,但是,多模態(tài)數(shù)據(jù)庫(kù)面對(duì)的難點(diǎn)很多,由于不同數(shù)據(jù)庫(kù)引擎在響應(yīng)延時(shí)、計(jì)算存儲(chǔ)、操作語(yǔ)言的語(yǔ)義語(yǔ)法等都差異很大,不同引擎集成后,原數(shù)據(jù)庫(kù)的性能都難以充分發(fā)揮,整體性能受到較大約束。俗話說(shuō)的好,讓專業(yè)的人做專業(yè)的事,同樣,讓專業(yè)的數(shù)據(jù)庫(kù)支持專業(yè)的業(yè)務(wù)應(yīng)用是有其合理性的。通用的數(shù)據(jù)庫(kù)雖然有能力支撐全面業(yè)務(wù),但在具體細(xì)分業(yè)務(wù)領(lǐng)域,通用的數(shù)據(jù)庫(kù)的支持能力并不能夠達(dá)到專業(yè)數(shù)據(jù)庫(kù)的支持能力,數(shù)據(jù)庫(kù)整體性能不佳。
二、HTAP混合事務(wù)與分析數(shù)據(jù)庫(kù)
相對(duì)多模態(tài)數(shù)據(jù)庫(kù),混合事務(wù)與分析數(shù)據(jù)庫(kù)考慮的是關(guān)系型事務(wù)型數(shù)據(jù)庫(kù)與關(guān)系型分析型兩種類型混合的數(shù)據(jù)庫(kù)。HTAP可以解決大型實(shí)時(shí)應(yīng)用的同時(shí)支持對(duì)大數(shù)據(jù)的分析挖掘。HTAP通常可以用兩套系統(tǒng)來(lái)組合來(lái)支持OLTP和OLAP,也可以用一套系統(tǒng)同時(shí)支持OLTP和OLAP。前者需要用戶的應(yīng)用程序自己來(lái)協(xié)調(diào)AP和TP系統(tǒng)的使用,數(shù)據(jù)在兩個(gè)系統(tǒng)之間是通過(guò)ETL方式同步。后者基于一站式架構(gòu)同時(shí)處理事務(wù)請(qǐng)求與查詢分析請(qǐng)求的技術(shù),不僅消除了從關(guān)系型事務(wù)數(shù)據(jù)庫(kù)到分析型數(shù)據(jù)庫(kù)的數(shù)據(jù)抽取、轉(zhuǎn)換、和加載過(guò)程,還支持實(shí)時(shí)地分析最新事務(wù)數(shù)據(jù)。合理的HTAP數(shù)據(jù)庫(kù)不僅能夠同時(shí)支撐事務(wù)運(yùn)行和數(shù)據(jù)分析,避免在傳統(tǒng)架構(gòu)中,在線與離線數(shù)據(jù)庫(kù)之間大量的數(shù)據(jù)交互。
以下是一種HTAP系統(tǒng)架構(gòu)示意圖:
HTAP雖然同時(shí)具備OLTP和OLAP的重要特點(diǎn),但目前HTAP還面臨一些問(wèn)題,有待進(jìn)一步發(fā)展。
其主要問(wèn)題有:
1.大多數(shù)HTAP已經(jīng)分別支持了AP請(qǐng)求和TP請(qǐng)求的處理,但沒(méi)有系統(tǒng)支持在TP中執(zhí)行AP的場(chǎng)景;
2.大多數(shù)系統(tǒng)需要組合各種解決方案來(lái)達(dá)到HTAP場(chǎng)景的需求;
3.為了加速TP的更新和點(diǎn)查,HTAP將索引全部放在了內(nèi)存中,但是對(duì)于更大規(guī)模數(shù)據(jù)的場(chǎng)景,索引全部在內(nèi)存中會(huì)導(dǎo)致TP系統(tǒng)變慢;
4.為AP場(chǎng)景設(shè)計(jì)的存儲(chǔ)引擎,通常使用對(duì)象存儲(chǔ)或者共享文件系統(tǒng)來(lái)存儲(chǔ)數(shù)據(jù)。這些存儲(chǔ)格式主要是為scan場(chǎng)景進(jìn)行優(yōu)化,無(wú)法提供高效的點(diǎn)查和更新能力。
雖然HTAP并不能分別達(dá)到OLTP與OLAP各自的性能,但通常HTAP面對(duì)的OLTP與OLAP具有很多共性,OLTP和OLAP兩者都是關(guān)系數(shù)據(jù)庫(kù),都支持標(biāo)準(zhǔn)SQL語(yǔ)言,而且數(shù)據(jù)庫(kù)表結(jié)構(gòu)沒(méi)有什么區(qū)別。所以,數(shù)據(jù)庫(kù)整體性能可以得到有效優(yōu)化,從而HTAP在相當(dāng)程度上可以發(fā)揮OLTP和OLAP的各自優(yōu)點(diǎn),并簡(jiǎn)化系統(tǒng)維護(hù)成本。
三、擴(kuò)展分析型數(shù)據(jù)庫(kù)
HTAP數(shù)據(jù)庫(kù)的OLTP與OLAP面對(duì)的數(shù)據(jù)庫(kù)有很大共性,從而,相對(duì)多模態(tài)數(shù)據(jù)庫(kù),HTAP不僅滿足特定應(yīng)用需求,同時(shí)OLTP和OLAP的性能損失較少。HTAP是從關(guān)系數(shù)據(jù)庫(kù)的維度整合兩種數(shù)據(jù)庫(kù)類型,同樣,從數(shù)據(jù)分析維度上,分析型數(shù)據(jù)庫(kù)(OLAP)與圖數(shù)據(jù)庫(kù)(RDF)也是一種互補(bǔ)的組合,可以滿足更高的數(shù)據(jù)分析業(yè)務(wù)需求。OLAP與RDF數(shù)據(jù)庫(kù)也有很多共性,比如,兩者都是面向數(shù)據(jù)分析,面對(duì)的數(shù)據(jù)量都很大,而且各自的分析能力可以互補(bǔ),兩者結(jié)合,可以提供更加豐富、高效的數(shù)據(jù)挖掘。在此,我們把OLAP分析數(shù)據(jù)庫(kù)分析處理與RDF圖數(shù)據(jù)庫(kù)的分析處理的整合稱為擴(kuò)展分析型數(shù)據(jù)庫(kù)。
我們知道,大數(shù)據(jù)分析挖掘要依靠OLAP關(guān)系數(shù)據(jù)庫(kù)來(lái)支撐,多年來(lái),基于OLAP數(shù)據(jù)庫(kù)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)為各行各業(yè)數(shù)據(jù)分析挖掘提供了極其重要的支撐。然而,由于OLAP關(guān)系數(shù)據(jù)庫(kù)是擅長(zhǎng)行與列數(shù)據(jù)的計(jì)算與存儲(chǔ),但在遍歷關(guān)系網(wǎng)絡(luò)并抽取信息的能力比較弱,關(guān)系型數(shù)據(jù)庫(kù)在數(shù)據(jù)規(guī)模龐大時(shí)很難做多層關(guān)聯(lián)關(guān)系分析,其關(guān)聯(lián)操作往往因?yàn)橄倪^(guò)長(zhǎng)時(shí)間而失敗,而圖數(shù)據(jù)庫(kù)正好在關(guān)系庫(kù)正好彌補(bǔ)了關(guān)系數(shù)據(jù)庫(kù)這個(gè)弱點(diǎn),圖數(shù)據(jù)庫(kù)可以很自然的表達(dá)現(xiàn)實(shí)世界中的實(shí)體及其關(guān)聯(lián)關(guān)系,無(wú)需耗時(shí)耗內(nèi)存的關(guān)聯(lián)操作,可以保持常數(shù)級(jí)時(shí)間復(fù)雜度,圖數(shù)據(jù)庫(kù)在多級(jí)關(guān)聯(lián)上查詢上相對(duì)關(guān)系數(shù)據(jù)庫(kù)具有顯著優(yōu)勢(shì)。
為了實(shí)現(xiàn)更強(qiáng)大的數(shù)據(jù)分析處理,可以采用兩種架構(gòu)實(shí)現(xiàn)如下:
分立架構(gòu),通過(guò)業(yè)務(wù)種類判斷,分別由兩個(gè)不同類型數(shù)據(jù)庫(kù)根據(jù)各自優(yōu)勢(shì)進(jìn)行分析,兩個(gè)系統(tǒng)需要進(jìn)行同步。一體化架構(gòu)采用適應(yīng)關(guān)系表分析和關(guān)聯(lián)分析的引擎,對(duì)應(yīng)用進(jìn)行統(tǒng)一解釋、統(tǒng)一調(diào)度、統(tǒng)一優(yōu)化,提供一體化數(shù)據(jù)分析服務(wù)。一體化的擴(kuò)展分析型數(shù)據(jù)庫(kù)的具體結(jié)構(gòu)示意如下:
由于OLAP和RDF引擎都可以進(jìn)行大規(guī)模海量數(shù)據(jù)處理,如此集成的分析型數(shù)據(jù)庫(kù)同時(shí)發(fā)揮了OLAP和RDF數(shù)據(jù)分析的優(yōu)勢(shì),進(jìn)一步提升數(shù)據(jù)分析能力。
四、GBASE南大通用擴(kuò)展分析型數(shù)據(jù)庫(kù)
GBASE南大通用圖數(shù)據(jù)庫(kù)通過(guò)研發(fā)融合平臺(tái)UP及分析型數(shù)據(jù)庫(kù)GBase8a的技術(shù),結(jié)合國(guó)產(chǎn)化圖數(shù)據(jù)庫(kù)技術(shù),充分利用三種技術(shù)優(yōu)勢(shì),打造擴(kuò)展型數(shù)據(jù)分析數(shù)據(jù)庫(kù)平臺(tái),不僅實(shí)現(xiàn)了超大規(guī)模數(shù)據(jù)分析的需求,同時(shí)在關(guān)聯(lián)分析上性能取得突破,可以進(jìn)一步滿足大數(shù)據(jù)挖掘分析,實(shí)現(xiàn)復(fù)雜多級(jí)關(guān)聯(lián)的知識(shí)圖譜分析。擴(kuò)展分析型數(shù)據(jù)庫(kù)將在以下應(yīng)用場(chǎng)景取得更好應(yīng)用:
金融風(fēng)控及審計(jì)
金融風(fēng)控分析涉及指標(biāo)多、數(shù)據(jù)量大,同時(shí)實(shí)體關(guān)聯(lián)層級(jí)多且復(fù)雜。比如,在審計(jì)分析中,客戶對(duì)公、對(duì)私、對(duì)員工及相關(guān)的管理,緯度特別多,數(shù)量大。傳統(tǒng)數(shù)據(jù)庫(kù)難以支撐,采用擴(kuò)展分析型數(shù)據(jù)庫(kù),可以高效地分析出重點(diǎn)客戶上或者員工頻繁會(huì)跟他的親屬進(jìn)行轉(zhuǎn)賬關(guān)系或者有一些深度資金往來(lái)數(shù)據(jù),這樣可以顯示出非常大的價(jià)值。
石油勘探認(rèn)知計(jì)算平臺(tái)
石油勘探的“測(cè)井”環(huán)節(jié),涉及數(shù)據(jù)量巨大,同時(shí),地球物理學(xué)家需通過(guò)對(duì)電阻率、自然電位、聲波等綜合信息的研究進(jìn)行油氣層識(shí)別, 在油氣生產(chǎn)領(lǐng)域,采用物聯(lián)網(wǎng)技術(shù)和機(jī)器學(xué)習(xí)方法,實(shí)現(xiàn)了油井工況的定量診斷和遠(yuǎn)程實(shí)時(shí)在線管理。
通過(guò)擴(kuò)展型數(shù)據(jù)分析,可以通過(guò)海量數(shù)據(jù)機(jī)器學(xué)習(xí)挖掘發(fā)現(xiàn)油氣層規(guī)律,同時(shí)可以通過(guò)知識(shí)圖譜,進(jìn)一步挖掘各種復(fù)雜關(guān)聯(lián)關(guān)系,為科學(xué)勘探提供依據(jù)。
電網(wǎng)潮流計(jì)算
電網(wǎng)潮流計(jì)算分別用來(lái)描述發(fā)電機(jī)、負(fù)荷、線路和變壓器數(shù)據(jù),通過(guò)擴(kuò)展分析型數(shù)據(jù)庫(kù),不僅可以計(jì)算存儲(chǔ)電網(wǎng)潮流涉及的海量數(shù)據(jù),同時(shí)可以通過(guò)知識(shí)圖譜,迅速更新復(fù)雜電網(wǎng)拓?fù)洌l(fā)現(xiàn)電網(wǎng)故障路徑,為智能電網(wǎng)故障快速恢復(fù)提供技術(shù)支撐。
五、結(jié)論
大數(shù)據(jù)技術(shù)與應(yīng)用的發(fā)展,對(duì)分析型數(shù)據(jù)庫(kù)提出更高要求,傳統(tǒng)分析型數(shù)據(jù)庫(kù)已經(jīng)在數(shù)據(jù)倉(cāng)庫(kù)能力上大顯身手,但在多層次數(shù)據(jù)關(guān)聯(lián)上,傳統(tǒng)分析型數(shù)據(jù)庫(kù)能力欠缺,而圖數(shù)據(jù)庫(kù)是為數(shù)據(jù)關(guān)聯(lián)分析而生,非常擅長(zhǎng)多級(jí)數(shù)據(jù)關(guān)聯(lián)分析。所以一種擴(kuò)展分析型數(shù)據(jù)庫(kù)就是整合了傳統(tǒng)分析型數(shù)據(jù)庫(kù)與圖數(shù)據(jù)庫(kù)的優(yōu)點(diǎn),極大增強(qiáng)了分析型數(shù)據(jù)庫(kù)的能力,可以更好滿足大數(shù)據(jù)業(yè)務(wù)的發(fā)展需要。