- 智能云存儲(chǔ)系統(tǒng) 您現(xiàn)在的位置 :首頁(yè) -- 技術(shù)論壇 -- 智能云存儲(chǔ)系統(tǒng)
大話冷存儲(chǔ)
| 來(lái)源:金錢(qián)貓科技股份有限公司 發(fā)表于:2018-04-23 瀏覽742次 |
(一)技術(shù)背景
智能互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)正在以幾何量級(jí)爆炸式增長(zhǎng)。EMC的預(yù)測(cè)報(bào)告顯示,到2020年,全球數(shù)據(jù)總量預(yù)計(jì)會(huì)超過(guò)44ZB(1ZB=220PB)。如此海量的數(shù)據(jù)中蘊(yùn)含著巨大的價(jià)值,特別是大數(shù)據(jù)的“低價(jià)值密度”特性使大規(guī)模數(shù)據(jù)的完備保存成為必然需求,因此如何提升數(shù)據(jù)的存儲(chǔ)管理效率是業(yè)界亟待解決的問(wèn)題。
根據(jù)被訪問(wèn)的頻度不同,數(shù)據(jù)可以被分為“熱數(shù)據(jù)、溫?cái)?shù)據(jù)、冷數(shù)據(jù)”三種類(lèi)型。其中,冷數(shù)據(jù)特指活動(dòng)不頻繁、不會(huì)被經(jīng)常訪問(wèn)甚至永遠(yuǎn)不會(huì)被訪問(wèn),但仍然需要長(zhǎng)期保留的數(shù)據(jù)。熱數(shù)據(jù)受到業(yè)務(wù)特征、用戶(hù)行為乃至監(jiān)管政策的影響(例如,醫(yī)院的醫(yī)學(xué)影像文件需要自患者最后一次就診之日起保存不少于15年),經(jīng)過(guò)一段時(shí)間的使用后,絕大部分?jǐn)?shù)據(jù)都會(huì)迅速變“冷”。因此,數(shù)據(jù)集合中通常有高達(dá)80%的部分屬于不常被訪問(wèn)的冷數(shù)據(jù)。然而,冷數(shù)據(jù)并非失去價(jià)值,大數(shù)據(jù)、人工智能等新興業(yè)務(wù)對(duì)海量冷數(shù)據(jù)進(jìn)行檢索和挖掘的需求依然存在而且日益迫切。
當(dāng)前熱數(shù)據(jù)高效存儲(chǔ)/訪問(wèn)技術(shù)的發(fā)展導(dǎo)致存儲(chǔ)數(shù)據(jù)總量指數(shù)性爆發(fā),面對(duì)當(dāng)前數(shù)據(jù)規(guī)模快速增長(zhǎng)的趨勢(shì),冷數(shù)據(jù)如何管理已成為存儲(chǔ)領(lǐng)域的關(guān)注熱點(diǎn)。冷數(shù)據(jù)高效管理的核心需求在于降低海量數(shù)據(jù)冷存儲(chǔ)的成本(特別是系統(tǒng)運(yùn)行功耗)。2015年我國(guó)數(shù)據(jù)中心的電量總消耗為1000億度,超過(guò)全社會(huì)年用電量的1.5%,存儲(chǔ)系統(tǒng)消耗電量占總消耗的30%,其中冷存儲(chǔ)消耗占比存儲(chǔ)系統(tǒng)總消耗為24%。同時(shí),系統(tǒng)存取性能有待提升,使冷數(shù)據(jù)能夠以近線存儲(chǔ)的方式被訪問(wèn)。
(二)海量數(shù)據(jù)冷存儲(chǔ)技術(shù)關(guān)鍵
1、數(shù)據(jù)的分級(jí),主要是指從海量數(shù)據(jù)中根據(jù)文件的訪問(wèn)頻率、價(jià)值等因素,進(jìn)行冷、熱數(shù)據(jù)的分類(lèi),甚至分出更細(xì)的數(shù)據(jù)類(lèi)型,如“溫?cái)?shù)據(jù)”、“冰數(shù)據(jù)”等。目前常見(jiàn)的數(shù)據(jù)分級(jí)方法主要有兩類(lèi),一類(lèi)是業(yè)務(wù)數(shù)據(jù)的分類(lèi),即基于具體的業(yè)務(wù)類(lèi)型,結(jié)合長(zhǎng)期以來(lái)的運(yùn)營(yíng)經(jīng)驗(yàn),進(jìn)行運(yùn)營(yíng)級(jí)的數(shù)據(jù)分類(lèi)。另一類(lèi)是基于數(shù)據(jù)存取特性的分類(lèi),即借助存儲(chǔ)軟件系統(tǒng)自動(dòng)進(jìn)行數(shù)據(jù)的冷熱分級(jí)。通過(guò)存儲(chǔ)軟件系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行冷熱監(jiān)控,統(tǒng)計(jì)分析一個(gè)時(shí)間周期內(nèi)的IO冷熱程度,并按照設(shè)定的分類(lèi)策略自動(dòng)進(jìn)行數(shù)據(jù)的分類(lèi),并將冷數(shù)據(jù)從前端業(yè)務(wù)存儲(chǔ)系統(tǒng)遷移到冷數(shù)據(jù)存儲(chǔ)系統(tǒng)。
2、數(shù)據(jù)的壓縮去重,提高有效數(shù)據(jù)的存儲(chǔ)比例。為了提升數(shù)據(jù)存儲(chǔ)的可靠性,通常會(huì)對(duì)數(shù)據(jù)進(jìn)行多副本存儲(chǔ),但多副本的方式會(huì)帶來(lái)存儲(chǔ)數(shù)據(jù)量的倍增。為了進(jìn)一步提升存儲(chǔ)效率,在一些讀寫(xiě)性能要求較低的場(chǎng)景下,可以選擇只保存校驗(yàn)數(shù)據(jù)。
3、運(yùn)營(yíng)能力的提升,海量數(shù)據(jù)的存儲(chǔ)需要更智能化的運(yùn)維系統(tǒng),包括對(duì)數(shù)據(jù)的定期巡檢、數(shù)據(jù)的精細(xì)化分類(lèi)、自動(dòng)化的數(shù)據(jù)遷移、故障預(yù)測(cè)及定位、設(shè)備的休眠等機(jī)房節(jié)能措施。此外,存儲(chǔ)的架構(gòu)設(shè)計(jì)也是當(dāng)前的研究熱點(diǎn),包括設(shè)備的分級(jí)、存儲(chǔ)介質(zhì)的選型、數(shù)據(jù)存儲(chǔ)格式、數(shù)據(jù)檢索、對(duì)外服務(wù)接口等。
此外,數(shù)據(jù)訪問(wèn)延遲、整體讀取速率以及數(shù)據(jù)持久性等,也是海量冷數(shù)據(jù)存儲(chǔ)的關(guān)鍵技術(shù)。這些關(guān)鍵技術(shù)相互制約影響,尤其是在運(yùn)營(yíng)能力提升方面,涉及的因素眾多,對(duì)冷數(shù)據(jù)存儲(chǔ)的選型提出了新的挑戰(zhàn)。
大數(shù)據(jù)時(shí)代,冷數(shù)據(jù)占到總數(shù)據(jù)的80%左右。而這些冷數(shù)據(jù)同樣重要,許多大數(shù)據(jù)分析都要基于冷數(shù)據(jù)來(lái)進(jìn)行,而且許多數(shù)據(jù)要求保存的時(shí)間非常長(zhǎng),例如銀行、社保等數(shù)據(jù),一般都要保存70~100年的時(shí)間。傳統(tǒng)的觀點(diǎn)認(rèn)為“硬盤(pán)存儲(chǔ)不論使用和閑置,都會(huì)消耗能量”,因此多采用磁帶或者光盤(pán)來(lái)保存冷存儲(chǔ)數(shù)據(jù)。但是,磁帶訪問(wèn)慢,光盤(pán)容量小,操作復(fù)雜,很難滿(mǎn)足大數(shù)據(jù)時(shí)代數(shù)據(jù)實(shí)時(shí)在線、快速訪問(wèn)的需求。而實(shí)際上,隨著疊瓦式磁記錄等硬盤(pán)技術(shù)的發(fā)展,硬盤(pán)容量原來(lái)越大,能耗越來(lái)越低,為此,金錢(qián)貓研發(fā)了一套基于硬盤(pán)的大數(shù)據(jù)智能冷存儲(chǔ)系統(tǒng).
金錢(qián)貓大數(shù)據(jù)冷存儲(chǔ)系統(tǒng)的主要功能包括:支持海量數(shù)據(jù)存儲(chǔ);實(shí)現(xiàn)了全局命名空間,所有應(yīng)用看到統(tǒng)一的文件系統(tǒng)視圖;支持標(biāo)準(zhǔn)接口,應(yīng)用無(wú)需修改直接運(yùn)行;元數(shù)據(jù)存儲(chǔ)于內(nèi)存,確保了文件的訪問(wèn)速度;多級(jí)存儲(chǔ)備份,靈活支持磁盤(pán)-磁帶的分級(jí)存儲(chǔ)與備份,擁有完備的文件管理功能;支持硬盤(pán)智能通斷電,數(shù)據(jù)自動(dòng)遷移,綠色節(jié)能;通過(guò)大數(shù)據(jù)分析,對(duì)存儲(chǔ)系統(tǒng)畫(huà)像,給出存儲(chǔ)系統(tǒng)規(guī)劃智能決策;透明管理異構(gòu)存儲(chǔ)系統(tǒng),能夠?qū)崿F(xiàn)跨系統(tǒng)的數(shù)據(jù)整合,保護(hù)用戶(hù)投資。
(金錢(qián)貓科技)









