大數(shù)據(jù)處理和所有權(quán)導致存儲行業(yè)現(xiàn)狀發(fā)生轉(zhuǎn)變。本文介紹了存儲實踐方面最重大的變化。
企業(yè)存儲環(huán)境主要是圍繞記錄系統(tǒng)構(gòu)建起來的,側(cè)重于這些問題:為數(shù)據(jù)記錄長度固定的文件購買哪些類型的存儲介質(zhì)和管理系統(tǒng),所存儲數(shù)據(jù)的性質(zhì)是實時數(shù)據(jù)、準實時數(shù)據(jù),還是只是偶爾需要訪問或完全可以用數(shù)據(jù)歸檔保存起來的批量填充的數(shù)據(jù)等。
自從大數(shù)據(jù)進入企業(yè)數(shù)據(jù)中心和業(yè)務部門,一切改變了――單個的大數(shù)據(jù)文件可以用數(shù)TB、甚至數(shù)PB來衡量。Hadoop等分析平臺上的大數(shù)據(jù)并行處理與事務數(shù)據(jù)的按順序處理有著明顯區(qū)別。不出所料,存儲方面要考慮的因素隨之變化。
這種變化在數(shù)據(jù)分析和高性能計算領(lǐng)域體現(xiàn)得最為明顯。這個領(lǐng)域以Hadoop應用程序為主,它們借助算法分析方法并行處理數(shù)PB級數(shù)據(jù),用于數(shù)據(jù)科學及其他復雜查詢。就高性能應用程序而言,很難考慮像虛擬化存儲或基于云的存儲這些概念,因為你只有通過數(shù)據(jù)中心的物理處理器和存儲平臺,才能直接處理并存儲數(shù)據(jù)和查詢結(jié)果。
因此,這種工作具有的計算密集性和存儲密集性使數(shù)據(jù)中心管理人員(包括存儲專業(yè)人員)不再像過去十年那樣,迫切尋求的虛擬化或云計算。作為大數(shù)據(jù)對象存儲特點的單一數(shù)據(jù)集的龐大性也是如此,它們使用元數(shù)據(jù)標簽來描述非傳統(tǒng)數(shù)據(jù)圖像,比如照片、視頻、音頻記錄和文檔圖像等。
此外,大數(shù)據(jù)項目的所有權(quán)也改變了存儲計算。如果公司里面的業(yè)務部門在運行大數(shù)據(jù)項目,其目標就會轉(zhuǎn)向零散的分布式物理存儲架構(gòu),這些分布式物理存儲是網(wǎng)絡附加存儲(NAS),可以在工作負載需要時,向外擴展到多個存儲設(shè)備。分布式向外擴展型NAS是基于云的存儲或虛擬存儲之外的一種選擇,它與這些流行的IT趨勢形成了鮮明對照。
鑒于這些發(fā)展動向,云計算在大數(shù)據(jù)領(lǐng)域可以扮演什么角色呢?
答案是冷存儲(cold storage),這個領(lǐng)域仍沒有得到企業(yè)界的充分利用。冷存儲是極其便宜、速度很慢、駐留在磁盤的數(shù)據(jù),存儲起來放到歸檔上,妥善保存起來。在日常的IT中,這些數(shù)據(jù)很少有機會需要用到,所以如果你把它轉(zhuǎn)移到異地數(shù)據(jù)存儲庫很方便,不必讓它在你的數(shù)據(jù)中心或運營系統(tǒng)中占用空間。如果該數(shù)據(jù)存儲庫在云端,你就能夠從數(shù)據(jù)中心遠程訪問它,沒必要大老遠跑到異地拿起磁盤或磁帶。
云計算和虛擬存儲在數(shù)據(jù)集市也存在發(fā)展前景?,F(xiàn)在許多公司使用數(shù)據(jù)集市為不同的部門運行批量查詢。數(shù)據(jù)集市中所用的數(shù)據(jù)大多是批量創(chuàng)建,基本是過去用來查詢的傳統(tǒng)數(shù)據(jù)。不同之處在于,用戶現(xiàn)在擁有比過去更多的分析報告創(chuàng)建工具和選項用于查詢,而且數(shù)據(jù)管理員更能夠生成從不同來源聚合的數(shù)據(jù)。在這種批量環(huán)境下,磁盤存儲解決方案用起來就跟過去一樣有效。
存儲管理員需要應對大數(shù)據(jù)帶來的變化,尤其是如何應對眾多極其龐大的大數(shù)據(jù)文件。這就需要專門的磁盤和處理,在大多數(shù)情況下,還需要與云計算和虛擬化項目背道而馳的本地存儲。在另一方面,商用冷存儲解決方案可能會最終消除這個困境:很少使用的數(shù)據(jù)駐留在機房的過時磁盤和磁帶驅(qū)動器上,無人照管。
(審核編輯: 滄海一土)
分享