行業(yè)概述
近年來,隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的不斷完善,各種基于互聯(lián)網(wǎng)的應(yīng)用層出不究。人們中不出戶就可以享受到豐富的娛樂、購物、交友。相對于傳統(tǒng)方式,這不僅給人們的生活帶來更大的便利,也帶來了前所未有的體驗(yàn)。據(jù)中國互聯(lián)網(wǎng)信息中心權(quán)威統(tǒng)計(jì),截至 2011 年 12 月底,中國網(wǎng)民數(shù)量達(dá)到 5.13 億。龐大的用戶群體產(chǎn)生了更旺盛的需求,和技術(shù)進(jìn)步一起推動(dòng)互聯(lián)網(wǎng)保持高速發(fā)展。
互聯(lián)網(wǎng)應(yīng)用大量的數(shù)據(jù)是網(wǎng)頁、圖片、文字、文檔、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。絕大部分互聯(lián)網(wǎng)應(yīng)用的文件存儲(chǔ)部分都符合一次性寫入,多次讀取的數(shù)據(jù)訪問模式?;ヂ?lián)網(wǎng)特有的應(yīng)用模式要求存儲(chǔ)系統(tǒng)具有高度共享、大容量、高并發(fā)性能、高可用、在線擴(kuò)容和軟件升級(jí)以及簡易管理等特性。
常見的DAS、NAS、SAN存儲(chǔ)系統(tǒng)在互聯(lián)網(wǎng)行業(yè)中都有較多應(yīng)用,但一般的NAS和SAN架構(gòu)存儲(chǔ)系統(tǒng)無法勝任互聯(lián)網(wǎng)行業(yè)管理海量數(shù)據(jù)的要求。隨著存儲(chǔ)技術(shù)的發(fā)展和互聯(lián)網(wǎng)應(yīng)用的促進(jìn),集群存儲(chǔ)系統(tǒng)具備良好的擴(kuò)展性,可以管理海量數(shù)據(jù)并滿足高并發(fā)下的聚合處理能力的要求。如果針對某些應(yīng)用進(jìn)行適當(dāng)?shù)恼{(diào)節(jié),可以滿足互聯(lián)網(wǎng)企業(yè)幾乎全部應(yīng)用的要求。
方案架構(gòu)
互聯(lián)網(wǎng)應(yīng)用中的數(shù)據(jù)可心籠統(tǒng)地歸為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)如用戶信息,交易信息和物品的描述信息等一般存放在MySQL數(shù)據(jù)庫,甚至是Oracle RAC數(shù)據(jù)庫集群中。非結(jié)構(gòu)化的數(shù)據(jù),如圖片、音視頻等均以文件形式直接存儲(chǔ)在集群文件系統(tǒng)中。某些可以歸為使用關(guān)鍵字進(jìn)行操作的數(shù)據(jù),即key-value類型的數(shù)據(jù)保存在半結(jié)構(gòu)化存儲(chǔ)系統(tǒng)中。這些數(shù)據(jù)包括短小的文本內(nèi)容,采用URL索引的網(wǎng)頁數(shù)據(jù)等。由于幾乎所有的應(yīng)用都需要存儲(chǔ)非結(jié)構(gòu)化的數(shù)據(jù),而且某些應(yīng)用文件數(shù)量和尺寸都很大,全系統(tǒng)對于文件存儲(chǔ)的要求很高。
上圖是大型互聯(lián)網(wǎng)企業(yè)的服務(wù)結(jié)構(gòu),它分為存儲(chǔ),服務(wù)和緩存三層,每一層次都可以按需訪問下一層的數(shù)據(jù)。存儲(chǔ)層對外提供數(shù)據(jù)庫存儲(chǔ)、key-value存儲(chǔ)和文件系統(tǒng)三類存儲(chǔ)形式,上層的各種應(yīng)用共享所有這些存儲(chǔ)子系統(tǒng)。其中所有的文件均可直接存儲(chǔ)在ParaStor并行存儲(chǔ)系統(tǒng)中。服務(wù)層運(yùn)行在一組Web Server上,對外提供靜態(tài)和動(dòng)態(tài)的數(shù)據(jù)訪問服務(wù)。一種應(yīng)用可以運(yùn)行在若干臺(tái)Web Server組成的負(fù)載均衡集群上。緩存層緩存靜態(tài)數(shù)據(jù),如圖片、靜態(tài)頁面、音視頻文件等。
用戶的請求通過全局智能DNS負(fù)載平衡后,找到一個(gè)最近的緩存服務(wù)器并向它發(fā)出請求。如果數(shù)據(jù)是靜態(tài)的且已經(jīng)被緩存,緩存服務(wù)器直接應(yīng)答,否則將請求直接轉(zhuǎn)發(fā)給Web Server。Web Server將動(dòng)態(tài)數(shù)據(jù)請求的應(yīng)答直接發(fā)給客戶端,靜態(tài)數(shù)據(jù)則發(fā)給緩存服務(wù)器保存。
方案優(yōu)勢
目前ParaStor可以管理到百億級(jí)的文件,生產(chǎn)系統(tǒng)中已經(jīng)部署了十幾PB的系統(tǒng)。相對于過去的文件存儲(chǔ),有如下優(yōu)勢:
可以有效地整合多種規(guī)模相對較小的應(yīng)用。ParaStor可以將虛擬化的文件存儲(chǔ)池靈活地劃分成多個(gè)邏輯卷,分配給不同應(yīng)用使用。增加新的應(yīng)用或者應(yīng)用存儲(chǔ)需求擴(kuò)大均可在同一存儲(chǔ)池中動(dòng)態(tài)滿足,無須復(fù)雜規(guī)劃。
支撐單一高容量和高性能要求的應(yīng)用。ParaStor針對互聯(lián)網(wǎng)應(yīng)用中海量小文件管理和高聚合帶寬要求優(yōu)化。根據(jù)需求配置專門型號(hào)的存儲(chǔ)系統(tǒng),并進(jìn)行針對性的設(shè)置,可以滿足高IOPS和高帶寬苛刻要求。
簡易管理。ParaStor通過應(yīng)用聚集減少了企業(yè)中所需的存儲(chǔ)系統(tǒng)數(shù)目,并且對于存儲(chǔ)監(jiān)控、維護(hù)、擴(kuò)容等工作限制在存儲(chǔ)系統(tǒng)本身。ParaStor提供的圖形化、面向運(yùn)維設(shè)計(jì)的管理工具大大簡化了管理員的工作流程。
應(yīng)用服務(wù)器接入數(shù)據(jù)不再受限。ParaStor提供足夠多的以太網(wǎng)絡(luò)接口,允許成千上萬的應(yīng)用服務(wù)器接入單套存儲(chǔ)系統(tǒng)。
擴(kuò)容成本低。ParaStor存儲(chǔ)系統(tǒng)只需要將新的存儲(chǔ)控制器接入系統(tǒng)即可實(shí)現(xiàn)擴(kuò)容。新增容量的成本和初始安裝是一致的,擴(kuò)容操作簡單,節(jié)省維護(hù)成本。