數字圖書館中大資料儲存的應用研究論文

數字圖書館中大資料儲存的應用研究論文

  【摘要】大資料時代,資料的儲存與快速存取成為圖書館管理工作中的重要問題。現代圖書館數字化的管理模式帶來更大的資料資料容量,同時也為數字圖書館的儲存功能提出了更高的要求。傳統的資料儲存和資料管理方式早已無法達到大資料儲存的要求標準。數字圖書館中大資料儲存問題還需要進一步的深入研究,並尋求順應科技發展的全新的模式來應對大資料的儲存難題。

  【關鍵詞】數字圖書館;大資料;儲存;應用

  圖書館、閱覽室的資料儲存系統與其他行業的儲存系統有較大不同,主要表現在:①資料量龐大。一座大型圖書館每年的資料增量可達10TB以上;②儲存週期長。圖書館資料需要較長的儲存時間,甚至可達50年以上;③資料型別多樣。現代圖書具有影像、影象、文字、聲音等資料,均需要儲存;④高度的可靠性和安全性要求。作為一所資訊化程度較高的圖書館,為了構建一個滿足業務需要的高效資料儲存系統,可以利用資料壓縮、重複資料刪除、自動精簡配置、自動分層儲存等現代資料儲存技術,對大資料進行高效的儲存和管理。

  一、數字圖書館大資料儲存容量不足的問題

  現代圖書館是一個十分複雜的機構,完備的圖書館除了具有對借閱人員資訊、圖書還借與出人資訊、圖書裝置資訊等硬資料進行管理外,資料量最大最複雜的當屬對圖書資料本身的軟資料管理以及現代電子圖書資料的儲存與管理,特別是大型圖書館或高校圖書館,門類齊全、借閱量大、內容及裝置多樣,更使得它所產生的資料結構複雜且資料增量大。

  圖書館的資料量隨時間線性增長,隨著各種型別的數字化圖書及裝置越來越多,資訊化程度的不斷加強,對圖書及讀者管理規範程度的不斷提高,以及讀者對資源要求的不斷加深,致使資料容量加速增長。

  當前大型圖書館每年的資料增量大約為20~30TB,如此浩大的資料量,對於一個擁有100TB儲存容量的圖書館一也只能滿足3一5年的資料儲存需要,因此需要採取有效的'應對措施予以解決。

  日前,許多高校圖書館的儲存裝置容量利用率不到50%,大有潛力可挖。在圖書館實際管理工作中,在缺乏技術的情況下,經常採取整理碎片的技術來提高儲存空間利用率和資料查詢效率,這對於一般性的小容量操作是可行的,但對於大型資料系統其耗費的時間是難以估計的。況且,碎片的整理並不能有效消除分配卷中未使用的空間,達不到精簡配置的目的。

  二、數字圖書館大資料儲存容量不足的應對

  措施日前許多圖書館採取的辦法是由被購買了電子圖書的商家作資料備份,這顯然不是最有效的資料儲存機制。為了大幅度提高資料儲存效率,最有效的辦法是採用資料壓縮技術和重複資料刪除技術。

  1、利用壓縮技術提高空間利用率

  對於書籍等圖書資料檔案,其檔案內和檔案間存在大量的相似性關係,Delta壓縮技術則可以對檔案內和檔案間的資料進行比較,刪除檔案內和檔案間的冗餘資料,達到資料壓縮的日的,相似程度越高,壓縮比越小。

  2、利用消重技術提高空間利用率

  圖書館資料在儲存過程中往往有大量的備份資料,資料經過多次備份後,產生較多的資料重複,重複資料刪除技術在備份過程中能夠較好地消除重複資料,進而節約空間。對於重複資料備份,可以分為時間資料消重和空間資料消重。對於電子書籍等產生的資料一般屬於自然資料,其主要特點是,資料的變化率較低、完備的資料備份、資料長期儲存、資料內容可以感知等,因此,適合採用時間資料消重。因此,就本校圖書館的資料整理,大約每三個月進行一次。

  圖書館資料量龐大,僅僅一所5000人規模學校的中型圖書館,其電子圖書資料量就可達到15TB以上。因此,不能簡單採用與中小備份類似的解決方案,由於存在大量的圖形檔案及影像檔案等,其海量資料備份是一個非常耗時的過程,在熱備份情況下,可能需要花費近一個月時間。最佳實踐做法是,採用備份設施來複製資料並同時保證應用程式仍然可以讓客戶端使用。重要資料的備份可以使用有冗餘級別配置的主機或硬碟RAID。兩個獨立硬體控制的RAID陣列的軟體映象可以用來備份其關鍵資料。這種技術可以保證當某個磁碟或陣列發生故障時整個系統仍然可以使用,任何網路元件的故障,如網絡卡、影片裝置、IDE控制器、電源等可以容易地替換而不影響執行。最經濟且非常有效的資料備份方案可以採取冗餘技術RAID4,即若干個資料盤帶一個冗餘盤,在這些盤中的相應塊內,儲存的相應位的1的個數必須是偶數個。當某一個數據盤發生故障而更換了新盤後,只要按照偶數個1的原則就可以將損壞了的資料恢復到新盤中。

  在實際操作中,可以有多種備份方案,通常採用停機備份:正常關閉待操作資料,進行資料的冷備份。備份所有資料檔案、控制檔案、日誌檔案和引數檔案,把冷備份複製到新儲存裝置上,然後新建一個同名例項,最後再把備份資料檔案重新開啟即可。

  3、提高儲存空間的利用率

  對於某項應用,傳統空間分配方案採用完全供給,以確保該應用擁有足夠的增長空間,這勢必造成大量的儲存空間閒置,在空間浪費的同時也造成了能源損失。採用自動精簡配置是一種較新的儲存空間管理技術。利用自動精簡配置技術,能夠幫助使用者在不降低效能的情況下,大幅度提高儲存空間利用效率,能使使用者實現接近100%的儲存空間利用率,因為資料需要多少空間系統則按需要進行分配,基本不產生多餘的空間。自動精簡配置技術的一個明顯的優勢在於可自動擴充套件分配卷,無須手動擴充套件,而且當需求變化時,無需更改儲存容量設定;透過虛擬化技術整合儲存,減少超量配置,降低總功耗。這也是解決機房耗能問題的很有效的方法。

  三、總結

  總的來說,對於數字圖書館大資料的儲存和管理都十分關鍵,有效地儲存和管理大資料是現代圖書館資訊化管理的必要基礎,良好的資料管理技術能夠為圖書館管理工作的順利開展提供保障。所以,加強大資料儲存工作的管理,是未來數字圖書館發展的重要保證。

  參考文獻

  [1]彭磊.建立SAN(儲存區域網)——高校圖書館資料存

最近訪問