淺談資料密集型資料資源雲平臺的構建論文

  雲平臺是轉向雲端計算***cloud computing***,是業界將要面臨的一個重大改變。各種雲平臺***cloud platforms***的出現是該轉變的最重要環節之一。顧名思義,這種平臺允許開發者們或是將寫好的程式放在“雲”裡執行,或是使用“雲”裡提供的服務,或二者皆是。至於這種平臺的名稱,現在我們可以聽到不止一種稱呼,比如按需平臺***on-demand platform***、平臺即服務***platform as a service,PaaS***等等。但無論稱呼它什麼,這種新的支援應用的方式有著巨大的潛力。以下是小編今天為大家精心準備的:淺談資料密集型資料資源雲平臺的構建相關論文。內容僅供參考,歡迎閱讀!

  淺談資料密集型資料資源雲平臺的構建全文如下:

  美國《福布斯》雜誌稱“如今,在瀏覽新聞網站或者是參加行業會議時,想看不見或聽不到‘大資料’這個詞幾乎是不可能的”,大資料已經成為產業界、科學界和政府部門等各界的關注熱點。近幾年來, 《Nature》、《Science》等國際頂級學術期刊相繼出版專刊來推動大資料的研究,中國、美國等多國政府也展開了對大資料的研究部署工作。產業界已經率先認識到大資料所蘊含的海量價值及其戰略意義,Amazon、Google、IBM 等IT 巨頭紛紛探索應對大資料的解決方案,雲端計算逐漸成為他們共同的探索方向。科學界也逐步意識到大資料的影響,認為隨著大資料時代的到來,科學研究已經進入資料密集型科學研究*** Data-Intensive Science Research*** 階段,中國論文網科學正規化的轉變成為科學界的研究重點。本文探討了資料密集型科學研究的內涵和特徵,以及科學介面臨的挑戰,並構建了資料資源雲平臺以幫助科研人員應對資料密集型科學研究中的問題。

  1 資料密集型科學研究的內涵及其特徵

  資料密集型科學研究是直接從海量資料中發現科學規律的一種研究正規化,是在大資料環境下對實驗科學、理論科學和模擬科學的繼承與發展。它由三個基本活動組成: 科學資料的採集、管理和分析,其資料來源主要有大型國際實驗,跨實驗室、單一實驗室或個人觀察實驗,個人生活等。在這一新的科學研究正規化中,先利用科學儀器或者模擬方法採集資料,然後通過計算機軟硬體裝置進行資料的管理和分析,將處理分析後的資料、資訊和知識儲存在計算機中。資訊科學貫穿科學活動的始終,而科研人員對資料的審視是在整個科學活動中比較靠後的步驟才開始的。資料密集型科學研究作為科學大資料環境下科學研究的新發展,具有以下三個特徵:

  *** 1*** 資料驅動,而不是假設驅動。傳統階段,實驗科學、理論科學和模擬科學能夠獲得和使用的資料相對匱乏,只能採取假設驅動型研究方法,首先根據前人研究成果和自身知識進行假設,然後通過設計實驗、理論推導或者是計算機模擬等定義好的方法獲取相關資料,對假設進行檢驗。而現在科學研究已經從資料缺乏時代過渡到資料氾濫時代,資料密集型科學研究不需要模型和假設,科研人員的關注重點也從“我要怎麼驗證這個假設”轉變為“我能從這些資料中發現什麼關聯”,資料成為科研活動的起點和驅動力。

  *** 2*** 強調可重複性。科學研究是人類認識世界、改造世界的重要手段,保證科研結果的可靠性和真實性是科學研究的前提,而可重複性是檢驗科學研究結果可靠性和真實性最有效的手段。在資料密集型科學研究中,技術的進步使資料傳播速度更快、範圍更廣,產生的影響也更大,所以為了更好地保障科學研究的可信賴性,必須更加重視科研活動的可重複性,從而儘快識別出錯誤的或者弄虛作假的科研結果,將負面影響降至最低。中國論文網

  *** 3*** 相關關係,而不是因果關係。資料密集型科學研究通過對科學資料的分析和挖掘,直接從科學資料中發現科學規律,認識事物的相關關係,其精髓在於客觀,但不能像實驗科學、理論科學和模擬科學那樣檢驗邏輯上的因果關係。然而科學研究是人類認識世界的手段,其目的不僅是發現科學規律,還要探索規律執行的本質原因,得到相關性之後還需要結合前三種科學方法解釋因果性。

  資料密集型科學研究是對前三種科學的繼承與發展,將其作為一個新的、科學探索的第四種正規化,具有重大的價值和意義,當然也面臨一些新的挑戰。

  2 資料密集型科學研究面臨的挑戰

  2. 1 科學資料層面的挑戰

  科學資料面臨來自諸多方面的挑戰,但從研究的角度來說,根本挑戰在於其規模性、複雜性和特異性。

  *** 1*** 規模性是科研大資料最明顯的特徵,也是科研人員所面臨的首要問題,主要表現在原始資料的規模性和資料增速的規模性:

  ①原始資料的規模性。科學研究是持續性的活動,傳統科學已經產生海量資料積累,如澳大利亞的平方公里陣列射電望遠鏡專案自開展以來,每天都能產生好幾個千萬億位元組*** PB*** 的資料;

  ②資料增速的規模性。隨著科研人員的研究方法和研究儀器越來越先進,科學研究能夠生成和獲取的資料量越來越多,資料量的增長速度已經超過了資料儲存能力的增長速度,導致資料儲存和處理能力與日益增長的資料量之間的矛盾愈加尖銳。

  *** 2*** 複雜性是科研大資料的重要特徵,給科學資料共享造成巨大困難,主要表現在資料型別的複雜性和資料結構的複雜化:

  ①資料型別的複雜性。美國國家科學委員從科研研究型別角度將科學資料分為4 個基本類別: 預測型、計算型、實驗型和記錄型,這種劃分方式模糊了具體學術活動下所收集到的資料型別的複雜性。計算機技術和科學方法的進步使科研人員能夠獲得的資料型別愈加複雜化,如核磁共振成像、基因序列、電子顯微鏡資料等形式;

  ②資料結構的複雜性。傳統科學資料主要以結構化的方式儲存在關係型資料庫中,但是隨著科研人員獲取資料的渠道和方式的多樣化,非結構化資料成為科學資料的主流形式。與結構化資料相比,非結構化資料的組織更加凌亂、複雜,給資料處理和共享帶來挑戰。

  *** 3*** 特異性是科學資料區別於其他資料的關鍵特徵,對科學資料共享和學術資訊交流提出挑戰,主要表現在認識的特異性和價值的特異性:

  ①認識的特異性。由於科學資料與客觀世界相分離,對科學資料的認識必然帶有主觀性,資料採集者認為是資料的採集物,接受者可能不這樣認為,觀測資料或者模擬資料可能是、或者頂多是“供述的證據”;

  ②價值的特異性。科學資料作為一種可重複利用的非消耗性資源,其價值增值需經過科研人員的利用來實現。影響科學資料增值程度的因素有兩個,一是科學資料本身的價值,決定理論上的最大增值程度;二是資料使用者的能力,決定實際增值程度,而科學資料的交流和共享能夠實現資料的多方利用,促使科學資料價值產生指數增長,所以如何實現科學資料共享成為科學界亟需解決的問題。

  2. 2 科學研究層面的挑戰

  首先,科研人員缺乏將資料轉化為知識的意識和方法。中國論文網一方面,科研人員沒有意識到科學資料的價值特異性,絕大部分科學資料會隨著科研人員的退休、專案的結束等原因被遺棄,無法被其他人員使用。另一方面,資料密集型科學研究具有無參考性,科學研究方法需要從傳統的假設驅動變為資料驅動,科研人員必須培養資料敏感性,以資料為本,轉變自己的研究方法以實現資料價值最大化。

  其次,科研人員缺乏裝置和技術支援。目前科研專案呈現金字塔型分佈,第一層專案能夠得到國際財團機構或國家科學基金會的資助,獲得超級計算和儲存資源,而佔大多數的第二層和第三層專案所獲得的資助相對有限,資料密集型科學研究的資源需求難以得到滿足。科研人員無法平等地獲取保證專案所需的資源支撐,延緩了知識創新程序,不利於科學的持續發展。

  最後,資料共享方面存在阻礙。一方面,不同地域、不同學科之間缺乏統一的交流平臺,雖然科學研究的地理分佈性和跨學科性不斷加劇,但仍有接近87. 5%的資料未能形成資料來源以供科研人員利用。另一方面,資料共享在具體實施層面,會涉及到各方面的利益,政策、制度等因素導致原始資料、研究方法等無法實現真正共享,跨國專案在此方面的問題尤為突出,因此,科學交流體系的完善值得引起科學界和國際方面的關注。

  3 雲端計算在資料密集型科學研究中應用的必要性分析

  雲端計算是一種利用網際網路實現隨時隨地、按需、便捷地訪問共享資源池*** 如計算設施、儲存裝置、應用程式等*** 的計算模式,Gartner 公佈的2014 年的技術成熟度曲線,Cloud Computing 正處於泡沫化的谷底期,已經度過了最危險的期望膨脹期,人們對雲端計算的認識逐漸趨於理性和成熟,業界也不再熱衷於炒作雲端計算概念,而是將實現雲端計算的成熟和規模應用作為努力的方向。Gartner 的2014 年十大技術和趨勢評選中的個人雲時代、規模IT 都屬於雲端計算的應用,雲端計算真正與實際應用和環境融合,實現從探索嚮應用轉變,成為大資料時代個人和企業進行資料管理的必然選擇。

  在對資料管理的使用和認識上,很多科學領域都落後商業領域至少10 年,雲端計算在商業領域的廣泛應用對於科學領域具有借鑑意義,將雲端計算應用於資料密集型科學研究中具有可行性和必要性。

  第一,幫助科研人員應對科學大資料規模性帶來的儲存挑戰。超大規模是雲端計算最基本的特點,其底層由數十萬臺乃至數百萬臺的伺服器叢集組成,如Google 雲端計算中心已經具有幾百萬臺伺服器,雲端計算中心通過運維管理、資源管理等機制整合和管理這些龐大的計算機叢集,具備了海量資料儲存能力,能夠有效地應對科學大資料的規模性。此外,雲端計算採取橫向擴張方式,即增加更多的邏輯單元資源,與傳統通過增加單個邏輯單元資源效能的縱向擴充套件方式相比,中國論文網橫向擴充套件方式具有成本低、部署週期短、靈活性強等優勢,能夠更好地應對科學大資料增速的規模性。

  第二,為科研人員提供面向非結構化資料的彈性計算能力,以應對科學大資料的複雜性。MapReduce 作為雲端計算系統中的關鍵資料處理元件,具有兩個核心理念: 一是將問題分而治之,分散式處理是面對海量資料時的首要選擇; 二是移動計算而非移動資料,避免資料傳輸過程中產生的大量通訊開銷。MapReduce 的設計初衷就是面向海量非結構化資料的處理,部署在海量基礎設施之上,使雲端計算具有能夠應對科學大資料規模性和複雜性的強大計算能力。結合虛擬化技術在雲端計算中的成功應用,雲端計算可以根據使用者實際使用情況對資源進行動態分配,及時滿足使用者對計算資源需求的變化,幫助科研人員應對突發情況。

  第三,實現資料的長期儲存和可獲得性,為科學資料共享提供保障。科學資料按照科研活動過程來劃分可以分為原始資料、推導和組合資料、文獻,這些資料是資料密集型科學研究的核心要素,因此必須保證科學資料的完整性、安全性和可獲得性。雲端計算中心具有完善的保障措施,在硬體方面採用了計算節點同構可互換、網路和能源方面的冗餘設計等措施,軟體方面採用了多副本容錯、心跳檢測等技術來保證資料的可獲得性和安全性。而且科學資料由雲端計算提供方統一管理,打破了原有數字資源分散的局面,有利於資源的有效流通、利用和共享,實現科學資料的價值特異性。

  第四,為科研活動建立統一平臺,使所有科研人員可以平等享有各種服務。服務是雲端計算的核心理念,也是雲端計算與傳統的平行計算、分散式計算、網格計算的一個關鍵區別。雲端計算是為了讓使用者能夠平等、透明地使用雲端計算資源,就像使用水電這樣的生活基礎設施一樣便捷。雲端計算通過向用戶提供統一的一體化平臺,將傳統的應用整合概念延伸為服務整合,從而將資料採集服務、資料儲存服務、資料管理服務、資料處理服務、資料參考諮詢服務等資源和服務能力整合到雲端計算系統中。

  4 資料資源雲平臺的構建

  然而云計算技術並不能提供完整和通用的解決方案,為了滿足可重複性、資料共享等需求,需要運用資訊資源管理領域相關技術,才能在更大程度上幫助科研人員應對科學大資料的挑戰。因此,資料資源雲是以雲端計算為基礎,以資料密集型科學研究為主體,以資訊資源管理相關技術為補充,以資料為核心,以科學活動過程為導向,以資料服務為目標的服務平臺。

  4. 1 雲基礎服務平臺

  雲端計算基礎服務平臺是整個資料資源雲的基礎,將物理基礎設施按照雲端計算平臺標準構建而成,為上層服務提供硬體支援和環境保障,科研人員可以充分利用平臺提供的軟硬體設施便捷地構建出大規模應用。其中虛擬化技術是實現科研人員在使用資料資源雲時如同使用本地資源一樣的關鍵技術,它能夠對計算資源、儲存資源、網路資源、科研裝置等進行分配封裝,向用戶提供介面,以虛擬的形式提供給科研人員使用。科研人員可以將他們儲存在本地磁碟的資料轉移到資料資源雲中,交給專業人員進行集中管理,實現資料的長期儲存,還可以通過介面訪問和使用各種大型儀器裝置,平等獲取專案所需資源。

  4. 2 科學資料處理與服務層

  4. 2. 1 科學資料處理

  鑑於資料密集型科學研究的特徵,資料資源雲並非按照傳統的思路進行構建,而是遵循資料驅動的理念,以資料為起點,經過科學資料資源科學資料處理步驟之後才是科研人員審視,因此在科學資料處理方面,資料資源雲採取的流程、技術都有別於傳統的假設驅動型平臺。

  首先,需要對實驗資料、模擬資料、科研人員資訊等原始資料進行資源化。資源化的資料才能在後續的操作中產生更大的價值,通過資料整合消除資料之間的異構性,刪除重複資料,對關聯資料進行邏輯上的封裝,減少後期處理中的資源開銷。為了滿足資料密集型科學研究可重複性的需求,資料世系管理成為科學資料處理過程中必不可少的環節。

  資料世系一般出現在包含多資料集的應用中,用於描述資料的產生並隨著時間推移而演化的整個過程。對於專案實施者來說,資料世系配合分散式檔案系統的容災備份機制,可以在出現故障時,正確、快速地恢復資料。對於資料使用者來說,可以充分了解資料的演化過程,加深對實驗結果的理解,幫助實現科研成果的再現,保證科研活動的可信賴性和可重複性。

  其次,科學資料分析是科研活動中的關鍵環節,主要包括海量語義分析、科研人員需求分析和海量資料探勘。語義技術可以對概念、術語等進行明確的機器編碼定義,並且能夠對它們之間的相互關係進行陳述性和條件性的定義,使跨區域、跨學科的資料能夠被科研人員、學生甚至是普通大眾所理解和使用,是促進資料共享的關鍵。在海量資料中挖掘規律是資料密集型科學研究的重要手段,資料資源雲能為科研人員提供彈性計算能力,MapReduce 在海量資料和非結構化資料處理方面的能力已經得到了各界的認可。而云科學工作流在重複性和流程性工作方面的表現更加優異,可以為科研人員提供視覺化建模工具,使科研人員即使不具有程式設計知識也可以根據實際需要設計雲科學工作流模型,表示科學工作流的任務及任務之間的關係。

  所以,MapReduce 和雲科學工作流的結合可以幫助科研人員應對科學資料的規模性和複雜性。中國論文網此外,為了提高後續服務質量,需要根據科研人員的問題和所處問題環境,利用資料探勘的方法和工具對他們的學習層次、科研經歷、研究方向等方面加以分析,挖掘他們的興趣點和知識需求點,形成隱性需求分析文件,從而為後續的推送服務提供依據。

  最後,科研人員對處理結果的價值進行判斷和審視。在資料密集型科學中,科研人員不再直接參與科學資料的處理和分析,該任務由資料資源雲來完成,他們的任務是在整個科學活動的後期審視和篩選處理分析的結果,將符合條件或者有價值的結果加工處理為知識,釋出到資料資源雲。如果結果不具有實際價值或者未達到預期效果,科研人員則向之前的環節反饋,資料資源雲按照科研人員的反饋資訊通過重新選擇資料、調整雲科學工作流模型等方式來重新進行資料處理,以獲得滿意結果。

  4. 2. 2 資料服務

  鑑於資料密集型科學研究具有資料驅動、可重複性等特徵,僅僅向科研人員提供知識已經無法滿足其資源需求,原始資料、推導和重組資料成為資料密集型科學研究中同等重要甚至更加重要的研究資源。資料資源雲將資料服務作為特色服務,在保留傳統雲服務平臺向用戶提供知識服務專案的同時,又創造性地將原始資料、推導和重組資料新增到服務內容中,力求向用戶提供更為全面的資料服務,滿足科研人員在資料密集型科學研究中的需求。

  知識層面的服務主要包括知識釋出、知識推送和知識交流等環節。資料資源雲能夠自動地將不同科研人員在不同時間、不同地點生產出來的科技知識進行釋出,實現知識的即時公開,縮短知識發現到知識應用之間的時間。知識釋出是知識服務的第一個環節,為了實現知識服務效率的最大化,結合前期的科研人員需求分析結果,將最新知識推送給相關科研人員,加速知識流動速率,提高科研人員的科學生產力。資料資源雲還為不同學科的科研人員提供交流平臺,打破不同學科之間的壁壘。

  同時,為從事具體學科研究的科研人員與資訊科研人員提供了一種科研場景,實現特定領域科研需求與資訊科技之間的大量互動,有助於相應領域語義語言、工具和應用系統的改進和完善。然而,在資料密集型科學研究中,知識與科研過程中產生的推導和重組資料與原始資料相比只是冰山一角,資料是科學研究的基礎,向用戶提供資料服務,可以提高其工作效率,加速知識創新,主要包括資料共享、資料溯源和資料視覺化。

  首先,資料的長期儲存和可獲取性保證了資料共享的可行性,語義分析、資料世系等技術保證了資料共享的價值性。資料資源雲是一個開放合作的平臺,科研人員可以按需搜尋、理解以及利用自己需要的資料資源,實現更大規模的資料流動,實現科學資料價值增值。其次,資料資源雲可以向用戶提供資料溯源服務。資料資源雲不僅可以釋出研究成果等知識,還可以釋出產生知識整個過程的源流資訊和資料,即在提供知識的同時,還可以提供該知識涉及到的支撐資料以及中間過程產生的整合資訊、推導和重組資料,以服務流的形式出現,加深對資料的理解和認識。

  此外,資料視覺化將海量資料通過平面或者立體圖形的方式呈獻給科研人員,根據前期的資料資源化和分析處理結果,對視覺化圖形介面進行優化,既可以向用戶提供資料的二維、三維的視覺化效果,還可以新增時間維,向用戶提供四維的資料視覺化介面,即資料隨著時間的變化而變化,產生動態感,實現過程視覺化。此外,資料資源雲在實現知識和資料同時線上的基礎上,通過資料的生命週期管理,可將資料和知識同時聯絡在一起且可以互動操作。這樣使用者在檢視某個研究成果時可以直接檢視其原始資料,甚至是重做其分析,同樣也可以從資料追溯到使用該資料的科研專案及其研究結果,提高科研活動的效率。

  5 結束語

  資料密集型科學研究是在科學大資料背景下產生的,傳統的資料管理技術無法有效地應對科學大資料,雲端計算技術成為滿足現代科研人員科研需求的必然選擇。本文構建的資料資源雲以雲端計算為主要框架,並結合了資訊資源管理的相關技術,中國論文網是面向資料密集型科學研究的資料管理和服務平臺,能夠幫助科研人員解決資料密集型科學研究中的科學大資料問題,有利於促進資料共享和知識創新。但是資料資源雲中仍然存在一些不足之處,比如如何高效整合不同型別的資料來源、更好地保護資料安全等問題,並且本文沒有對資料共享、隱私保護等方面的政策制定問題進行探討,這些都有待在後續的研究中繼續完善。