探析Hadoop 技術在鐵路資訊化建設中的作用論文

探析Hadoop 技術在鐵路資訊化建設中的作用論文

  前言

  我國鐵路資訊化建設經過幾十年的發展,已經形成多個較為未穩定的系統,如辦公自動化系統(OA)、運輸生產計劃系統(FOMS)、鐵路運輸管理資訊系統(TIMS)、鐵路列車排程指揮系統(TDCS)、鐵路車輛管理系統(CMIS)、鐵路客票發售和預定系統(PMIS)、機務、工務、電務等管理資訊系統以及中國鐵路總公司站和12306鐵路客戶服務中心等,提高了鐵路管理和決策的智慧化程度,但在鐵路資訊化建設之初,由於缺乏統籌規劃,各資訊系統的建設通常以業務部門為界限,各個系統之間的業務協同及資料互動處於割裂狀態,隨著業務領域的不斷拓展,由於各時期所採用的開發技術互不相同,硬體及平臺的異構性等原因暴露出鐵路在資訊化建設方面存在的一些問題:

  (1)由於各個業務資訊系統是獨立建設的,每個都自成體系,導致各個系統間包括系統內的資訊資源不能實現有效整合。系統軟體專用,資料庫獨立,資訊難以共享,綜合利用難度巨大。

  (2)由於缺乏前期規劃,各業務資訊系統的協議、編碼和介面規範不統一,難以實現資訊共享和交換,對突發事件難以快速響應。

  (3)各業務系統的作業系統存在非常大的異構性,作業系統有UNIX、Windows 等,也有大型機作業系統。

  (4)資料庫管理系統也存在多種不同,如SQLServer、DB2、Oracle等,各部門之間資料資源共享很難實現。

  1 Hadoop 分散式系統

  隨著資料容量、資料維度的爆炸式增長,傳統模式的資料處理方式已經難以滿足資料分析、業務處理等在處理效率、響應速度等方面的要求,在這種情況下,大資料與雲計算的概念便應運而生。在鐵路領域,全國鐵路資料同樣滿足了容量巨大、維度複雜的特點,同時鐵路行業對業務響應的要求也滿足了價值豐富、響應快速的特性,這些均說明大資料與雲計算的方式在該領域同樣適用。但是當前我國鐵路還停留在傳統的資料儲存形式,系統設計與實現也停留在傳統模式中,因此將大資料、雲計算等先進的技術應用於鐵路運輸領域是十分必要的。

  Hadoop 是一個能夠對大量資料進行分散式處理的軟體框架,能夠使使用者在不瞭解分散式底層的情況下,開發分散式程式,充分利用叢集的威力高速運算與儲存資料。與常規系統相比,Hadoop 採用並行執行機制,大大提高了運算效率。並且Hadoop 在檢驗應用層,處理異常錯誤等方面充分考慮了“硬體故障是常態而非異態”的理念,利用叢集實現了高容錯率的特性。

  透過Hadoop 叢集檢視不難發現,在Hadoop 架構中,存在大量的資料節點,每個資料節點都被管理節點按照某種規則分配一定的任務。在這種情況下,所有節點(或者所有活躍節點)進行並行運算,用以解決複雜的大資料問題。我國鐵路有6000 多個鐵路車站,且在鐵路運輸中的作用各不相同,這就造成了鐵路資料儲存、業務處理方面存在操作困難、反應遲緩等問題。以車站為單位作為資料節點,或按照某種方式將車站進行分類形成節點區域恰恰能夠滿足Hadoop 架構中的資料節點(DateNode)要求。同時,我國鐵路行業現行管理機制較為集中,在中國鐵路總公司層面建立相應的名位元組點(NameNode)能夠保證核心部門對全國鐵路運輸狀況進行統籌規劃與管理。

  從軟體資源、硬體資源的角度來看,Hadoop 大資料框架有兩個主要特徵:

  (1)異構性

  a.Hadoop 所依賴的網路環境可以是異構的。目前對Hadoop 叢集的應用主要集中在區域網內部。各種型別的區域網,執行不同的協議,這些不同協議的子網互聯成廣域網。

  b. 組成Hadoop 叢集的伺服器硬體資源是異構的。分散式系統由不同硬體型別的伺服器組成,導致儲存和運算資源分配的不同。

  c.服務節點所處的.軟體環境是異構的。伺服器的作業系統可以執行Windows、Unix、Linux 等不同OS。同時,服務所使用的程式語言也可以不同,服務間透過協議介面進行通

  (2)服務節點共享資源

  資源共享是形成分散式系統的主要動力。在Hadoop 大資料叢集中,資料資源分散儲存於不同物理伺服器的磁碟上。在物理檢視上,資料是分散儲存的,而在邏輯檢視上,資料則是全域性的統一的。這就是說,資料“分散式儲存”這一特性對使用者來說是透明的。

  2 Hadoop 分散式系統的安全性

  鐵路應用Hadoop 技術的存在著一定的安全風險。首先,系統本身存在如網路攻擊、系統漏洞等安全風險;其次,客戶的隱私資料面臨洩露風險。鐵路企業既能夠獲取旅客和貨主的身份證號碼、聯絡方式等基礎資訊,又可以透過資料探勘出旅客和貨主深層次的運輸習慣等資訊。

  針對上述問題,首先應建立嚴格的資料儲存機制,並對資料儲存選擇加密效能比較高的加密演算法進行加密,同時採用資料安全隔離技術,如物理隔離、虛擬化和Multi-tenancy 等方式;其次建立嚴格的資料訪問控制機制,使用技術手段依據不同許可權做好敏感資料如客戶的名字、身份證號、聯絡方式等的消隱工作;最後做好資料備份與恢復工作,實現快速的虛擬機器恢復,支援檔案級完整與增量備份。

  3 結束語

  綜上所述,Hadoop 技術實現了全路資訊的資源共享,降低了投資成本和維護成本;各部門可根據自身發展需要,實現資源動態配置,有效降低投資成本,簡化內部管理;各業務部門實現資訊高度共享,既提高了生產效率,又增加了部門參與生產與決策的積極性。

最近訪問