論文:大資料分析與應用問題研究

論文:大資料分析與應用問題研究

  【摘 要】大資料具有規模大、種類多、生成速度快、價值巨大但密度低的特點。大資料應用就是利用資料分析的方法,從大資料中挖掘有效資訊,為使用者提供輔助決策,實現大資料價值的過程。主要介紹了大資料定義,分析方法、應用領域等相關問題。

  【關鍵詞】大資料;資料分析;應用領域

  1.大資料的定義

  美國國家標準和技術研究院對大資料做出了定義:“大資料是指其資料量、採集速度,或資料表示限制了使用傳統關係型方法進行有效分析的能力,或需要使用重要的水平縮放技術來實現高效處理的資料。”我們認為大資料價值鏈可分為:資料生成、資料採集、資料儲存以及資料分析。資料分析是大資料價值鏈的最後也是最重要的階段,是大資料價值的實現,是大資料應用的基礎,其目的在於提取有用的值,提供論斷建議或支援決策,透過對不同領域資料集的分析可能會產生不同級別的潛在價值。

  雖然這些傳統的分析方法已經被應用於大資料領域,但是它們在處理規模較大的資料集合時,效率無法達到使用者預期,且難以處理複雜的資料,如非結構化資料。因此,出現了許多專門針對大資料的整合、管理及分析的技術和方法。

  2.大資料分析方法

  布隆過濾器:其實質是一個位數組和一系列HASH函式。布隆過濾器的原理是利用位陣列儲存資料的HASH值而不是資料本身,其本質是利用HASH函式對資料進行有失真壓縮儲存的點陣圖索引。其優點是具有較高的空間效率和查詢速率,缺點是有一定的誤識別率和刪除困難。布隆過濾器適用於允許低誤識別率的大資料場合。

  HASH法,其本質是將資料轉化為長度更短的定長的數值或索引值的方法。這種方法的優點是具有快速的讀寫和查詢速度,缺點是難以找到一個良好的HASH函式。

  索引:無論是在管理結構化資料的傳統關係資料庫,還是管理半結構化和非結構化資料的`技術中,索引都是一個減少磁碟讀寫開銷、提高增刪改查速率的有效方法。索引的缺陷在於需要額外的開銷儲存索引檔案,且需要根據資料的更新而動態維護。

  TRIE樹:又稱為字典樹,是HASH樹的變種形式,多被用於快速檢索,和詞頻統計。TRIE樹的思想是利用字串的公共字首,最大限度地減少字串的比較,提高查詢效率。

  平行計算:相對於傳統的序列計算,平行計算是指同時使用多個計算資源完成運算。其基本思想是將問題進行分解,由若干個獨立的處理器完成各自的任務,以達到協同處理的目的。

  傳統資料分析方法,大多數都是透過對原始資料集進行抽樣或者過濾,然後對資料樣本進行分析,尋找特徵和規律,其最大的特點是透過複雜的演算法從有限的樣本空間中獲取儘可能多的資訊。隨著計算能力和儲存能力的提升,大資料分析方法與傳統分析方法的最大區別在於分析的物件是全體資料,而不是資料樣本,其最大的特點在於不追求演算法的複雜性和精確性,而追求可以高效地對整個資料集的分析。總之,傳統資料方法力求透過複雜演算法從有限的資料集中獲取資訊,其更加追求準確性;大資料分析方法則是透過高效的演算法、模式,對全體資料進行分析。

  3.大資料應用領域

  4.結束語

  大資料引發思維變革。在大資料時代,資料的收集、獲取和分析都更加快捷,這些海量的資料將對我們的思考方式產生深遠的影響。分析資料時要儘可能地利用所有資料,而不只是分析少量的樣本資料。相比於精確的資料,我們更樂於接受紛繁複雜的資料。我們應該更為關注事物之間的相關關係,而不是探索因果關係。大資料的簡單演算法比小資料的複雜演算法更為有效。大資料的分析結果將減少決策中的草率和主觀因素,資料科學家將取代“專家”。 [科]

  【參考文獻】

  [2]黃曉斌,鍾輝新.基於大資料的企業競爭情報系統模型構建[J].情報雜誌,2013(03).

最近訪問