大資料在選題策劃中的應用策劃書

　　據全球權威的IT研究與諮詢公司Gartner於20xx年9月釋出的大資料分析報告顯示，全球範圍內的媒體和通訊行業以及銀行金融業站在了大資料投資的最前沿。相比之下，出版業作為文化產業，承載著文化傳播與文化傳承的社會功能，然而在利用大資料洞悉讀者需求上表現欠佳，所以，如何藉助不斷增長的大資料進行資訊和知識的蒐集、組織和傳播，成為出版企業亟待解決的問題。

　　出版企業可利用的大資料的具體形式

　　對於“大資料”（Big Data），研究機構Gartner給出了這樣的定義：“大資料”是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力的海量、高增長率和多樣化的資訊資產。舉個例子，1分鐘的時間內，新浪傳送2萬條微博，蘋果下載4.7萬次應用，淘寶賣出6萬件商品，人人網發生30萬次訪問，百度產生90萬次搜尋查詢。由此可見，資料規模的急劇膨脹，各行業累積的資料量越來越巨大，資料型別也越來越多、越來越複雜，已經超越了傳統資料管理系統、處理模式的能力範圍，於是“大資料”這樣一個“無窮大”的概念才會應運而生。大資料的特點可以被歸納為：數量巨大、型別多樣、實時快速、價值高但密度低。正式基於這樣的特點，出版企業可以結合產業的優勢對大資料進行充分的挖掘和利用。

　　（1）Web文字挖掘。大資料的核心是挖掘龐大資料庫的獨有價值。面對因為網路的飛速發展而帶來的資訊膨脹，尤其是以半結構化或非結構化為主的文字資訊，人們迫切需要研究出方便有效的工具去從中提取符合需要的“簡潔的”“精煉的”“可理解的”知識，Web文字挖掘技術由此產生。而利用Web文字挖掘發現大資料的價值也成為可能。

　　文字挖掘是近幾年來資料探勘領域的一個新興分支。文字挖掘也稱為文字資料庫中的知識發現，是從大量文字的集合或語料庫中抽取事先未知的“可理解的”有潛在實用價值的模式和知識。而隨著網路技術的飛速發展，特別是Web應用的不斷普及，網路資訊急劇增加，資訊型別也越來越複雜。如何從這些大量自由、非結構化或半結構化的資訊中獲得所需求的知識，傳統的資料探勘技術已不適用，解決問題的一個途徑就是將傳統的文字挖掘技術和Web綜合起來，進行Web文字挖掘。Web文字挖掘就是以全球資訊網上的資料為分析物件，以抽取有用知識為目標，把傳統文字挖掘技術和全球資訊網相結合的研究技術。

　　（2）出版企業可利用的Web文字資料。網路上圖書評論的數量極為龐大，有些暢銷書可能包含成千上萬的評論，藉助Web文字挖掘技術能自動地對圖書評論進行分析和處理，挖掘出有用的資訊。透過對圖書線上評論的挖掘管理，出版企業可以用較低的成本收集、整理讀者對於各類圖書的關注興趣和欣賞特點，同時也可以獲得暢銷圖書迎合市場需求的關鍵因素。在此過程中，企業獲得了知識資源，同時培育了持續的競爭優勢。因此，可以將各大圖書銷售網站的讀者評論作為出版企業可利用的大資料分析的首要來源。

　　在企業的銷售網站或其藉助的其他網際網路銷售平臺上，透過建立線上評論客戶知識管理系統，收集、整理和分析客戶評論，將客戶評論轉化為企業的知識，從而為企業價值鏈的各個環節提供客戶的資訊和知識的共享，並將客戶知識延伸到企業的決策制定中，為企業有效開展客戶知識管理提供有效的解決方案。同時，基於評論挖掘構建的客戶知識管理系統，具有與使用者需求同步的快速響應能力，即具有將使用者需求迅速轉向圖書的策劃和印製的能力。這就使得出版企業以響應市場需求為中心，實時挖掘客戶知識，提高最佳化客戶關係的決策能力，準確及時地向客戶提供所需的圖書產品。

　　大資料在選題策劃中的應用

　　資訊收集和預處理

　　相對於傳統資料庫中的完全結構化的資料而言，Web資料的最大特點就是半結構化。從評論挖掘的角度來看，Web上的網頁包含的資訊並不都是有用的，體現網頁的主題資訊的是“主題”內容；與主題內容無關的.導航條、廣告資訊等內容則是“噪音”內容。網頁淨化過程就是去掉包含噪音內容的內容塊，只保留網頁中包含主題內容的內容塊。因此在評論挖掘的資料預處理階段，首要任務就是完成Web網頁淨化過程，去除網頁內容中的音訊、影片、圖片等其他非文字資訊，還有各種網頁本身的標記語言，最後僅剩下網頁中的文字評論內容，從Web頁面中提取出文字評論資訊。

　　評論頁面的下載可以採用聚焦爬蟲技術，所謂聚焦爬蟲，是能實現自動下載網頁功能的程式，它根據指定的抓取目標，有選擇地獲取全球資訊網上的網頁及其相關的連結，抓取所需要的資訊。透過對Web頁面的語義結構進行描述，產生適合計算機自動處理的描述檔案和指令檔案，實現持續地、大批次地提取Web資訊。

　　圖書特徵提取和情感分析

　　評論內容是中文語句，要從中提取詞語，進而獲得讀者關注的圖書特徵，首先需藉助中文分詞技術。中文分詞技術屬於自然語言處理技術領域，它透過詞性標註將一個漢字序列切分成相互獨立的詞，文字挖掘的基礎是中文分詞，一段中文要使得計算機自動識別語句語義，必須透過準確的中文分詞處理。在中文分詞和詞性標註的基礎上，使用漢語分詞軟體的關鍵詞提取功能提取評論內容中的關鍵詞，按照權重排序找出高頻名詞或名詞性短語作為候選詞彙，透過人工定義和篩選，得到讀者評論中的圖書屬性特徵詞集合。

　　挖掘出的圖書的讀者關注特徵，是讀者圖書評論中最集中和最熱點的特徵，但每項特徵具體的評價傾向性還需進一步分析和處理，即透過提取讀者對每項關注特徵所持有的褒貶態度，分析其評價情感傾向性。情感詞可以細分為情感特徵詞彙和情感強度詞彙。客戶評論中的情感特徵詞是客戶表明自身觀點和態度的詞彙，而情感強度詞是指評論中用於加強語氣的程度副詞，如“最”“非常”和一些否定詞。這些詞的修飾會加強或減弱，甚至改變原來詞彙的情感傾向，在判斷評論的情感時要考慮這些強度詞語的作用。