搜尋引擎技術論文

  搜尋引擎是伴隨網際網路的發展而產生和發展的,網際網路已成為人們學習、工作和生活中不可缺少的平臺,幾乎每個人上網都會使用搜索引擎。下面是小編整理的,希望你能從中得到感悟!

  篇一

  中文智慧搜尋引擎技術研究

  引言

  隨著網際網路的快速發展,網路資訊量不斷增加。面對數量龐大,種類多樣的資訊,一般搜尋引擎無法為使用者提供準確的檢索結果,開發新的搜尋引擎勢在必行。智慧搜尋引擎不僅要提高資訊檢索準確性和全面性,還要滿足使用者個性等搜尋資訊需求。搜尋引擎與智慧代理相結合的智慧化搜尋引擎技術能夠比較好的實現這一目標。

  1 搜尋引擎

  1.1 搜尋引擎基本原理

  搜尋引擎由資訊蒐集系統、檔案處理系統、索引系統和檢索系統組成。

  資訊蒐集系統通過網頁抓取程式***spider***在網路中順著網頁的超連結抓取網頁,蒐集文件的基本資訊並下載至搜尋引擎本地,然後將文件和其基本資訊分開,並儲存到原始文件資料庫和文件資訊資料庫中。

  檔案處理系統負責將需要索引的檔案轉換成具有統一編碼格式的文字檔案。資訊蒐集系統從網路上下載檔案,儲存到本地供索引器索引。檔案文字格式種類繁多,如純文字檔案、html格式檔案、word檔案、pdf文件等,文字格式相同的檔案,字元編碼方式也不盡相同。檔案的異構性要求檔案處理系統將各種不同格式的類文字檔案轉換成純文字檔案。

  索引系統將程式收集到的檔案進行處理,建立索引庫和索引。相關處理還包括去除重複網頁、分詞***中文***、判斷網頁型別、分析超連結,計算網頁的重要度、豐富度等。

  檢索系統通過使用者輸入的關鍵詞從索引資料庫中找到與關鍵詞匹配的網頁,並按照文件得分的高低依次顯示在使用者瀏覽器中。

  1.2 傳統搜尋引擎的侷限性

  面對浩如煙海的網路資訊,使用者想要通過一般搜尋引擎獲取準確和全面的資訊較困難。其侷限性表現在:

  ***1***資訊檢索方式單一。搜尋引擎一般提供網站分類查詢和關鍵詞全文檢索兩種方式,這兩種方法均容易造成資訊丟失,不能全面檢索使用者需要的資訊;不能對使用者輸入的關鍵詞進行詞意分析和詞意擴充套件。如今資訊的多樣化要求搜尋引擎不僅要檢索出文檔,還要檢索需要的圖片、視訊、音訊等。

  ***2***不能個性化制定。傳統搜尋引擎提供相同的介面和檢索策略,不能提供使用者資訊定製,不同使用者輸入相同的查詢條件返回的結果相同。不同領域的使用者對同一個關鍵詞的搜尋返回的檢索結果應該不一樣,智慧搜尋引擎能根據使用者專業背景和網頁瀏覽歷史檢索出使用者需求的資訊。

  ***3***對資訊的標引深度不夠。搜尋引擎檢索的結果往往只提供線形的網址和包括關鍵詞的網頁資訊,或者返回過多的無用資訊,特別是對特定文獻資料庫的檢索更顯得無能為力[1]。

  ***4***資訊更新能力低。搜尋引擎資訊收集和查詢是兩個分離的過程,缺少有機結合。網路資訊資源呈分散式、動態、快速增長,搜尋引擎的集中化架構不能跟上文件的擴張速度,也就不能有規律地及時更新資料庫,使用者檢索到的結果可能不是最新資訊。

  2 智慧搜尋引擎

  智慧搜尋引擎應擺脫傳統搜尋引擎的侷限性,更加智慧化,更具主動性,提供多元化的檢索方式,為使用者提供個性化制定,檢索出滿足使用者個性需求。

  2.1 智慧搜尋引擎主要特徵

  ***1***智慧性。智慧化搜尋引擎網路蜘蛛通過自主啟發式學習選擇最有效的搜尋策略和最佳時機,在特定站點或者整個因特網蒐集和整理資訊。智慧化搜尋引擎可以將多個引擎的搜尋結果進行整合,作為一個整體存放到資料庫中。

  ***2***個性化。智慧化搜尋引擎提供個性化制定服務,使用者註冊基本資訊,如年齡、專業背景、工作方向等,通過分析使用者基本資訊及平時瀏覽網頁的記錄制定出使用者興趣模組,檢索出來的資訊和使用者興趣相關,不同興趣的使用者輸入同一個關鍵詞返回的結果可能不同。

  ***3***多元化。智慧化搜尋引擎有多元化的檢索方式,提供基於大眾的搜尋分析,基於自然語言、關鍵詞、概念和上下文,通過相關反饋技術檢索可選擇查詢路徑。對關鍵詞進行詞意擴充套件和詞意派生,實現準確的分詞,從而更加準確地把握使用者的搜尋需求。

  ***4***協作性。智慧化搜尋引擎能通過各種通訊協議和其它智慧代理進行資訊交流 ,並可以相互協調共同完成複雜任務[2]。

  2.2 智慧搜尋引擎技術

  要實現智慧化搜尋引擎,當前要特別加強對漢語分詞技術、短語識別技術、同義詞處理技術、知識庫與推理機應有技術和人機對話智慧技術的研究。

  智慧化搜尋引擎對語義的理解主要體現在以下兩個方面:一是對使用者輸入的關鍵詞的理解;二是對網頁資訊內容的理解。傳統搜尋引擎對關鍵字的識別是較機械的匹配方式,容易造成資訊不準確和丟失。智慧化搜尋引擎可對使用者輸入的關鍵詞進行語義理解,並返回使用者想要的資訊。自然語言語義理解的技術主要有4種:①漢語分詞技術。中國文化博大精深,語句是由各種詞語按照一定的語序組成的。漢語對詞語的劃分相對英文來說複雜得多,漢語詞語可以是由一個字或者多個字組成。漢語分詞技術主要有基於字典、詞庫匹配的分詞、基於詞頻度和基於知識理解的分詞,通過這些方法準確把握使用者輸入關鍵詞的含義;②短語識別技術。短語是由詞語所構成的,是句子中基本的識別單位,在漢語句法分析和語義分析中具有重大意義。使用者搜尋有時需要對關鍵詞加一定的修飾詞,例如關鍵字為“搜尋”,加入修飾詞可為“個性化的搜尋”,前者就是詞語,後者為短語。需要通過短語識別技術對關鍵詞進行正確的分詞,從而準確理解使用者的查詢需求;③同義詞處理技術。包括基於詞彙字面相似度演算法、基於詞素的語義相似度演算法以及基於《同義詞詞林》、《知網》等語義詞典的語義相似度演算法。主要依靠人工方式構造同義詞庫等輔助詞庫,利用搜索引擎主動聯想技術實現對同義詞的聯想,準確把握使用者關鍵詞語義;④知識庫構建技術。知識庫包含各種詞典,詞典按其功能不同可分成定義詞詞典、同名詞詞典、派生詞詞典等,詞典按詞的確定性又可分成系統詞典與使用者詞典。這些詞典構成了一個龐大而複雜的知識庫。

  人機介面智慧化主要有以下技術: ①人機互動介面技術。智慧化搜尋引擎介面具有智慧化、多元化、個性化等特點。其技術主要包括搜尋請求提交技術、搜尋結果表現技術、搜尋嚮導技術、搜尋行為分析技術。其中,搜尋行為分析技術是個性化搜尋的關鍵技術,它通過分析使用者的瀏覽記錄和搜尋習慣來提高搜尋效率;②關聯式綜合搜尋。將圖片、新聞等各種有關聯的資訊呈現在同一介面上,使用者搜尋時只需查詢一次,即可在同一介面得到各種有關聯的查詢結果。

  隨著雲技術的出現,智慧搜尋引擎將全球伺服器當作一個雲系統,從而極大提升從資料庫中提取資訊速度。雲技術的成熟能夠有效提升搜尋引擎的演算法速度,提高智慧搜尋引擎的執行速度[3]。

  3 結語

  智慧化搜尋引擎技術的發展首先應該解決目前搜尋引擎的侷限性,然後再新增智慧搜尋。智慧搜尋引擎應該在以下幾個方面尋求發展:提供友好的查詢介面;多元化的檢索方式;強大的自然語言理解技術;豐富的知識庫;考慮按時間、地域順序輸出檢索結果,以便使用者選擇所需的最新資訊;查詢結果文摘動態生成;結果自動綜合分析和評分[4]。

  隨著搜尋引擎技術的發展,智慧化搜尋引擎變得更多元化、親切、個性化,廣泛融入進人們的生活,為使用者提供更準確、符合需求的搜尋資訊。

點選下頁還有更多>>>