什麼是全文檢索全文檢索的簡介

  全文檢索是一種將檔案中所有文字與檢索項匹配的文字資料檢索方法。那麼你對全文檢索瞭解多少呢?以下是由小編整理關於什麼是全文檢索的內容,希望大家喜歡!

  全文檢索的簡介

  基本介紹

  全文檢索是將儲存於資料庫中整本書、整篇文章中的任意內容資訊查找出來的檢索。它可以根據需要獲得全文中有關章、節、段、句、詞等資訊,也就是說類似於給整本書的每個字詞新增一個標籤,也可以進行各種統計和分析。例如,它可以很快的回答“《紅樓夢》一書中“林黛玉”一共出現多少次?”的問題。

  與之相關的議題

  語根處理 ***stemming***

  符素解析器 ***token parser*** 1-gram, 2-gram , n-gram

  斷詞/分詞 word segmentation

  倒排索引 inverted index

  演算法、搜尋策略之模型

  布林式 boolean

  統計模型 Probabilistic model

  向量空間模型 vector base model

  隱性語義模型 Latent semantic model

  系統檢索的介紹

  評量之準則

  判斷檢索效果的兩個指標:

  查全率=被檢出相關資訊量/相關資訊總量***%***

  查準率=被檢出相關資訊量/被檢出資訊總量***%***

  開放原始碼之全文檢索系統

  Apache Solr

  BaseX

  Clusterpoint Server***freeware licence for a single-server***

  DataparkSearch

  Ferret

  Ht-//Dig

  Hyper Estraier

  KinoSearch

  Lemur/Indri

  Lucene

  mnoGoSearch

  Sphinx

  Swish-e

  Xapian

  ElasticSearch

  議題優化的概念

  和中文有關的議題

  斷詞***分詞***

  語法解析

  古籍議題

  多語言混合

  優化

  剔除字***Stopwords***

  詞性標註

  權威檔***authority file***

  知識體系,本體論***ontology***

  超連結分析***page rank***技術

  歷史及未來之趨勢

  自由語句搜尋

  基於自然語言的分詞

全文檢索的簡介