Full-text retrieval fundamental (1)

Introduce

  • 结构化数据: 指有规律结构固定格式长度的数据, 如数据库
  • 非结构化数据: 指无规律不定长不固定格式的数据, 如邮件
  • 半结构化数据: XML/HTML等, 可按需求以不同形式处理

非结构化数据又一种叫法叫全文数据。

全文检索大体分两个过程,索引创建(Indexing)和搜索索引(Search)。

  • 索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。
  • 搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。

全文检索就存在三个重要问题:

  1. 索引里面究竟存些什么?(Index)
  2. 如何创建索引?(Indexing)
  3. 如何对索引进行搜索?(Search)

What fuck in these Index

  • 存的是 符号表 通俗的说是个映射表
  • 从字符串到文件的映射是文件到字符串映射的反向过程,于是保存这种信息的索引称为 反向索引
  • 左边的一系列为词典也叫Key
  • 右边的一系列为倒排表也叫Value

建索引的好处是一次建立, 多次使用, 如果建索引的频率过于频繁反而会拖累整体性能