Full-text retrieval fundamental (1)

Posted on 2017-01-29 | Edited on 2018-12-16 | In search

Introduce

结构化数据: 指有规律结构固定格式长度的数据, 如数据库
非结构化数据: 指无规律不定长不固定格式的数据, 如邮件
半结构化数据: XML/HTML等, 可按需求以不同形式处理

非结构化数据又一种叫法叫全文数据。

全文检索大体分两个过程，索引创建(Indexing)和搜索索引(Search)。

索引创建：将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。
搜索索引：就是得到用户的查询请求，搜索创建的索引，然后返回结果的过程。

全文检索就存在三个重要问题：

索引里面究竟存些什么？(Index)
如何创建索引？(Indexing)
如何对索引进行搜索？(Search)

What fuck in these Index

存的是 符号表 通俗的说是个映射表
从字符串到文件的映射是文件到字符串映射的反向过程，于是保存这种信息的索引称为 反向索引 。
左边的一系列为词典也叫Key
右边的一系列为倒排表也叫Value

建索引的好处是一次建立, 多次使用, 如果建索引的频率过于频繁反而会拖累整体性能