Jack博客

倒排索引源于实际应用中需要根据属性查找记录。这种索引表中的每一项都包括一个属性值该属性值的各记录的地址。由于是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。

什么是倒排索引?倒排的概念是什么?

倒排列表概念

倒排列表用来记录有哪些文档包含了某个单词。一般在文档集合里有很多文档包含某个单词,每个文档会记录文档编号(DocID),单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息,这样与一个文档相关的信息称做倒排索引项(Posting),包含这个单词的一系列倒排索引项形成了列表结构,这就是某个单词对应的倒排列表。右图是倒排列表的示意图,在文档集合中出现过的所有单词及其对应的倒排列表组成了倒排索引。

在实际的搜索引擎系统中,并不存储倒排索引项中的实际文档编号,而是代之以文档编号差值(D-Gap)。文档编号差值是倒排列表中相邻的两个倒排索引项文档编号的差值,一般在索引构建过程中,可以保证倒排列表中后面出现的文档编号大于之前出现的文档编号,所以文档编号差值总是大于0的整数。如图2所示的例子中,原始的3个文档编号分别是187、196和199,通过编号差值计算,在实际存储的时候就转化成了:187、9、3。

之所以要对文档编号进行差值计算,主要原因是为了更好地对数据进行压缩,原始文档编号一般都是大数值,通过差值计算,就有效地将大数值转换为了小数值,而这有助于增加数据的压缩率。

什么是倒排索引?倒排的概念是什么?

倒排索引概念

倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。

倒排索引有两种不同的反向索引形式:

一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。

一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。

后者的形式提供了更多的兼容性(比如短语搜索),但是需要更多的时间和空间来创建。

现代搜索引擎的索引都是基于倒排索引。相比“签名文件”、“后缀树”等索引结构,“倒排索引”是实现单词到文档映射关系的最佳实现方式和最有效的索引结构。

本文标签: 倒排索引  

温馨提示:本文是作者 爱站云 的原创文章,转载请注明出处和附带本文链接!

网友点评

本文暂无评论 - 欢迎您

您好,请先 QQ登录 后进行评论,如您已登录账户,请点击 刷新页面 再进行评论!

⎛⎝爱站云⎠⎞

⎛⎝爱站云⎠⎞

AiZhanCloud.Com

爱站云专注ZBLOG建站领域,分享个人所得技术,用心做好个人博客,喜欢的小伙伴就关注我吧!
«    2023年9月    »
123
45678910
11121314151617
18192021222324
252627282930
最新留言
文章归档
标签列表

Powered By Z-BlogPHP Theme By Jack主题

Sitemap | TXT地图 | HTML地图后花园

免责声明:本博客所展示内容均为互联网技术教程分享,如有侵权等违规信息请联系QQ客服进行删除处理,谢谢配合!

切换白天模式 切换夜间模式 白天返回顶部 夜间返回顶部