衡量信息检索效率的指标有查全率、查准率、漏检率、误检率、检索速度。
查全率(Recall Ratio)是指从数据库内检出的相关的信息量与总量的比率。查全率绝对值很难计算,只能根据数据库内容、数量来估算。
查准率(Precision)(精度)是衡量某一检索系统的信号噪声比的一种指标,即检出的相关文献与检出的全部文献的百分比。
漏检率可解释为漏检比率和漏检概率。漏检比率是指检验人员在检验事件中未发现的不合格品占据当次检验批次总数量的百分比漏检概率一般是指在使用某种抽样方式进行检验时,可能发生的未抽取到不合格品、抽取到不合格品占抽样数量比例与不合格品在整批产品实际比例不一致时的机率。
误检率是检出不相关文件与检出文件总数之比,可用下式表示:误检率=检出不相关文献数量/检出文献数量*100%。
检索速度简单地来说就是人们检索相关信息的的快慢(时间消耗)。检索在计算机的应用中无所不在。检索速度是衡量一个检索技术最重要的指标之一。检索速度主要受检索算法和硬件影响。
信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。
由信息检索原理可知,信息的存储是实现信息检索的基础。这里要存储的信息不仅包括原始文档数据,还包括图片、视频和音频等,首先要将这些原始信息进行计算机语言的转换,并将其存储在数据库中,否则无法进行机器识别。待用户根据意图输入查询请求后,检索系统根据用户的查询请求在数据库中搜索与查询相关的信息,通过一定的匹配机制计算出信息的相似度大小,并按从大到小的顺序将信息转换输出。