杨裕民
2023-02-02
更新时间:2023-02-03 14:05:15作者:百科
[拼音]:qingbao jiansuo suanfa
[外文]:information retrieval algorithm
用电子计算机查找情报的方法。同其他的计算机算法一样,这些方法的描述应具备有穷、确定、可终止等性质。
情报检索算法的构造与选择直接依赖于情报在计算机中的存储与提问的表达方法。由于现代的计算机还不能直接有效地处理用自然语言表达的提问,所以,常用布尔逻辑式(以及扩充型布尔逻辑式)、模糊语言 (包括向量语言) 、概率方法和受限的自然语言等来表示提问,这样就必然产生了各种相应的提问加工方法,以及有关的估算情报与提问匹配程度的相应名称的算法。因为情报查找匹配方法的选择在很大程度上还取决于文档的结构,所以,下述查找算法为人们所常用:
对无序的顺排文档常用顺序查找算法。特别在集中处理一批提问时,可用“表展开”加工提问与“一次扫描”算法实现快速查找。对已聚类的顺排档,可用“聚类查找”或“概率查找”等算法。对有序的顺排档,则常用“二分查找”、“估算入口法查找”或“B树查找”等算法。对用计划地址方法(如杂凑法)存储的情报则采用“计算法查找”。
为了实现快速响应与追溯检索,现代情报数据库中往往不仅存储代表原始情报的顺排档,而且还存储情报的辅关键词(如作者、主题次、分类号等)索引,即所谓倒排档。对倒排档,通常采用“逆波兰展开法”处理提问式,并使用对倒排档进行集合运算的所谓“倒排检索”算法。在倒排检索缩小了检索范围后,有些情报检索系统还允许对已粗检出的内容再进行顺序检索,人们又常称之为二次检索算法。
在日本和中国,顺序检索中的表展开法、倒排检索分别以菊池敏典法和福岛方式命名。中国学者对这两种方法都进行了改进和完善。在对菊池敏典表展开法改进的基础上发展起来的“广播技术”与“一次扫描”等检索算法大大提高了定题情报检索的效率。根据中文的特点,无标引、按字标引、自动抽词标引、混合检索等检索算法的研究正在中国广泛展开,并取得了一定的进展。对结合知识库的情报检索算法的研究在世界范围内方兴未艾,并代表着未来情报检索的方向。