ISTP检索数据库的一般结构,不同的ISTP检索数据库,其结构都不一样,提供的检索途径也各不相同,但它们的基本结构却具有共同的特征。
ISTP检索数据库最基本的特征是它们都由文档组成,而文档又由若干记录组成,组成记录的则是字段。
字段是文献著录的基本单元,每个字段反映了文献的一项特征。在ISTP检索数据库中每个字段往往都有一个字段名,如:论文作者的字段名为AU,论文题目的字段名为TI等等。
记录是由若干不同字段组成的文献单元,一个记录一般代表一篇文献。在ISTP检索数据库中每个记录都有一个记录号,其意义类似于检索工具中的文摘号。
文档是由若干数量的记录所构成的ISTP检索数据集合。它主要应用于大型联机检索系统中,如DIALOG系统中399文档是美国化学文摘,221文档是世界专利索引,在检索中输人不同的文档号就能对不同的ISTP检索数据库进行检索。
记录排列顺序不同,则ISTP检索数据库文档结构就不一样,而这将对检索速度造成直接影响。
简单文档,是按照记录输入先后顺序存放数据记录的文档。它不考虑记录之间的关系。其优点是增加记录简单,但修改、侧除、检索记录则很费时间,ISTP检索数据库一般都不采用这种结构。
顺序文档,其记录按照某关键字的值依次顺序排放。该关键字是指其值能惟一标识该记录的字段,比如记录号。顺序文档中记录的检索、修改、删除都比较简单,可使用折半查找法提高ISTP检索数据库速度,但增加记录比较麻烦,要插到适当的位置才能保证文档的顺序。
索引文档,是指文档外另带了个索引表,索引表中的每项内容包括一个关键字的值和对应于该值的相应地址。一般,索引文档本身记录的物理顺序和逻辑顺序可以一致,也可以不一致。而索引表是按照关键字值的大小顺序排列的,当索引表本身十分庞大时,还要建立索引的索引,形成多级索引。索引文档是常见的ISTP检索数据库文件存取结构之一。
倒排文档,是将顺序文档中某些代表文献特征的字段抽出来,再按一定的规律重新排列而成的文档。它的出现,满足了人们从文献的其他属性值进行查找的需要,大大提高了检索效率,因而它也是绝大多数ISTP检索数据库采用的文档结构。其缺点是要占用额外的存贮空间,在主文档进行更新时,倒排文档的更新也要相应进行。
本文《ISTP检索数据库的一般结构》由国际核心索引检索平台:http://www.ei-istp.com整理提供!
郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。