一、检索语言的起点—序
中国国家图书馆是我国最大的图书馆,藏书2400多万册。如果将这些书刊文献随愈地摆放在图书馆的书架上,并向社会公众开放,那么读者要在其中查找到自己所需要的特定文献就如同是“大海捞针”一样困难,这是因为如此庞大的信息此时处于无序即“混沌”状态.为此,我们要引入“序((order)"的概念。
什么是序?
“序”是关于规律性的一个笼统概念.通常指有规则。它涉及社会科学和自然科学的许多专业领城,但在不同学科中的含义并不相同。序的内容比较艰深,本节仅从.规律”这个角度出发,阐述序在信息存储与检索中的巨大作用。
为使大家对序有一个初步的认识,我们先举例说明事物从无序到有序,从有序到无序的过程。(本文由EI检索 www.ei-istp.com整理提供)
在一个装有水燕气的箱子中,当温度很高时,水燕气分子互不相关地自由运动,系统处于无序状态:随着温度的降低,水蒸气凝结成水滴,液体分子间的距离变小,相互作用力增大.形成了一定的形状;当温度降低到凝固点时,水演变成了冰.分子之间的距离更小,互相作用力更强,分子被固定在各个结点上.不能在整个晶体内运动。在冰的晶体结构中,水分子是周期性地有规则地排列着。由此可见,冰的有序化程度最高,水燕气的有序化程度最低。虽然水的三态都是由同一种水分子组成的,但从气态到液态、从液态到固态的变化过程中,系统的有序化程度在不断增加。这就是存在于自然系统中的.序".
在社会系统中,序也是广泛存在着.比如邮局每天都要处理大盘的信件。原本这些来自全球各地的信件处于无序状态,而代表地址的文字却使它们有序化,不过其有序化程度并不高,所以工作人员的劳动强度很大,邮递速度较慢。为了弥补这种缺陷,人们编制了邮政编码,一个编码代表一个特定地区(省、市、县等)。郑政人员只需通过邮政编码即可分检信件,速度很快,更重要的是它可由机器分检,大大提高了工作效率,降低了劳动强度。邮政编码使信件的有序化程度进一步提高.序给人们生活带来的方便也由此可见一斑。
那么,从无序到有序,其根本原因是什么呢?一是规则,二是外因。所谓规则是指人为的规章制度,而规章制度又需要依靠外在的力A来实施。只有二者密切配合,才能使系统从无序转变为有序。如上述的邮政编码,它不是随意组合的,而是有规则可依的.诸如某省用什么号码、一个邮政编码由几位数字组成等,然后根据该规则编写出邮政编码手册,供人们使用。这种情况只适于社会系统,因为在自然系统中,各要紊之间的相互作用是客观的,人们只能对它加以外力(比如给水加热),而不能将人为的规则强加于它。
2.序的性质
(1)针对性。有序或无序是针对某个具体系统而言。离开了具体的系统,“序”也就无从谈起。比如就一封信件木身而言,有序或无序是毫无意义的,如果具体到某一邮局的信件,我们就可以针对具体情况,断定系统是有序或是无序、有序化程度是高或是低。
(2)可逆性。一个开放系统,在一定条件下不仅可以从无序走向有序,而且也可以从有序变得混乱。自然界和人类社会中具体事物的发展普遍存在着这两个相反并相互补充的过程。(本文由EI检索 www.ei-istp.com整理提供)
二、序与信息检索语言
在信息的存储与检索中同样也存在着“有序”与“混沌”两种现象。
我们都有去书店买书的经历.书店事先已经将图书按照出版社或学科归类,也就是说,已经将其有序化,但要在某一类或某出版社的若干个书架上找一本特定的书,恐怕也得花费不少时间,这就说明其有序化程度不高。全世界每年发表的文献数不胜数,但这些信息开始是处于无序即混沌状态,而且,处于无序状态的信息t越大,利用起来就越困难。为了更有效地为用户提供服务,首先要做的就是将无序的信息有序化。以图书馆为例,书库内的文献怎样排列就可以让读者或工作人员以最快的速度找到特定文献?款目按照什么顺序排列?按照字母顺序排列时,是采用letter by letter(以字母为单位排列),还是采用word by word(以字为单位排列)等.有关的规则越详细,有序化程度就越商.工作人员根据有序化的规则将文献入库,并组织相应的目录或建立计算机信息检索系统。这时的信息处于一种高度有序化状态。信息用户便可以利用目录或检索系统去借阅文献了。如果又出版发行了一批新的文献,然后信息又处于一种无序状态,然后再对其进行加工整理,使之有序化,所以信息的有序化经历了无序一有序一无序一有序的循环过程.随着计算机技术、网络技术的发展与普及和信息加工方法的不断改进,信息有序化程度会越来越高,人们利用信息就会更方便。
前面讲过,系统的有序需要有一定的规则和外力的作用才能实现,信息也不例外,信息有序化依据的规则诸如文献著录标准、检索工具排检法及检索语言等。若没有这些规则或规则编制的不科学,信息便处于混沌状态或有序化程度不够,所以说,它们是用来加强信息标引者同检索者之间的联系,并达到存储与检索的一致性而使信息高度有序化的一种共同规范.这其中以检索语言最为重要。
三、信息检索语言的定义
我们知道,信息检索的基本原理是将用户的检索提问标识与检索工具或数据库记录中的信息特征标识进行对比,当二者一致时,即为检索命中。由此可见,能否准确地检索出用户所需的信息,关健在于能否准确地选择表达检索提问的标识。这里讲的“准确”,是指用户所选用的检索提问标识必须与检索工具或数据库中标引文献记录所用的信息特征标识完全一致,这就要求检索人员和标引人员必须遵循同一种规则,这个规则就是检索语言。(本文由www.ei-istp.com整理提供)
检索语言就是为沟通信息标引与信息检索两个过程而编制的人工语言,是连接标引人员与检索人员双方思路的桥梁。检索语言使数不胜数的信息高度有序化,不但能够保证不同的标引人员描述信息特征的一致性,而且能够保证检索提问标识与信息特征标识的一致性。检索语盲与检索工具、检索效率有着极其密切的关系,因此在信息检索过程中起粉十分重要的作用。
(1)布助信息工作人员完整、准确、快速地标引信息的内容特征和外表特征,完成信息的存储过程,也就是利用检索语言编制检索工具或建立检索系统。各种图书资料分类表、主题词表都是利用检索语言编制而成的。
(2)帮助检索者系统、全面、准确地查找所需的文献资料,完成文献的检索过程.
(3)帮助信息管理人员系统地组织大t而无序的文献、从而使信息的管理科学化。
检索者为了查找所需的文献资料,必须具备检索语言的基本知识,熟悉和掌握各种检索语言的结构体系。
(本文由EI检索 www.ei-istp.com整理提供)出自google图书