截词EI检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致,同一个意思的词.英、美拼法不一致。词干加上不同性质的前级和后级就可以派生出许多意义相近的词等。为了保证查全.就得在检索式中加上这些具有各种变化形式的相关竞义的枪索词.这样就会出现检索式过于冗长,输入EI检索词的时间太久,占太多机时等问题。截词检索就是为了解决这个问题而设计的.它既可保证不翻检.又可节约钧人检常式的时间。
大多数系统都提供截词检索的功能。所谓截词,是指检索者将检索词在其认为合适的地方截断,保留相同的部分,用相应的截词符代替可变化邵分.而截词检索,是用截断的词的一个局部进行EI检索.并认为凡满足这个词局部中的所有字符(申)的文献.都为命中的文献的枪索方法。
截词方式有多种。按截断的位里,截词可分为后截断、前截断、中截断兰种类到;按截断的字符数量,可分为有限截断和无限截断两种类型。这里有限截断是指说明具体截去字符的数址的截断方式。而无限截断则是指不说明具体截去多少个宇符的截断方式。
常用的截词符有“?”.、“*”、“#.、“$”等多种表示形式.不同的检索系统其截词符的表示形式和不同EI检索的方式是不同的.例如,Dialog系统用“?".BRS系统用“$ ",ORBIT系统用“#”等。下面用"?"表示截词符.有以下几种截词方式。
1.后方截词
后方截词,也称为前方一致。它是将截词符放在一串字符的后面,用于表示以相同字符申开头,而结尾不同的所有词。
后方截词截断方式又分为词尾的有限截断和词尾的无限截断两种方式.
I )词尾的有限截断
相同字符串后可能变化一个字符时,则在其后使用“?(空格)?”形式,常用来表示检索词的单复数变化.例如,用“system? ?”可以查出“system”和“systems"的文献。
相同字符申后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。例如.”表示两个字符,???表示三个字符.以此类推。
2)词尾的无限截断
相同字符串后可能变化任何字符申时,则在其后只使用一个“?.。这种方法可以查找出含有相同字符串的所有检索词。例如."comput?”可查出“compute","computer" ,"computing", "computation","computerisation"等。
2.中间截词
中间截词又称为中间屏蔽.是一种用截词符屏蔽词中不同字符的方法。例如"woman”和“women",可用“wom?n"代铃;'defence”和“defense”可用“defen?e"代替。
截同符具有“OR"运算符的功能.能够扩大检索范围.而且减少了物人检索词的时间.节约了机时。
但应注意的是.使用后截断,有可能检出无关词汇!尤其注意使用无限后截断时,所选词干不能太短。否则.将造成大量误检,或是发生滋出,导致EI检索失败。对此大部分系统都规定,采用无限截断可检出的词汇的极限为800个左右。
3.前方截词
与后方截词相对,前方截词是将截词符号置放在一个字符串左方.以表示其左方的有限或无限个字符不影响该字符串的检索。这种方式称为前方截词截断方式。从检索性质上讲,前方截词方式是后方一致检索方式。如用?magnetic"可检索出“magnetic”、“electro-magnetic”、“electromagnetic”、“paramagnetic”、"thermo-magnetic"等。
可以看出,使用前方截词进行一个学科的不同应用领域的位索是很方便的。
本文《截词EI检索》由www.ei-istp.com整理