首页 >  职称发表论文 > EI发表论文 >   正文

新版EiWeb系统搜索词的构建规律研究

添加时间:2014-03-19 19:55:05   浏览:次   作者:高 斌
专业论文资料, 搜索论文发表论文代写论文网为你解忧愁!详情请咨询我们客服。
获取免费的论文资料? 欢迎您,提交你的论文要求,获取免费的帮助

1 Ei Web系统检索算符梳理


根据检索算符的作用范围,可分为词法算符、句法算符和范畴算符。词法算符作用于检索式中的基本单元,这个单元可以是表达文献外部特征的号码,可以是表达文献内容特征的关键词、主题词和分类号,也可以是作者、作者单位和文献源名称等。根据叶继元先生对检索词的定义,检索式中的基本单元也可称为检索词,这个检索词既和检索概念切合,又包含了和检索系统匹配的相关算符,如“block and tackle”是代表检索概念滑轮的关键词,但根据EI Web系统中的相关检索规则,“blockand tackle”中包含了禁用词“and”,不能直接作为检索词使用,应转变成“{block and tackle}”形式后,检出的结果方能切合检索的主题概念。可见词法算符是作用于检索词,又用于规定检索词外部形式的算符,它将表达某一检索主题概念的语词,转化成和检索系统规则匹配的检索词形式。句法算符用于连接各个检索词构成检索式,以完整地表达一个检索课题的主题内容,如常用的逻辑运算符“and”、“or”、“not”。范畴算符用于规定检索的空间范围,如Ei Web数据库的字段算符、语种和文献类型等。在Ei Web系统中,广为用户使用的快速检索界面,已多年定型为三行表单式,通过检索控件,为用户提供逻辑运算、检索字段、语种和文献类型等多种选择,通过程序规定三个输入行的运算顺序,因此,对于大部分Ei Web检索用户而言,构建检索策略的重要环节是词法算符及其规则在各个字段中的准确使用,包括:短语/词组算符(以下简称短语算符)“””(或:{ })”的使用规则、通配算符“?”、截词算符“*”和特殊字符等。


2 Ei Web词法算符及其功能实证分析


2.1 短语算符及其功能分析


在西文检索系统中,短语算符对于提高检索结果的查准率有重要作用,它保证检索词作为一个完整的字符串在指定的数据库字段中搜索。关于短语算符的功能,Ei Web系统的帮助文件中表述如下:“如果输入的短语不带括号或引号,由于系统默认将检索结果按相关性排序,因此可以得到比较理想的检索结果。但是,如果需要做精确匹配检索,就应使用括号或引号”。这段文字说明了短语算符的形式和功能,但没有指明其作用空间,事实上,短语算符在不同的字段中作用是不同的。根据数据库检索的一般原理,数据库提供的各个检索入口是建立在所对应的索引之上的,而EiWeb数据库提供的索引有两种不同的机制,在短语算符的功能上也因之有差异。系统提供的作者、作者机构、受控词、刊名和编辑机构字段,所对应的是系 统 中“Author”、“Author affiliation”、“Con⁃trolled term”、“Source title”和“Publisher”等5个索引表,这5个索引表中的词条是在人工干预下形成,且具有先祖特性,即在检索之前形成了固定搭配 ,如“DATA PROCESSING--DATA REDUC⁃TION AND ANALYSIS”、“wang shi-tong”等 词条。系统提供的题名、摘要等常用检索字段,与之对应的索引是由计算机自动抽词轮排而成,概念的组配具有后组特征。为了体现5个索引表的作用,检索软件的设计人员采用了不同于题名、摘要等常用字段的检索机制,表现在短语算符的使用上,在5个先组式索引对应的字段中使用短语算符,只能检索出和检索词具有等同关系的记录,不能检出和检索词具有包含关系的记录,其实证如表1。表1第1行检索式的检索意义是:在受控词字段“CV”中检索“support vector machines”,且作者为“wang shi-tong”的记录,检出的记录为7条;第二个检索式将{support vector machines}修改为{support vector},修改后的检索式,检出的记录为0条(在其它几个索引字段中,也可以得到相同结论),检索词{support vector}是{support vector ma⁃chines}的一部分。第3至第4行用同样的检索词分别在题名和摘字段中进行检索,检出的记录分别为8条和9条。表1的检索结果揭示出:短语算符在索引字段中使用时,仅检索出所指定的字段中和检索词全同关系的记录。在题名和摘要等字段中,可以检索和检索词被包含关系的记录。


2.2 截词算符及其功能分析


英语的单词有前缀、词根和后缀等部分,具体到句子中,单词还有性、数、格以及时态引起的词性变化,为了减少输入,提高查全率,系统为用户提供通配符(检索中使用较少)、截词符词和词根运算符(词根运算通过系统提供的控件选择)。中文帮助关于通配算符的作用表述为:“星号(*)为右截词符。截词命令检索到以截词符止的前几个字母相同的所有词:例如:输入comput*得到computer,computerized,computation,computa⁃tional,computability等”。英文帮助表述为:“一个多字符通配符可以用来代替一个单词任何部位0-X个字符,截词符不能用于{ }和" "算符中,也不能和near、onear算符连用”。中英文对截词符的功能表述不一致,主要不同点有三处:①英文的表述很清楚地说明了截词符通配0-X个字符,方便用户在构建检索词时准确地选用“?”或“*”;②中文表述的截词符的作用仅为右截词符,而英文的表述为单词的任何部位,即为右截词、中间截词和左截词。③英文表述指明了禁用截词算符的场所。经使用验证,英文帮助信息反映了检索规则的变化,但英文帮助提供的截词算符用法示例仍存在错误,关于截词算符在索引中的使用,中英文帮助同以“Smith, A*”为例,说明“*”在作者索引中的使用,可以检索出前方为Smith, A的记录,事实为:表2第1行检索词为“Smith A”时,可检出索引中前方包含Smith A的所有词条,当检索词为“Smith A*”,检出的词条为0;第3行的检索词为“DATACO”时,检出的记录为6条 ,当检索词“DATACO”加上截词算符“*”后,检索记录为0(其它3个索引也可以得出同样的结论)。检索结果表明:索引不支持截词运算,这也是帮助文件中关于截词算符使用的错误所在。


2.3 特殊字符及其功能分析


特殊算符是Ei Web系统中涉及的最广,且对提高检索词和检索概念的匹配程度又有特殊作用的字符。关于特殊字符及其作用,中英文的帮助中表述均为:“特殊字符是除a-z, A-Z, 0-9, ?, *, #,( )或{ }之外的所有字符,检索时系统将忽略特殊字符。如果检索的短语中含有特殊字符,则需将此短语放入括号或引号中,此时特殊字符将被一个空格所代替”。这段文字说明了特殊字符使用的两条规则:①检索时系统将忽略特殊字符;②在括号或引号中时,系统用空格代替特殊字符。关于第一条规则的表达,首先对使用的条件没有交代清楚,其次对检索结果的描述不很清晰,系统忽略特殊字符后,含有特殊字符的检索词是什么形态,如检索词“xi’an”中的撇号“’”是特殊算符,系统忽略“’”后,“xi’an”是形态“xian”,还是“xi an”,作为形式匹配的计算机检索系统,这两个不同的形态的检索词检出的记录是不同的。第二条规则,在不同的使用场合,其作用也有差异。


2.3.1 特殊字符在索引中的功能分析


在“Author”、“Author affiliation”、“Con⁃trolled term”、“Source title”和“Publisher”等5个索引中,常用的特殊算符有:缩写符“.”和分隔符“,”,其作用如表3。表3第1行检索词“WU X-G.”包含了特殊字符“-”和“.”,系统输出结果是等同于检索词的词条,索引中包含不同特殊字符的“WU X. G.”和“WUX.-G”词条则未能输出;第2行的检索词“JIANG⁃SU UNIV. OF”中有一个特殊算符“.”,执行检索后,仅检出前方包含“JIANGSU UNIV. OF”的词条,没有包含特殊算符“.”的“JIANGSU UNIV OF”词条则不被检出(其它3个索引也遵从相同的规则)。结果说明:在索引中检索时,检索词中包含的特殊算符不遵从帮助系统中的相关规则,检索时仅按特殊算符的字面形式进行匹配。


2.3.2 特殊字符在常用检索字段——受控词字段中的功能分析


受控词字段是建立“Controlled term”索引基础上的检索入口。由于受控词是以规范化科学名词为基础的主题词,能够准确地表达检索概念,具有较好检索性能,受控字段因之成为用户常用的检索字段之一。在受控词中常用的特殊字符为连词符“-”,其在受控词字段中的作用验证如表4。行1检索式中仅包含连词符“-”,在没有使用精确短语算符“{ }”的情况下,仅检出包含连词符“-”Dams--Seepage的5条记录,行2的检索式中检索词中没有包含连词符“-”,检出的记录为595条,检出的不仅是包含短语“Dams--Seepage”的记录,还检出了大量包含词DAMS和SEEPAGE的记录,说明了连词符“-”在受控词字段中,所起的作用和精确短语算符相同。


2.3.3 特殊字符在常用检索字段——题名和摘要字段中的功能分析


特殊算符的表现形式在这两个字段中最为丰富,包括化学元素符号,希腊字母以及常用的缩写符号,分隔符号等,在此仅以“&“为例进行说明,如表5。表5第1行和第2行检索式的区别仅为是否使用了短语算符,两个表达式的检索结果区别是:当检索词在括号或引号中时,特殊字符连接的两个字符,或词符串,使词距和词序保持不变,如第1行的检索结果;检索词不在括号或引号中时,特殊字符连接的两个字符,或词符串,词距和词序可变,如第2行检索结果。检索结果表明,特殊字符无论是否在括号或引号中时,均是用空格代替,但运算关系不同,前者是短语算符的运算关系,后者是逻辑与的运算关系。


2.3.4 特殊字符在常用检索字段—作者字段中的功能分析


在作者姓名中,常用的特殊字符有逗号“,”、缩写符“.”和连词符“-”,其在作者字段中的功能验证。表中的三个检索式均未使用短语算符,从行1到行3包含的特殊字符依次从3减到0,从表中可以看出,三者检索结果完全一致,检出了包含不同特殊算符的记录Wang, S.-T、Wang, S.T。说明了:①在作者字段中,特殊字符无论是否在短语算符中,均作空格处理;②在Ei Web的新版中,检索词的处理更加人性化,对作者姓名的格式没有了严格的规定,姓名之间、名字之间的分隔符可在有限的范围内任意选择。


3 Ei Web词法算符的常用规则构建


3.1 截词算符


截词算符“*”可以位于检索词的任何部位,即左截断、中截断和右截断,通配字符的个数为0~x,可以通配检索词汇中的字母以及特殊字符,可以作用的数据库中任何字段。作者、作者单位、受控词表、刊名和出版者等索引不支持截词检索。


3.2 特殊字符


特殊字符是除a-z, A-Z, 0-9, ?, *, #, ( )或{ }之外的所有字符。在作者、作者单位、受控词、刊名和编辑机构等5个索引中检索时,检索词中包含的特殊算符,检索时不忽略,也不用空格代替,而是按特殊字符的表面形式匹配。在作者姓名字段中检索时,作者姓名检索词中的特殊字符,无论是否在短语算符中,均作空格处理。在受控字段中检索时,特殊字符“-”的作用,使被连接的两个词的词距和词序不便,作用和短语算符相同。在题名和摘要等字段中检索时,特殊字符在括号或引号中时,特殊字符用空格代替,其连接的两个字符,或词符串,使词距和词序保持不变;特殊字符不在括号或引号中时,特殊字符用空格代替,特殊字符连接的两个字符,或词符串,词距和词序可变。


3.3 短语算符


精确短语算符“”””、“{}”,若要精确查找短语,检索短语中包含系统操作符(?、*,、#,、( )、{ }、and、or、not、near)时,则需将短语放在“”””,或“{}”之中。在作者检索字段检索时,检索词可以不加短语算符。短语算符在和作者、作者单位、受控词、刊名和编辑机构对应的字段中使用时,仅检索出所指定的字段中和检索词完全等同的记录。
 

4结 语


本文通过对新版Ei Web词法算符的分析,构建了截词算符和通配符、特殊字符、短语算符在5个索引和常用字段中的使用规则,期望抛砖引玉,使检索系统的规则更加完善。


参考文献(略)

提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。
本论文由代写论文网整理提供 https://www.dxlwwang.com/
需要专业的学术论文资料,请联系我们客服
本文地址:http://www.dxlwwang.com/ei/410.html
论文关键字:Ei Web 工程索引 检索规则 词法算符 检索帮助