首页 >  职称发表论文 > SCI发表论文 >   正文

相关SCI的图书馆学情报学计量分析——以共词分析为例

添加时间:2014-08-13 15:31:52   浏览:次   作者:www.dxlwwang.com
专业论文资料, 搜索论文发表论文代写论文网为你解忧愁!详情请咨询我们客服。
获取免费的论文资料? 欢迎您,提交你的论文要求,获取免费的帮助

0引言


关键词作为文章标题的补允,是对整篇文献的高度浓缩。关键词的来源可以是从文献的标题中选取一些词汇,也可以是从摘要中选择的最具概括性的词汇,还可以是基于作者自己的理解从整篇文献中概括出的词汇。从自然语言处理的角度来讲,关键词是经过规范化的、高度浓缩的、不能再分的文本。通过参看文献的关键词,读者可以快速大致了解整篇文献的研究重点。因此,在对文献进行计量分析时,可以分析关键词出现在不同文献中的频率,并对关键词进行聚类,以此来了解某学科在特定阶段的研究重点和热点。同时还可以通过分析不同时问段关键词的变化情况,来把握该研究领域关注热点的变化情况。
Sci( Science of Science)是由印第安纳大学伯明顿分校(Indiana University,Bloomington)的图书情报专家Katy Borner及其团队研发的一款知识图谱工具,它在构建知识图谱方面有非常独特的功能优势,目前国内还没有学者利用szSci知识图谱工具进行研究热点的分析。

1 数据源的选取

在进行数据源选择时,一般常用的检索方法是:进入Web of Science,输入检索的关键词,选择相应的检索条件,如通过主题、标题、作者、出版物名称等来检索。但是,针对本文研究的主题,想要全面地了解国外图书情报领域的发展状况,仅仅以‘`librar”或“infor-mat*science”为主题检索词的话,就很容易造成检索的不全面,因为很多研究图书馆学情报学领域的文章,其主题词不一定都包含“librar”或“information sci-ence”等词,就容易造成漏检,影响研究结果的精准性。
因此,在检索本文的数据时,采取了另外一种方式,本文参考期刊引用报告( Journal Citation ReportJCR)在2011年最新收录的图书情报领域的83种期刊为主要的检索依据。首先进入JCR,选择JCR的社会科学版(JCR Social Sciences Edition),并以最新的2011年的JCR报告为准(北京时问2012年6月29日OJCR更新了2011年的期刊数据),同时点击右侧的分类浏览( View a group of journals by subject category),再选择JCR中Information Science&Library Science情报学与图书馆学)类口下的期刊。2011年,JCR共计收录了全球图书情报领域内的83种期刊,最终确定以这83种期刊为检索依据,在Web of Science中进行检索。
在检索框内分别输入这83种期刊的全称,依次对每个期刊2002-2011年来的数据进行检索,同时将检索条件设置为出版物名称;检索数据的时问范围设置为2002年1月1日-2011年12月31日;将这10年的数据分5段进行检索,每2年为一个时问周期。
数据检索时问为2013年3月25日(这时2012年最新的JCR排名尚未公布,故只能参考2011年的JCR数据),由于Information Science & Library Science属于社会科学类的文章。因此,笔者在检索时,选择的引文数据库主要有:Science Citation Index Expanded(SCI-EXPANDED)、Social Sciences Citation Index(SSCI)、Arts&Humanities Citation Index(A&HCI)、
ConferenceProceedings Citation Index-Science(CPCI-S)、Confer-ence Proceedings Citation Index-Social Science&Hu-manities ( CPCI - SSH ),而没有选择化学数据库中的Current Chemical Reactions(CCR-EXPANDED)和IndexChemicus ( IC)这两个数据库。
在数据检索中,主要选取的文献类型是Article-共得到25 527条数据,去除掉15条残缺的数据,剩下25 512条数据,再经过人工查重,去除掉重复数据27个,最后得到25 485条数据。其中,涉及的作者有31159位,检索的期刊有83种期刊,参考文献总数多达436 492条,关键词有16 302个,涉及的语言种类也多达9种。其中,主要以英语为主(共有文献数24 136条),其次是西班牙语(624条),葡萄牙语(381条),德语(208条),法国(69条)以及其他一些语种。涉及的扫L构有8 061个,以及一些附属机构(高达19 755个),涉及国家多达124个(其中,排除了一些未知的国家)。
为了更好地了解最近10年来国外图书情报领域研究热点及其变化情况,本文主要选取数据中的关键词作为研究对象,利用ScizSci对关键词进行分段共词分析。

2   Sci简介

Sci(Science of Science)是由印第安纳大学伯明顿分校的图书情报专家Katy Borner及其团队研发的一款知识图谱工具,它是在Cyberinfrastructure Shell ( CIShell)的基础上开发的,CIShell是一个开源的Eclipse插件框架。目前国内还没有学者利用SzSci知识图谱工具进行研究热点的分析。
Sci的功能优势主要表现在以下几个方面:
a.可以加载各种格式的数据。比较典型是:xmlNet,isi,csv,bib,enw,nsf等格式。
b.Sci支持抽取各种常用的网络。例如,抽取定向网络,抽取双边网络,抽取引文网络,抽取作者文献网络,抽取共现网络,抽取词共现网络,抽取合作者网络,抽取引文藕合网络等。
c.拥有强大的数据分析统计能力。利用它,可以随时计算网络中节点和边的一些信息。
d.Sci集成了各种数据处理的重要功能,具有强大的数据处理能力。当数据量很大的时候,用户可以根据自己的需要,选择对数据进行一定的处理,去除一些孤立节点,抽取前N个节点和边。
e.在对数据进行可视化时,Sci可以绘制多种形式的可视化图谱。由于sci2可以很容易地整合各种数据集、方程、工具和计算机资源,很多可视化的插件也可以根据研究者的需要,很容易地整合进SzSci工具中。
比较常用的可视化网络插件是GUESS和C ytoscape,同时,短期的或时问编码的数据可被显示在水平条形图上。而地理编码数据可被呈现在一张世界地图或美国地图上。
除了ScizSci以外,进行知识图谱分析的工具有很多,如Citespace, VOSviewer等。每个知识图谱工具都有其优缺点,文献巨〕对比了12种知识图谱工具的差异,并总结各自的优势和劣势。

3共词分析的流程和具体步骤

共词分析就是将能允分反映文献主旨的词(例如:最常用的是主题词和关键词)作为分析口标,通过分析关键词出现在不同文献中的频率,从而确定文献集所代表学科中各个主题之问的关系创。通常情况下,该关键词在不同文献中出现的频率越多,在共词矩阵网络中出现的频率也越大,也就越能代表众多学者研究的热点。在本文研究中,关键词共现的频率越多,在图谱中呈现的节点也就越大,同时在 Sci可视化图谱中还能更清晰地呈现出关键词之问的等级所属关系。
在Sci中共词分析具体操作分析步骤如下:
a首先对文本关键词进行规范化处理,在加载的数据中,运行uPreProcessing npreprooessing>"Topioal”>low-eroase,tokenize,stem and stop wordstPXt”这样删除停用词,将数据进行降维处理。经过规范化处理后,会生成一个列表。
b.选择该列表,运行“datapreparation”>uextraot word o0-oo-ourrenoe networks”来抽取词共现网络。
e.再运行“analysis > networks >network analysis toolkit ( NAT)”来分析该网络节点和边的情况,如果有孤立节点,要将孤立节点删除。
d.当节点和边数据量较大时,可以运行M ST -pathfinder算法来对边进行缩减,以突出最重要的边,还可以运行“processing > networks > extract top nodes或extract top edges”来抽取前N个节点(抽取多少节点,可根据具体的研究需要而定),还可以通过“Visualiza-tion>networks>DrL ( VxOrd) ",通过DrL算法来处理大量的数据。
e.利用CUESS可视化网络。

4共词分析图谱呈现及解读

笔者将这10年的数据划分为5个时问段,每个时问段为两年,然后分别对这5个时问段的数据进行知识图谱分析。
在共词分析图谱中,关键词出现的频次通过节点的大小展示出来。而ScizSci在进行共词网络聚类时,能很好地将主题关系紧密的词汇聚类在一起,因此从整体上看,图谱可以分为几个大类,由此将这几个大类的中心关键词划分为一级关键词。再根据其他词汇距离中心关键词的远近,划分为二级、三级等多级关键词。

4.1  2002-2003年共词分析图谱经过分析可知,在2002-2003年,共有4 066条文献数据。在这些数据中,首先对关键词进行规范化处理,再选取共词网络,最后得到6 999个节点,其中有3 941个孤立节点,去除掉孤立节点,最后剩下3 058个节点,10 758条连线。其中,最大的一个网络包含2 557个节点。然后通过pathfinde:算法对网络进行缩减,得到2 951条边,最后形成如图2所示的图谱。
通过图2可知,主要关键词有:Internet (134) ,in-    通过以上图谱和表格可知:在2002-2003阶段,可以发现以下几点特征:
a.该阶段关键词主要围绕Internet展开,主要从信息检索,信息技术,用户研究和信息服务等力一面展开,这主要依赖于21世纪以来,因特网技术快速发展,图书情报学领域也开始进入互联网时代,依靠高技术手段来对数据进行管理。
b.依赖于因特网技术的发展,information technol-ogY成为了该时期的高频词汇,围绕万维网,与网络相关的一些知识领域也受到国内外研究学者的追捧,例如:信息系统,远程交流,电子商务成为各国学者探讨的热点。
c.英国(United Kingdom)在二级关键词排序中,位于第五位。这两年学者对英国的兴趣很浓,主要集中于研究英国的大学图书馆,图书馆法律法规,远程可视化,图书馆服务以及虚拟图书馆技术等方面。
在国外,美国和英语是最早开设图书馆学教育的国家,英国图书馆的发展,以及其图书馆所提供的服务一直是国内外学者学习和研究的重点。
d.在图书馆学的研究方面,主要注重对知识管理,电子出版物,馆际互借,用户满意度和文献传递等方面的研究。

4.2  2004 -2005年共词分析图谱经过分析可知,在2004 -2005年,共有4 395条数据,在这些数据中,首先对关键词进行规范化处理,再选取共词网络,最后得到8 475个节点。在此共词网络中,有4322个孤立节点,去掉孤立节点后还剩下4153个节点,16239条连线,最大的一个网络包含3565个节点。通过path-finde:算法对网络进行缩减,得到4024条边,得到如图3所示的知识图谱。
通过上面2004 -2005年关键词共词分析图谱和分级列表可知:
a. 2004-2005年关键词变化不大,但是关键词的重要程度有一定的变化。在2002 -2003年时,主要以Internet为中心展开。而在此阶段,information retrieval方面的研究逐渐发展,受到了学者的关注和热捧,因此,在2004 -2005年时,主要是围绕Internet和informa-tion retrieval这两个方面展开研究。
b. 2004 -2005年,这一时期的信息检索主要集中在:基于万维网的数字图书馆技术,搜索引擎的研究和分类,这些都更加有利于提高检索的效率,同时由于技术的革新,信息检索从联机检索时代走向了Weh信息检索的新时代。
c.对英国方面的研究除常规的文献传递,图书馆法规,图书馆服务方面的研究外,在这两年中,主要集中于基于互联网的公共图书馆,学术性图书馆方面的研究中。
d.电子商务方面的研究开始成为一个比较热门的领域,在2003 -2004年时,出现频次仅16次,在2004 -2005年时,出现频次达到29次,成为了基于因特网技术的一个重要的分支。

4.3  2006-2007年共词分析图谱经过分析可知,在2006-2007年,共有4 962条数据,在这些数据中,首先对关键词进行规范化处理,再选取共词网络,最后得到10 676个节点,在此共词网络中,有4 941个孤立节点,有21 048条连线,最大的一个网络包含4 776个节点。通过pathfinder算法对网络进行缩减,得到5532条边。再利用DrL对网络进行优化,最后运行CUESS来进行可视化,最后得到的2006 -2007关键词共词分析图谱如图4所示。
通过上面2006-2007年关键词共词分析图谱和关键词分级列表可知:
a.整体来说是稳重有变。这段时问的关键词与2004 -2005年相比,变化不大,大多还是前面提到的关键词,但是,关键词的重要程度程度开始出现了一个很大的变化,信息检索成为了研究者关注的重点,在词频上首次超过因特网,主要是,因特网终究只是进行研究的一种手段,最关键的还是需要探索怎样利用最新的技术手段来为信息检索服务,完善信息检索系统,更好的利用好搜索引擎为我们的研究服务,特别是在大学图书馆中,信息检索对于师生的学习,科研起着举足轻重的作用。
h.万维网的桥梁作用。万维网作为因特网,信息检索和图书馆之问的纽带,起着桥梁的作用。为信息检索和图书馆研究方面的研究提供必要的信息和技术支撑。
c.在图书馆学的研究方面,除了常规的文献传递
和知识服务方面,更新增了对文本内容的研究,尤其是对文本的分析和本体分析的研究。
d.从词频的变化上来看,这一阶段新增了:信任、隐私、美国、电子媒介,内容管理这几个词,从这几个词中我们可以看出,机遇与挑战并存,正是由于互联网技术的发展,在电子商务领域,用户通过网上进行交易,改变了交易的方式,同时也引发了研究者对信任的担忧,因此,针对电子商务上的信任问题的研究也引起了广泛的讨论。在利用互联网时,如何很好地保护自己的隐私,也是研究的重点。

4. 4 2008 -2009年共词分析图谱经过分析可知,在2008-2009年,共有5 781条数据,在这些数据中,首先对关键词进行规范化处理,再选取共词网络,最后得到13921个节点,其中有5 766个孤立节点,去除掉孤立节点,最后剩下8 155个节点,31 388条连线,最大的一个网络包含6 978个节点。通过pathfincfe:算法对网络进行缩减,得到7 897条边。由于节点数较多,在此选取度值排在前2 000的节点来进行聚类分析,共词分析图谱。

4.5  2010-2011年共词分析图谱经过分析可知,在2010-2011年,共有6 308条数据,在这些数据中,首先对关键词进行规范化处理,再选取共词网络,最后得到16 923个节点,其中有6 284个孤立节点,去除掉孤立节点,最后剩下10 639个节点,44 359条连线,最大的一个网络包含9 336个节点。通过pathfinder算法对网络进行缩减,得到10 351条边。由于节点数较多,在此选取前度值排在前2 000的节点来进行聚类分析,得到如图6所示的知识图谱。

5总结


通过Sci对2002-2011年来国外图书馆学情报学领域的关键词进行共词分析,可以得出以下结论:
Sci在绘制共词图谱时有自己特有的优势:它可以很形象地将不同级别的关键词通过不同大小的节点和连线表示出来,让读者可以一目了然地看出其中的层级关系。如在2002-2003年共词分析图谱中,一级关键词Internet在图谱中的节点圆圈最大,同时通过节点问的连线,将不同级别的节点(如information tech-nology(二级关键词);information systems(三级关键词);user satisfaction(四级关键词);information quality(五级关键词))联系起来。
通过将10年来的数据进行分段处理,可以很直观的看出每个时问段最重要的关键词。例如:2002-2003年时,大家都围绕Internet展开探索;在2004 -2005年时,利用互联网技术的信息检索研究逐渐发展;到了2006-2007年时,有关信息检索的研究超过了因特网的研究,信息检索成为最重要的关键词;2008 -2009年时,有关知识管理力一面的研究受到追捧;到了2010年以后,信息计量学成为全球图书情报领域一个新的热点。
通过分段分析,可以很详细地看出关键词的演变过程,从最开始依赖于互联网技术的信息系统,远程交流,电子商务(2002-2003年)到数字图书馆技术,搜索引擎(2004 -2005年);从注重互联网上的信任,隐私(2006-2007年)到社交网络的热潮(2008 -2009年)再到H-index、引文分析等。通过不同时问段关键词的演变过程,也可以推测出国外图书馆学情报学的“学科演变”过程。
不仅中国人在提取关键词的时候喜欢将国籍作为文献的关键词,如在2008-2009年的共词分析图谱中,China作为高频关键词出现在图谱中。同时,在外国也有很多研究者也倾向于用国籍作为文献的关键词,如在2002 - 2003 , 2004 - 2005 , 2006 - 2007年这三个图谱中,都能看见United Kingdom的身影,而且在2002 -2003年共词分析图谱中,英国(United Kingdom)属于二级关键词,同时在二级关键词的排序中,高居第五位。
学术型图书馆的地位逐渐上升。在2010年前,学术型图书馆一直处于较低的地位,如在2008 -2009年的共词分析图谱研究中,学术型图书馆还是一个四级关键词,与信息检索关系不大,但是,在2010 -2011年这个时问段,学术型图书馆的研究地位迅速上升,这也说明,随着信息检索的发展,学术型图书馆的地位日益重要,更加突出。


参考文献(略)

提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。
本论文由代写论文网整理提供 http://www.dxlwwang.com/
需要专业的学术论文资料,请联系我们客服
本文地址:http://www.dxlwwang.com/sci/2132.html
论文关键字:Sci 图书情报学 共词分析 知识图谱 研究主题