首页 >  职称发表论文 > SCI发表论文 >   正文

Sci2——一款新的知识图谱分析软件介绍与评价

添加时间:2014-04-13 18:55:19   浏览:次   作者:www.dxlwwang.com
专业论文资料, 搜索论文发表论文代写论文网为你解忧愁!详情请咨询我们客服。
获取免费的论文资料? 欢迎您,提交你的论文要求,获取免费的帮助

0 引言


笔者通过调研发现,Sci在绘制知识图谱方面拥有很多优势。例如,可以用它来构建多种网络矩阵,拥有强大的绘图功能等。随着信息技术的发展,如何处理好海量信息,并将其进行可视化显示,构建各类知识图谱,已成为国内外学者正在研究的重要课题。
目前,国外较流行的信息可视化分析软件主要有:Sci2Tool、In-SPIRE、SciMAT、Histcite、Pajek、Citespace、UCINET、Bibexcel、Gephi、VOSviewer、VantagePoint、Network WorkbenchTool等,国内学者常用的信息可视化分析软件主要有:Citespace、Histcite 和 Pajek。
在国外,美国国家科学基金会(National ScienceFoundation,简称 NSF)、美国国立卫生研究院(the National Institutes of Health,简称 NIH)、美国农业部(the US Department of Agriculture,简称 USDA),以及美国国家海洋和大气管理局(the N ational Oceanic and A tm ospheric A dm in istration,简称 NOAA)等都使用 Sci2来进行数据可视化分析,但国内研究人员目前对该软件研究甚少。因此,笔者希望对该软件的主要菜单功能、知识图谱绘制等进行较为详细的介绍,供其他研究人员借鉴参考。


1 Sci2简介


Sci2(Science of Science)是美国 Indiana大学图书情报专家 Katy B rner 及其团队在Cyber Infrastructure Shell(CIShell)的基础上开发的一款知识图谱分析软件。CIShell是一个开源的 Eclipse 插件框架,其功能非常强大,可以很容易地整合各种数据集、方程、工具以及计算机资源。
Sci2的一大优势是拥有丰富多样的插件可供使用,这就为用户使用 Sci2来绘制各类知识图谱提供了强力支持。其中,OSGi、CIShell 等插件运行在核心框架上;另外一些算法插件因其自身功能的不同,分布在不同菜单栏中,为数据准备、预处理、分析、建模、可视化等操作服务。这样,用户不仅可以使用该软件预先打包好的各种插件,而且可以根据自己的不同需求,创建、下载、共享并导入插件,不断丰富 Sci2的现有功能。
将插件添加到 Sci2菜单中的方式主要有二:如果某种算法在 CIShell 工具的配置/目录中所列的 default_menu.xml 文件中,它就会被添加到指定位置;如果该算法虽然没有在default_menu.xml 文件中列出,但在 algorithm.properties 文件中指定了一个菜单路径属性,菜单管理 CIShell 服务器就会根据菜单路径属性中指定的路径,将插件添加到相应菜单栏中。
例如,分析(Analysis)/ 补充(Additions)选项将会被放置在 Analysis 菜单栏的底部。
Sci2遵守 OSGI R4 协议和 Equinox 接口,它支持短期的、地球空间内的、主题性的以及微观(个人)、中观(地方)和宏观(全球)等不同级别的数据集的网络分析和可视化研究。
概言之,Sci2的主要特点有四:①用户可以根据自己的研究需要,添加不同的分析插件。例如,用户可以从 Sci2的官网上下载有关数据库、气球图、国会地理编码、Cytoscape等不同插件,并将这些 JAR 文件复制到 Sci2directory/plugins 中即可使用这些不同插件;②可以利用最有效的算法来进行不同类
型的分析(比如,引文耦合分析、共词分析、合作者分析等);③利用不同的可视化插件(例如,GUESS、Cytoscape),用户可以交互式地探索和分析特定数据集;④可以共享数据集和跨学科的算法。例如,在进行引文分析时,可以先利用 DrL 算法进行大数据分析,再利用GUESS 进行可视化显示。


2 Sci2主要功能
 

启动 Sci2程序,可以得到如图1所示的界面示意图。


2.1 主要菜单栏


Sci2中主要有File、Data Preparation、Preprocessing、Analysis、Modeling、Visualization、Help 等七个一级菜单栏。


(1)文件(File)菜单。文件(File)菜单的主要功能是对文件执行一些基本操作。例如,文件的加载、保存,查看文件数据信息,将CSV 文件加载到数据库中,进行优先级选择等。


(2)数据准备(Data Preparation)菜单。
加载文件以后,就可以使用“数据准备”菜单中的选项来清理数据,建立网络或者用于预处理、分析和可视化步骤的各种表。“数据准备 >数据库”菜单项是专门用来为先前加载到数据库 ISI 或 NSF 数据设置的。


(3)预处理(Preprocessing)菜单。在进行分析和可视化处理之前,用户可使用预处理算法进行修剪追加网络或者表。例如,抽取前N 个节点和边,删除孤立节点,删除自我循环,用 MST- 探路网络算法修剪网络等。菜单按照域分开,而最小单位的任务则要求放在同一个域中。例如,为了可视化一个作者同被引网络时,只需要使用从属于“预处理”、“分析”和“可视化”下面的“网络”域算法即可。同样,显示地图仅需要“地理空间”算法即可,即选择“Geospatial>extract ZIP code”菜单项。


(4)分析(Analysis)菜单。数据一旦经过加载、准备和预处理,就可在以下四个域中进行数据分析,包括:时间序列、地理空间、局部和网络分析。分析结果可以用于再分析,也可以进行可视化。尽管 Sci2目前主要用于网络分析,但它也支持表格数据的地理空间以及进行专题或通用的分析研究。


(5)建模(Modeling)菜单。Sci2通过预定义的模型来支持创建新的网络。例如,提取带有固定数量且被无向边随机连接的节点的图像;生成一个大部分节点没有直接连接到另一个节点,但仍通过较少边连接到另一个节点的图像;通过经济增长和优先级连接生成的无标度网络;集成“老龄化”生成作者和论文的双边演化网络。


(6)可视化(Visualization)菜单。Sci2可以利用 Gnuplot图,生成以多种不同形式绘制二维功能和数据点的平面图;生成依据时间推移可视化数值数据的水平条形图;生成美国或世界地图,并依据用户定义的度量来为创建的地图进行着色;利用 GUESS 或 Cytoscape 可视化插件来执行数据可视化操作。


(7)帮助(Help)菜单。“帮助”菜单的主要功能是让用户藉此来了解Sci2的相关信息(例如,配置信息、开发信息等),它还提供一些联机文档。借助用户手册、在线视频等文档,用户可以更好地使用该软件。


2.2 主要窗口


Sci2中主要有Console、Data Manager、Scheduler 等三个窗口(如图 2 所示),它们从不同方面来记录数据处理过程,让用户充分地了解分析步骤。当出现失误时,用户也可以根据调试窗口中出现的提示信息来找到错误点。


(1)调试(Console)窗口。调试窗口展示了数据处理过程中执行的各种操作,以及一些数据处理信息。例如,该数据集节点和边的总数,数据集是强链还是弱链。当数据输入出错时,会出现红色提示信息,利用它可以帮助用户找到出错的地方;黄色信息是由于数据不全面等原因引起的,可以暂时忽略不计,一般不会影响数据的分析和处理。


(2)数据管理(Data Manager)窗口。数据管理窗口主要以树型结构来展示数据处理过程,显示了当前所有加载的可以使用的数据集(比如,表格、网络、矩阵、数据库、树型数据等),其中最常用的数据集是表格和网络。
用户可以根据自己的需要,右击“View”按钮来查看数据表格中的信息。


(3)调度(Scheduler)窗口。调度窗口主要用来显示数据处理进程,当处理有误时,就可以删除错误的数据。


3 Sci2的功能优势


与现有的其他信息可视化分析软件相比,Sci2在知识图谱绘制等方面拥有一些优势。


3.1 可以加载各种格式的数据


与其他知识图谱分析软件相比,Sci2可以加载多种通用格式(包括.xml、.net、.isi、.csv、.bib、.enw、.nsf等不同格式,如图3所示)的数据,以满足不同用户需求。例如,如果用户利用的是 WOS(Web of Science)数据,则应该将从 WOS 中检索到的数据先保存为 .txt格式,再经过一些处理就能够将该数据直接导入到 Sci2中。如果直接将 .txt 文件导入到 Sci2中,则该软件不能够正确识别。此时,需要先打开该 .txt 文件,将首行内容修改成“FN ISIExport Format”,并且在表示一条记录结束的ER 标志后面空一行,最后保存该 .txt 文件。


3.2 可以抽取多种数据网络


Sci2支持抽取多种常用的网络(如图 4 所示)。例如,它可以抽取定向网络、双边网络、引文网络、作者文献网络、共现网络、词共现网络、合作者网络、引文耦合网络等。当用户下载了数据库插件以后,“Data Preparation”菜单栏的最下方就会出现“Data Base”选项,用户就可以加载各种数据库信息,并进行相应的分析。
与现有的其他知识图谱软件相比,Sci2在数据网络构建方面的功能还是较全面的,再加上用户可以自定义扩展数据库插件,这就使得Sci2在网络构建方面的功能甚至比 CiteSpace、Bibexcel 要更强一些。


3.3 强大的数据分析统计能力


Sci2集成了一些数据分析统计功能。在将数据输入到 Sci2时,Console 窗口中会显示该数据的记录数。同时,Data Manager 窗口中也会同步显示该数据的条数。此外,用户可以随时计算网络中节点和边的一些信息。例如,选择“Analysis>Network>Network Analysis Toolkit(NAT)”菜单项,对网络进行分析,这时边和节点,孤立点的一些信息都会显示在 Console窗口中。用户还可以分析网络中的一些信息。例如,对时空信息进行突发检测,计算地理空间坐标,分析非加权 & 无向网络、加权 & 无向网络、非加权 & 定向网络、加权 & 定向网络的情况。通过上述分析可知,Sci2基本上可以满足研究人员的各种需求。


3.4 强大的数据处理能力


Sci2集成了各种数据处理功能,它具有强大的数据处理能力。当数据量很大时,用户可以根据自己的需要,选择对数据进行相关处理,去除一些孤立节点,抽取前 N 个节点和边(如图 6 所示)。
图 6 对数据进行处理数据处理与数据分析之间没有明显的先后次序之分。用户可以根据自己研究的需要,选择先进行数据处理,再分析网络情况。用户也可以先分析网络情况,事先了解网络中有多少孤立节点,以及边的权重(最大值、最小值、均值),再根据需要来选择提取前 N 个节点和边,或者进行其他处理。


3.5 多种可视化绘图工具


在对数据进行可视化时,Sci2可以支持绘制多种形式的可视化图谱(如图 7 所示)。一方面,Sci2可以很容易地整合各种数据集、方程、工具和计算机资源。另一方面,许多可视化插件也可以根据研究人员的需要,很容易地整合到 Sci2工具中。
目前,比较常用的可视化插件是 GUESS。当网络数据很大时(例如,进行引文分析),也可以用 DrL 算法先将网络进行一定的缩减。短期或者时间编码的数据可以显示在水平条形图上。地理编码数据可以呈现在一张世界地图或者美国地图上。Cytoscape 则是一种网络分析和可视化的通用平台,含有多种布局算法(例如,Cyclic、Tree、Force-Directed、Edge-Weight等)。在最新发布的软件版本中,R 语言和Gephi 可视化工具还可以以插件的形式与 Sci2相结合,使得 Sci2的可视化功能更加强大。
4 Sci2应用举例Sci2可以构建多种网络图谱(例如,合作者网络图谱、词共现网络图谱、作者共被引网络图谱、文献共被引网络图谱、书目耦合网络图谱等)。下面,笔者以构建著名信息计量学家加菲尔德(Garfield E.)的作者共现网络(Author Co-Occurrence)知识图谱为例,具体介绍在 Sci2中绘制知识图谱的主要步骤。


4.1 数据下载及预处理


在 WOS 检索界面中输入“Garfield E*”,条件是按作者检索,最后检索出1540篇文献,再将数据保存为.txt格式(如图8所示)。
由于 WOS 中一次只能下载500篇文献,所以分4次进行下载。需要补充说明的是,如果将该txt文件直接导入到Sci2中,该软件是不能识别的。为此,需要对下载的txt文件按以下步骤进行简单的预处理:先打开txt文件,将其首行内容替换成“FN ISI Export Format”,并且在表明一条记录结束的 ER 标志后面空上一行,再开始新的一段数据,最后保存该文件。


4.2 构建作者共现网络知识图谱


利用 Sci2构建作者共现网络知识图谱时,主要包括以下几个关键步骤:加载数据;对数据进行预处理;分析数据节点和边的信息,并将度的属性信息增加到节点列表中;利用GUESS 可视化工具进行数据可视化;为了更加直观形象地展示图谱,还需要在 GUESS 的参数设置面板(Graph Modifier)中进行参数设置,同时还需要在 Interpreter 中编写一小段 Python代码来对图谱进行细微调整。
下面,就以在 Sci2中构建作者共现网络知识图谱为便,具体介绍其中涉及到的一些关键步骤。


(1)加载数据。选择“File>Load”菜单项,Console 窗口中随即会显示一共加载了1541 条数据,去掉一条重复的数据,共计有1540 条数据,这与前面提及的在 WOS 中检索到的数据保持一致。在加载数据时,用户也可以采用拖放形式,将文件加载到Sci2中,这样做也许更简便一些。按住鼠标指针,将想要导入 Sci2的文件或文件组拖到“数据管理”窗口,松开鼠标即可。


(2)选择“Data Preperation>Extracted Co-authorship Network”菜单项,对数据进行预处理,抽取合作者网络。


(3) 选 择“Analysis>Network>NetworkAnalysis Toolkit(NAT)”菜单项,分析该网络节点和边的情况。详细信息随即会显示在“Console”窗口中,它们为后面进一步操作以及在 GUESS 中设置参数等提供一定参考。
“Preprocessing>Networks>Delete Isolates”菜单项,将孤立节点删除)。节点的主要属性有:标签、引用次数、作品总数等。此外,本例中共有244条边。边的权重最小为1,最大为9,即至少有一次合作,最多有9次合作。


(4)为了将度的属性信息增加到节点列表中,可以选择“Analysis>Networks>Unweighted& Undirected>Node Degree”菜单项。


(5)选择“Visualization>Networks>GUESS”菜单项,将数据进行可视化。具体步骤都会在进程调度窗口(如图 9 所示)中显示出来。同时,右侧的数据管理窗口中也会显示分析过程(如图10所示)。


(6)在 GUESS 中对图谱进行调整,设置具体参数。


4.3 GUESS控制面板参数设置


用户可以根据自己的研究需要,在 GUESS的控制面板中进行相应的设置,比较常用的操作 有:Resize Linear、Colorize、Object、ShowLabel、Hide Label 按钮(如图 11 所示)。
首先,在 Resize Linear 中,对节点大小和边进行设置,让重要作者加大显示,以方便用户分析和观看。具体操作步骤如下:
① Resize Linear > Nodes > Number of Works> From: 1 To: 30 > Do Resize Linear (Note: numberof works is the number of papers);
② Resize Linear > Edges > number of co-authored works From: 1 To: 10 > Do Resize Linear(Note: number of co-authored works is the numberof co-authored papers。
在本例中,合作者最多为 9 篇文章,因此设置的参数为 1-10 之间。
其次,对节点和边的颜色进行设置,使节点和边之间的区别更加明显。具体操作步骤如下:③ Colorize > Nodes > number of works From:To: >Do Colorize;④ Colorize > > number of co-authored worksFrom: To: > Do Colorize;再次,根据用户自己的需要,对节点和边的现实进行必要的设置。例如,在本例中,就设置为让度≥4的节点显示作者。具体操作步骤如下:⑤Object: nodes based on -> > Property:number of works > Operator: >= > Value: 4> ShowLabel;⑥Object: edges based on -> > Property:number of co-authored works > Operator: >= >Value: 4> Show Label;最后,在 Interpreter 中用 python 语言编写一段小代码,其主要目的是:让不相关的节点颜色变淡,让合作者之间的关系更加突出。具体操作步骤如下:Type in Interpreter:>for n in g.nodes:n.strokecolor = n.color经过上述调整,得到最终生成的知识图谱(如图 12 所示)。
需要补充说明的是,在Sci2中,如果用户有编辑好的脚本,则可以直接利用设置好的脚本。在Script 中,直接使用 Co-Author-nw 这个脚本,但是,为了更好地显示用户的需要的信息,用户也可以自己设置相应的系数。
从最终生成的知识图谱(如图12所示)中不难看出:与Garfield E合作最多的几位作者是:Sher IH、Revesz GS、WelljamsdorofA、Small h、Pudovkin A。在知识图谱中,边的值一般代表的是合作次数。在图11中,GarfieldE 与 Sher IH 合作有9篇论文,与Revesz GS合作有5篇,与 Welljamsdorof A 合作有9篇,与Small H 合作有6篇,与 Pudovkin A 合作有8篇(合作论文详细情况如表1所示)。与 Garfield E合作的这几位高频作者在合作时间方面都呈现出一定的阶段性。例如,Sher IH 与 Garfield E合作主要是在20世纪60年代,Pudovkin A 与Garfield E 主要是在21世纪以后才合作。
总之,利用 Sci2绘制知识图谱,用户不仅可以一目了然地看到他们之间的合作关系网络,而且还可以根据自己的研究需要,设置不同的权值,选择性的显示不同权重值的标签。


5  Sci2的局限性


与其他知识图谱工具相比,Sci2拥有一定优势,但它同时也存在以下局限性:


(1)运行 Sci2时,需要占用大量的内存,对电脑系统的要求比较高,尤其是在处理引文关系网络时,由于节点和边的数据量都很大,在对绘制好的图谱进行调整时,常常因为电脑内存的不足而出现死机现象。这主要是由于 Java 虚拟机的限制造成的。因此,建议用户在使用 Sci2时,必须在应用程序启动之前确定Java 应用程序的可用内存量。Sci2目前为大多数应用分配的可用内存量的默认值是 350 MB。
对于大多数分析应用来说,这一默认值应该足够了。如果需要进行大数据量的引文分析时,则建议增加系统的可用内存空间。


(2)因为是 Sci2国外学者主持开发的一款通用的知识图谱分析软件,所以它在对英文文献进行格式处理时功能上显得比较简单一些。此外,到目前为止,还没有出现中文版的 Sci2。因此,对于我国的广大研究人员来说,如果想要使用Sci2来处理中文数据,则需要对中文数据进行相应的转换才行。


参考文献(略)

提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。
本论文由代写论文网整理提供 http://www.dxlwwang.com/
需要专业的学术论文资料,请联系我们客服
本文地址:http://www.dxlwwang.com/sci/927.html
论文关键字:Sci2 知识图谱 可视化 网络知识 海量信息