本文是一篇计算机论文,计算机的应用在中国越来越普遍,改革开放以后,中国计算机用户的数量不断攀升,应用水平不断提高,特别是互联网、通信、多媒体等领域的应用取得了不错的成绩。(以上内容来自百度百科)今天为大家推荐一篇计算机论文,供大家参考。
第 1 章 绪 论
1.1 论文的研究背景与意义
本课题来源是国家自然科学基金“金属材料科学数据语义集成关键技术研究”(51271033)。其意义是为了能够得到比较丰富的集成金属材料图谱,以便供材料专家能够基于领域的术语进行查询和使用。随着科技的发展,各行各业的信息呈爆炸式增长,领域数据的集成变得尤为重要。近年来,本体随着Linked Open Data(LOD)的迅速发展,大量的跨领域的数据通过本体集成,利用领域数据对本体知识的填充正成为一个本体数据集成的热点研究问题。目前,在环境、化学、生物医学、绘画保护等领域都建立了比较完备的领域本体,并且在各自领域都得到了较好的应用。在金属材料领域,也存在对应的领域本体,例如STSM[1]等,但是在这些领域本体中,概念层的结构相对完善,但是实例层的数据却相对稀少[2]。然而,在DBpedia[3,4],Wikipedia,Yago[5,6]等开放数据集中存在大量LOD数据,并且这些数据包含各个学科内容,同时也正因为这些LOD数据量的庞大,涵盖的知识面广,使得对单独领域数据的使用造成很大的困难。为了方便对单独领域的LOD数据的使用和补充金属材料本体实例层的知识,本课题利用LOD数据中的金属领域数据填充金属材料领域本体。本课题旨在设计一个使用LOD数据实现本体的填充系统。本课题的实质利用LOD数据,通过数据的预处理操作和本体的填充策略,实现本体知识的填充。因此,本课题对领域本体知识的丰富以及领域数据的语义集成有着重要的意义。
.........
1.2 研究内容
为了实现LOD到领域本体的填充,本课题的研究内容主要分三个方面:在LOD中,大多以无领域性数据集的形式存在,虽然该类数据集中数据之间存在关联,但是,数据中的领域并没有明确的区分。所以当我们需要使用其中某一单独的领域数据时,需要对LOD中特定领域数据进行抽取。例如,本文研究使用LOD填充金属材料本体,也就是只需要LOD中金属材料领域的数据。所以对于在填充领域本体之前对LOD的领域数据进行筛选是必要的。此外,在本文中我们旨在使用机器学习中的算法获得LOD中填充数据在领域本体中的填充位置。然而,对于机器学习中的算法来说,其都有特定的输入要求,针对不同问题使用不同的机器学习算法。同时,根据当前使用的机器学习算法将LOD中的填充数据进行其对应的输入格式的转换也是必不可少的。所以针对LOD的筛选,本文设计了根据领域本体使用直接链接子图语义距离算法和主题模型中的LDA算法筛选LOD中特定的领域数据。同时,根据采用的不同的机器学习算法,本文分别设计了根据需要被填充的本体将填充数据转换为相应输入特征的策略。
.......
第 2 章 相关研究综述
2.1 LOD 的领域数据抽取研究
目前,随着语义网的快速发展,大型 LOD 也在不断增长中,例如 DBpedia,Yago等知识图谱,同时各行各业领域本体的快速出现,也使得根据领域本体针对大型 LOD的相关研究越来越多,例如使用 LOD 进行领域本体的构建[7,8],映射[9~11],和填充[12,13]等,并且由于这些知识图谱大多都为领域无关的,各个领域的数据交织在一起,并没有明确的区分,所以使得抽取 LOD 中特定领域数据的研究变得尤为重要。目前针对提取LOD中特定领域相关数据大多采用人为指定抽取入口的方式进行抽取工作,并且在涉及到筛选的过程中也需要介入人为操作,或者第三方库作为筛选依据,当需要更改筛选的领域时,还需要重新寻找第三方库作为筛选的依据,不能相对容易的更换抽取数据的领域。例如,文献[14]在一个简单的查询或其他起点的基础上,从维基百科层次中剥离出一个兴趣区域进行抽取 DBpedia;文献[15]使用用户感兴趣的词袋作为入口,抽取 Yago 中的相似实体;文献[16]规定抽取概念入口,进行提取 Yago 中的金属材料领域数据,并介入人为操作对抽取的结果进行筛选;文献[17,18]借助于第三方库帮助识别特定领域的数据集。对于抽取其中 LOD 的方式大致分为两种,一种是基于相似度计算的方式,通过相似度计算,获得相关概念。在KFN[19]中利用实例的属性信息之间的相似度识别 LOD 中的相关领域概念;文献[20]借助于 Jaccard 算法获得生物学领域的相似概念;文献[16]结合 WordNet 使用 SMOA算法抽取 Yago 中的相关概念。另一种是基于 LOD 的数据结构,文献[21,22]使用直接链接子图语义距离算法抽取 DBpedia 中的相关概念,文献[23]提出一种使用最短路径的方式获得两个概念之间相似性。
.........
2.2 本体填充研究
在领域本体中,类构成了整个本体的知识框架,实例和属性信息代表了该领域的知识。对于现有的领域本体来说,大多的应用问题都集中在整个类知识框架上,但是对于使用者来说,不仅希望领域本体中的 schema 层结构完整,而且还需要本体中存在大量 instance 层的数据信息,所以目前对领域本体 instance 层填充的研究越来越多。使用数据表填充本体:由于表格数据之间的结构差异不是很大,并且表格数据也能充分体现数据信息,所以现有的表格数据也就越来越多,使用表格数据填充到本体中的研究也就随之出现。例如,将 HTML tables 中的表格数据信息填充到钢铁语义模型 STSM 中[24];根据百度百科中的数据实现本体数据中实例抽取及属性的填充[25]等。使用文本信息填充本体:文本信息是最常见的数据形式,其包含的信息量也十分庞大,通过对文本信息的分析,从文本中提炼出相关信息填充到本体中。所以文本也成为本体填充数据的来源之一,例如:从现有的效应文本中抽取出效应信息,使用 B-M-Onto 模型分析匹配位置并添加到效应领域本体库 EKB 中[26];text2onto[27]实现了从文本中实现本体的构建等。然而,随着 LOD 的快速发展,对 RDF 数据的相关研究也越来越多[28~30],并且对本体相关操作的数据也逐渐开始使用 RDF 数据。例如,利用 SILK[31]关联发现框架,通过关联规则把金属材料图谱中的实体和 Ashino 金属材料本体中的实体建立链接;文献[32]根据 Yago 的结构和字符串匹配算法生成一个金属材料本体等。
.........
第 3 章 基于领域本体的 LOD 领域性筛选 .......... 9
3.1 问题描述 ...... 9
3.2 基于领域本体筛选 LOD 领域性数据的方法.... 9
3.2.1 获得种子关键词集 .... 10
3.2.2 获得 SKOS_Cetagory 中的目标概念集 .... 14
3.2.3 获得实例和属性信息 ............ 18
3.3 实验分析及评价 ...... 18
3.4 本章小结 ............ 25
第 4 章 基于概率图模型算法的领域本体填充..........27
4.1 问题描述 ............ 27
4.2 相关定义 ............ 28
4.3 填充步骤概览 ........ 31
4.3.1 生成链式三元组 ...... 32
4.3.2 设计本体填充策略 .... 37
4.4 实验评估 ............ 39
4.5 本章小结 ............ 49
第 5 章 基于本体映射和分类模型的本体填充..........51
5.1 问题描述 ............ 51
5.2 方法概述 ............ 52
5.3 填充策略 ............ 53
5.4 实验评估 ............ 57
5.5 本章小结 ............ 60
第 6 章 系统设计与实现
本章主要介绍了基于 LOD 填充领域本体系统的设计与实现,为了方便用户的使用,我们分别设计了 LOD 的领域数据筛选系统、基于领域 LOD 的领域本体填充系统以及基于无领域性 LOD 的领域本体填充系统。其中 LOD 的领域性数据筛选系统是展示基于领域本体对无领域性 LOD 进行筛选,抽取其中与领域本体相对应的领域数据;基于领域 LOD 的领域本体填充系统展示的是使用已经抽取出的领域 LOD 填充特定领域本体;基于无领域性 LOD 的领域本体填充系统展示的是使用无领域性的LOD 填充领域本体,其中包含了针对领域本体抽取 LOD 中特定的领域数据及其到领域本体的填充。其中,对于各个系统的实现是采用基于 Java 使用 NetBeans 编程工具实现。
6.1 LOD 的领域数据筛选系统
针对 LOD 的领域数据筛选功能,为了方便用户的单独使用该功能,我们将其作为一个独立的展示系统进行展示。在给功能中,我们提供输入,设计到的算法的选择,及其参数的调整。同时我们也将每一步的结构进行展示,方便用户实时监控抽取过程中的每一步的结果。此外我们将抽取到的数据进行展示,并支持数据的导出,导出文件可以使用 Gephi 工具进行展示。在图 6-1 中,展示的是基于领域本体抽取 LOD 中的领域数据系统。其中①为该系统的输入平台,在该平台上给出了领域本体的输入位置,通过浏览进行选择电脑中的领域本体文件的存放位置,使用查看按钮可以看到该本体的 schema 层的数据结构,便于观看。同时我们给出了两个领域本体的输入位置,在系统中,支持使用相同领域的一个或两个领域本体进行抽取 LOD 中的特定领域数据。通过领域本体选择中的“A”、“B”和“A+B”实现。在②的区域我们提供该抽取系统中所涉及到的参数,同时对于使用的主题提取算法,“LDA”和“PLSA”两种算法可供使用者进行选择。在③的区域,展示的是抽取策略中获得的每一个小的中间结果,这样使用者可实时监控抽取的过程。通过按钮“结果数据展示”可对最后的抽取结果进行展示,其结果如图 6-2 所示。

.........
结 论
随着语义网技术的快速发展,各个行业的领域本体也逐渐增多,但是他们大多注重于 schema 层的构建,导致许多领域本体中的 instance 层数据不足。因此对领域本体填充的研究也是十分必要的。目前,针对本体填充的研究大多集中在使用文本和表格数据进行填充,从而忽略了现有的结构化数据。在一些大型的开放数据集中存在着大量的不同领域的知识和结构,如果能将 LOD 中的数据填充到特定的领域本体中,必然能极大的丰富本体 instance 层数据。在本文中,我们设计了将 LOD 中的数据填充到领域本体中的方法和策略。首先根据需要填充的领域本体,抽取了 LOD 中相应的领域数据。然后确定抽取 LOD 中的填充数据,并根据填充数据抽取其关联数据形成链式三元组。其次,分别根据机器学习中的概率图模型和分类模型获得填充数据在领域本体中的填充位置。最后将填充数据填充到领域本体中。(1)该方法不仅实现了 LOD 数据的领域化,还丰富了现有领域本体中的实例知识量,对于领域本体的发展提供了便利。(2)同时本文提出将 LOD 数据分割成一个个链式三元组的形式,然后分别根据链式三元组中的数据添加到领域本体中,避免了整体使用 LOD 数据带来的重复使用无用数据和操作整体数据的困难等问题。(3)在将链式三元组数据填充到本体的过程中,我们设计了利用机器学习算法中的概率图模型和分类模型两种方法分别实现链式三元组数据到领域本体中的填充位置的获得,与传统的本体填充策略相比,不仅不需要人为统计数据中的填充规则,而且当使用不同的数据集来源填充本体时,不需要再次统计填充规则,只需要直接使用该填充策略即可,减少填充人员对该领域的了解限制,也极大的减少了填充时耗费的人力和精力。此外,在获得填充实例在领域本体中的填充位置时,本文分别使用机器学习中的图概率模型和分类模型两种模型中的算法实现。虽然两种算法在获得最后填充位置的 F 值上是基本相同的,但是当采用图概率模型中 CRF 算法获得填充位置时,相对于分类模型中的算法能够使用相对较少的训练数据集就能达到相对稳定的状态。同时,由于使用的训练特征的不同,使得对抽取到的链式三元组数据生成特征时的方法也不同。在使用分类算法时,为了更加准确的消除数据之间的异构问题,需要借助于本体映射算法,然而,由于 CRF 算法可以将多种特征同时考虑在内,所以在本文使用 CRF 获得填充实例的填充位置时,没有借助于本体映射算法消除数据之间的异构问题。所以相对于分类算法来说,使用 CRF 算法能够相对容易的获得填充实例在领域本体中的填充位置。
..........
参考文献(略)
提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。