第章绪论
1.1概述
随着高等教育不断发展,高校的科研工作己经成为一项除教书育人外的一项重要任务,对于高校科研管理的建设目前己经成为强化各个高校科研管理水准关键方式。高校的科研管理工作除了对高校的教育工作可产生深远的影响之外,也是在校教师和科研人员日常工作中的一项重要的构成部分。科研成果不但是衡量广大教师教学水平的核心标志,也对教师和科研工作者职称评定及业绩考核等工作直接相关,通常,也与教师和科研工作者的切身利益相挂钩。
近年来,高校科研人员的人数不断上升,使高校科研管理工作面临更大挑战。需要通过更加科学的方式,对每个科研工作者的成果和相关信息等进行有效管理。如何通过科学的信息化手段和方式使日常科研管理更加科学、健全和规范,己经成为现阶段各个高校科研管理机构面临的关键问题。
目前,越来越多的高校开始充分利用网络和信息技术,通过科学的管理方式构建一套较为完善和健全的高校科研管理体系,从而在为科研工作者和管理者创造优越信息化环境的同时,也进一步推进了信息的传递,进而为高校的科技创新提供具体和准确的服务。同时,科学的科研成果管理系统还可从更深层次强化高校科研工作的正常发展,理顺高校科研工作程序,提高科研管理效率,更重要的是,通过数据统计和分析,为高校在科研领域的决策提供行之有效的辅助手段和智力支持,最终实现高校科研管理水平和工作效率的显著提升。
近年以来,高校科研管理精细化的概念被提出,要求在研究、规划和部署科研管理工作中,将工作流程和具体业务进行细化,使科研管理组织内的各分支部门在业务流程中做到精确、高效、协同、持续运行,把复杂且难以程序化的业务做到简单化、规范化、程序化、标准化,逐步形成精细化的科研管理模式。在这种发展趋势下,可视化分析方法在科研成果管理方面的应用应运而生。
1.2本文主要研究内容
本文选取某985高校2007-2013年信息化系统中所存储的科研成果(主要包括博士研究生和硕士研究生毕业论文、研究生和科研人员在期刊和杂志上发表的论文、申请和授权的专利、申请的著作权以及各类科研立项等)方面的数据,以数据收集、数据预处理、数据计算、绘制图谱以及分析与讨论五个主要步骤,通过梳理科研成果的结构化和非结构化数据,引入量化的、可视的统计、分析和呈现方法、,结合现有的可视化工具和数据挖掘算法,探索比较准确、客观地阐述可视化分析方法应用中诸多要素的内在关联的路径。在此技术化,通过构建相应的应用系统,对理论和方法进行验证,为促进可视化分析方法在高校科研成果管理方面的应用提供参考。
1.2.1研究思路和技术路线
遵从一般的数据挖掘和可视化方法,本文从数据准备、预处理、分析挖掘和可视化呈现等几个方面开展研究,对科研数据的抽取、整理、分析和挖掘,以可视化交互的方式,实现研究热点、关键词、共词等面向主题的统计、分析和可视化呈现,具体如下图所示。
(1)数据准备
数据准备是科研成果挖掘和可视化中至关重要的步骤。这个阶段的主要任务是根据科研成果可视化的具体目标(如关键词、主题、研究热点等),确定科研成果管理各子系统和数据库中的对象,以及进行挖掘所需要的数据源。从这些数据源中抽取数据,并汇总和集成到统一的数据仓库,这些经过整理的科研信息是接下来进行有数据挖掘的基础,因此数据的有效性、可靠性和准确性都会直接影响数据挖掘和可视化效果。
第3章科研成果的数据分析和挖掘方法.....22
3.1数据准备.........22
第4章科研成果可视化关键技术和方法..........37
4.1文献数据挖掘与可视化分析.........37
第5章髙校科研数据分析平台.......50
第5章高校科研数据分析平台
5.1概述
传统的高效科研管理系统分析手段单一,一般只具有信息录入和简单统计功能,数据量规模增容只能靠数据库性能调优的缺陷,本章设计和实现的综合管理和可视化平台除具备项目管理、成果获奖管理、科技活动管理、业绩考核管理、财务管理等基本功能之外,还具备:
支持大数据量访问以及客户端丰富的查询分析功能
支持层次聚类展示分析,聚类算法可进行配置替换
支持可配置的结构度量统计分析功能
支持用户对具有特定业务属性的某一个或一些关键字实体进行搜索
支持可根据用户需求进行展示风格设置的可视化功能
支持可协助用户进行多图和分层可视化分析的动态导航树功能
第6章总结和展望
科研管理信息系统已越来越在各大科研院所普及,然而传统的科研成果数据汇总已不能满足为学科建设提供决策依据的需要。对系统产生的大量科研数据进行数据挖掘,具有重要的应用前景。数据自身的标准性、延续性、周期性、实时性、关联性为数据挖掘提供基础,通过应用数据挖掘技术对科研数据进一步分析,有益于更科学地了解科研规律,指导科研活动,促进学科建设。
本文通过构建一个高校科研成果管理系统,实现了科研成果的多维数据分析和挖掘,并在文本分析的基础上,针对科研成果中的研究热点、关键词词频、共词聚类等主题,设计了可视化方法。在系统实现上,将用户可视化过程中生成的中间结果和重要视图作为历史,以相似性分析、距离中心性和路径中心性度量作为分析依据,分析历史视图与当前用户生成视图之间的关联关系,将与当前可视化结果最为相似的历史信息推荐给用户,方便用户快速过滤、浏览相似结果,并实现不同可视化结果的对比。主要完成了以下工作:
(1)对可视化技术、科研成果的表现形式、一般分析方法进行了综述介绍,对科研成果管理系统的主要功能、数据特征和一般架构进行了阐述。
(2)对空间向量、概率模型和统计模型等文本分析方法进行了比较和论述,对基于关键词的文本内容可视化、时序性可视化技术、文本特征分布模式和文本关系的可视化方法进行了介绍和讨论,并对国内外现有的面向科研领域的成果科技化系统进行了描述。
(3)针对科研成果数据所存在的数据来源多样性、数据存储方式非结构化和数据不完整性等问题,本文提出了统一的数据集成处理流程。包括了元数据模型的定义、面向服务的数据集成、基于网络爬虫的网页数据爬取和数据完整性处理等相关处理流程。
参考文献(略)