1绪论
1.1课题背景及研究的目的和意义
1.1.1课题背景
随着信息技术的高速发展,医疗保险覆盖面积不断扩大的同时也使得医保信息系统得到了广泛的应用。医保机构因此积累了大量的历史数据,其中包括患者的就诊信息、医疗机构信息、治疗项目、总费用、补偿费用等。这些数据的容量往往以G为单位,在一些大型城市由于人口密集,新农合的业务数据甚至会达到几十G上百G乃至级别,要从如此海量的数据中依靠传统的逐条比对蹄查出具有疑似欺诈的案件,其难度和工作量都是难以估计的。而现有的医保信息管理系统大多仅能完成登记、查询、修改以及一些基本的统计功能,在完成大数据量的审计稽查、深层信息提取等方面的工作上还具有一定的局限性。如何有效的利用新农合管理系统中积累的海量历史信息,为医保中心实施监管的工作中提供决策支持,实现新农合的健康可持续发展,成为了当前所要解决的首要任务。
在新农合管理信息系统的数据库中,存在疑似违规欺诈行为的记录显然将与常规合理的补偿记录在某些维度上具有差异性,而这在数据集合的概率分布中将以离群点的形式表示出来。事实上,人眼对于发现多维数据集合中的离群点相当困难,故此采用基于离群点检测的技术识别新农合医保数据中具有疑似欺诈行为的记录成为了本文的研究课题。
1.1.2研究目的和意义
现有的国际经验己经证明,在医疗保险中由于第三方支付的原因,虽然提高了人们的医疗费用的支付能力,但同时也促使医疗费用整体呈现加速上升的趋势。新农合运行管理中的重要工作之一就是加强监测,控制因道德风险而产生不合理费用的支出。然而由于医疗行业的高度专业性,个体病况的差异性,疾病治疗的复杂性等多方面原因,使得医保监管工作得不到要领,无法有效缓解医疗费用上涨的压力,甚至突破了保障基金底线发生了制度危机。这就突显了本课题研宄内容的重要性和现实意义,利用商业智能技术对新农合保险数据进行分析,发现具有显著偏离常规数据集的异常点,识别出具有疑似医保欺诈等违法违规行为的记录,辅助合管办人员的审查监管工作是本文的主要研究目的。
..................
1.2论文的组织结构
本论文共分为四个章节,具体组织结构如下:
第一章绪论。本章主要讨论了课题的研究背景与意义,并介绍了国内外在医疗保险制度方面的现状和研究热点。
第二章相关概念和理论。离群点挖掘属于数据挖掘中的一个分支,顾本章首先从数据挖掘的概念、数据挖掘的过程和数据挖掘算法几个方面做了概括性的介绍。其后针对离群点挖掘的问题,分别从离群点的定义,离群点的类型,离群点的检测方法以及离群点挖掘的应用几个方面进行了阐述,为后续的理论研究奠定了基础。
第三章新农合医保欺诈识别的算法。本章重点关注了欺诈检测的算法。以离群点检测算法为主,针对目前现有的几类方法从基本思路、优缺点和适用范围几个方面分别进行了详尽细致的分析。并在此次基础上提出了一种两阶段的离群点检测算法TSOD。
第四章新农合医保欺诈识别的仿真。本章系统的实现了对新农合医保欺诈事件的识别。结合实际情况分析了新农合制度的运行模式,设计了新农合医保数据仓库的模型。在完成了用两阶段离群点检测算法识别医保欺诈事件的基础上,进一步分析了其他算法的效果。
......................
2相关概念和理论
离群点检测是数据挖掘研究的一个重要方向。本章首先简单介绍了数据挖掘的概念,讨论了数据挖掘的流程,在了解了数据挖掘的分类及算法后,重点针对离群点的挖掘做了深入细致的分析。
2.1数据挖掘概述
2.1.1数据挖掘的概念
自1995年在加拿大蒙特利尔召开了第一届“知识发现和数据挖掘”国际学术会议以后,数据挖掘一词便流传开来,引起了信息产业界和整个社会的极大关注。从技术角度看,数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程。人们将数据喻为矿石”,数据挖掘就是一个从数据“矿石”中开采知识“黄金”的过程。从商业角度看,数据挖掘是一种新的商业信息处理技术,其主要任务是对商业数据库的大量业务数据进行抽取、转换、分析(ETL操作)等模式处理,提取出辅助商业决策的关键性知识,即发现数据中的相关商业模式。
数据挖掘被视为知识发现的一个基本步骤。知识发现是由计算机科学界提出的,即发现数据库中的知识。大量知识的积累就形成了智慧,而人类的发展史就是通过各种活动不断收集数据、分析信息、创造知识、不断累积的螺旋上升过程。知识发现的一个完整过程包括数据源的建立和管理、从数据源中提取数据、数据预处理、模型建立、模型评估、模型可视化以及模型应用等一系列步骤。图2-1展现了数据挖掘和KDD之间的关系。
数据挖掘融合了多种学科的理论方法和技术手段,其中包括统计学、人工智能、机器学习、模式识别、高性能计算、数据可视化、数据仓库技术以及空间(时间)数据分析等。不同科研领域对数据挖掘的研宄有着不同的出发点和侧重方向,例如:从机器学习的角度,侧重探讨各种算法的精度和效率改进策略,关注建模过程的模型搜索和参数化选择等问题从数据库和数据仓库技术的角度,侧重拓展数据挖掘过程中的数据管理理论和方法,以及数据挖掘产品的商业化实现;从可视化角度,侧重研宄低维空间中高维数据的展示问题;从计算性能角度,侧重并行算法的研究以提高海量数据的计算效率等。
...................
2.2离群点挖掘概述
离群点挖掘是数据挖掘中的关键任务之一,最早被当做数据挖掘中的聚类问题处理,通过发现规模较小的簇或不属于任何簇的数据点来确定有异常的对象。近年,离群点的探索逐渐成为人们关注的热点,故此被提出成为一类单独的数据挖掘问题。简单来说,离群点挖掘就是指从n个观测中选出k个与其他大部分数据显著不同、例外或不一致的对象的过程。
从量化分析的角度来说,离群点的存在会影响建立模型的分析结果,检测并过滤数据集中可能存在的异常观测点,是提高数据模型的准确性和可靠性的前提和保障。从应用角度来说,离群点检测在诸多领域蕴含着深远的意义。例如在洗钱、信用卡欺诈、股票内幕交易、军事侦察以及网络入侵等方面的研宄中,稀有事件往往比正常事件的出现更令人感兴趣。利用有效的数据挖掘算法快速准确的实现对离群点的飄别,为用户深入分析和理解数据提供支撑,其意义是显而易见的。
数据采集过程中的人为因素。例如信息录入过程中由于误操作、机器故障或系统缺陷等而引起的传输错误,数据丢失、单位混靖等原因都可能使部分数据成为离群点。这类离群数据挖掘的结果往往没有价值,其存在反而会影响数据模型反映现实情况的真实性和准确度,因而常在数据预处理的过程中与其他类型的数据挖掘过程一样,将其当做噪音进行转换处理或清洗剔除。
数据内在特性和固有变化所决定。例如在气象研宄中,温度、湿度、风速等一些属性参数随季节变迁而周期变化;又如在股票交易、外汇买卖、基因突变以及顾客新的购买模式等活动中也都存在某种起伏规律。这种因存在循环变化、潜在趋势而表现出离群状态的观测,是自然发生的,从侧面能够反映数据集的特殊分布,其实验结果是“有趣的”,值得认真考虑。
.................
3新农合医保欺诈识别的算法..........17
3.1传统的离群点检测算法........17
3.1.1基于统计的离群点检测算法..........17
4新农合医保欺诈识别的仿真........28
4.1业务理解与需求分析.........28
4.2医保数据仓库的设计.......29
4新农合医保欺诈识别的仿真
4.1业务理解与需求分析
新型农村合作医疗(简称新农合)是我国政府为解决农民“因病致贫,因病返贫”问题而制定的一项由多方筹资以大病统筹为主的惠民政策。制度的发展和完善是一个动态的过程,不同的时期有不同的工作重点。在新农合制度实施的初级阶段,主要任务是探索制度运作模式和扩大试点范围,对于各地区重点加强经办机构的基础设施建设和组织宣传工作。随着范围的不断推进,新农合制度现已基本覆盖了全国农村居民,步入了以巩固提高为主的第二阶段。在这一阶段,由于制度水平的提高以及费用补偿的短期性和频繁性的特点,新农合的数据出现了指数级的增长,给管理人员造成了巨大压力。另一方面,因为保险行业的特点,新农合的道德风险问题也逐渐显现。
道德风险的概念来源于保险学,泛指在市场交易中由于信息不对称,供方难以监督需方行动而造成的损失。在新农合制度的实施过程中涉及着多方利益主体,包括:政府、经管机构、定点医疗单位、医生以及参保农民等。如图4-1所示,描述了新农合制度运行中各角色之间的关系和基本运作机制。其中,政府承担着新农合制度运行中的主要责任,由合管办负责基金的筹集和医疗费用的补偿。二者对于规避道德风险的问题上有着共同需求,在与定点医疗机构、参保农民构成的关系中,其信息跟踪明显处于劣势,难以保证每条就诊的记录的真实性。这就促使了医患共谋套取新农合基金现象的发生。如参合患者配合医疗机构挂床住院,小病大养,假借他人合作医疗证冒名住院等。除此之外,一些社会团伙,通过伪造病历,虚开发票等手段骗取新农合基金的显现也是屡见不鲜。
..................
结论
新型农村合作医疗制度是从我国的基本国情出发解决农民“因病致贫,因病返贫问题的一项重大举措,为提高我国农村居民医疗卫生水平起了重要的作用。然而,新农合制度同时具有保险行业的特点,不可避免的存在着道德风险,由于人的机会主义倾向而易发生医保欺诈等违法违规行为,严重威胁到了新农合资金运行的安全,影响了制度的可持续发展。据此,本文采用离群点检测技术实现了对新农合医保数据中欺诈行为的识别,为管理者事后稽查的工作提供了辅助参考和决策支持。具体完成了以下几个方面的工作:
研究了数据挖掘和离群点检测技术。针对前者主要分析了数据挖掘的流程,为后续设计新农合医保欺诈检测的方案奠定了理论基础。对于离群点检测择主要选择了离群点的定义、类型和实际应用等几个方面进行了分析,特别的对于离群点检测的方法做了深入细致的讨论。比较了基于统计分布的方法、基于聚类的方法、基于邻近性的方法等几类典型的离群点检测技术。明确了各类方法能够处理的数据集合类型、适用范围以及优缺点,掌握了离群点检测的核心思想。
本文以对离群点检测的理论研究为基础,探索了新农合医保欺诈事件的识别,在国内鲜有先例的情况下,达到了预期的目标,并取得了较好的效果。但是由于本人的能力和时问有限,部分细节还值得思考和完善。在离群点检测的过程中,可以借鉴领域专家的知识,选择更有影响的数据属性参与运算。对于保障新农合资金运行的安全,除了事后稽查的工作,还应制定更完善的事前预警、事中监控的管理制度,并加强法律手段和道德约束。
参考文献(略)