首页 >  毕业论文 > 法学论文 >   正文

法学论文:Cox模型中的变量选择方法及股票市场实证研究

添加时间:2018-02-03 19:06:39   浏览:次   作者: www.dxlwwang.com
专业论文资料, 搜索论文发表论文代写论文网为你解忧愁!详情请咨询我们客服。
获取免费的论文资料? 欢迎您,提交你的论文要求,获取免费的帮助

导 论

 
一、研究背景和意义
随着大数据时代的到来,人们在医学、经济、金融、生物学、工业等各个领域所接触到的数据越来越多的呈现出量大、种类复杂、变化快等特点,例如临床医学中的基因数据、金融学中的股票交易数据等,都是典型的高频数据,在气象观测、地质勘探、电商交易等方面也会产生高维数据,这些数据一般具有强相关、高维度、信息冗余的特点,并不是所有的原始数据都具有研究分析价值,人们经常发现,数据源中只有 10%~20%的数据有价值,而 80%~90%的数据都是没有用的,从大数据中挖掘出有效信息犹如大海捞针,在数量庞大且内容纷乱复杂的数据中,如何挖掘出比较有用的信息,取其精华,弃其糟粕,从而做出更加理性和准确的决策,是一个值得思考和深入探讨的问题,当人们面对一些量大且复杂的数据时,人们往往倾向于用较少的变量,来达到获取充分的资料的目的,这便涉及到了变量选择。众多统计学家与学者们在 20 世纪 60 年代,就开始把目光聚焦到变量选择1,毫无疑问,当谈论到数据分析方法时,人们能最先想到统计建模。在建模发展初期,研究者们通常会选择比较多的变量进入模型,意图避免模型偏差的不良后果,而偏差情况往往是重要自变量信息缺失造成的,然而,这种做法很有可能出现这样的结果:被选入模型当中的自变量,并不是全都对因变量有显著影响。这样的话,容易造成模型的参数估计结果不准确,所得到的结论缺乏可解释性。Fan(2001)提出变量选择应该具有三个良好的性质2,不应该存在计算复杂、在假设检验中有偏差等问题。由此可见,好的变量选择方法要能保证精度、可解释性以及模型估计的一致性。近年来,众多统计学家和学者提出了一些变量选择的方法3和准则4,这些方法与准则都具有一定的可行性和适用性,统计学家门可以运用这些方法与准则来解决较为简单的实际问题,但当处理高维数据时,这些传统的变量选择方法达不到令人满意的效果,适用性大大降低,显露出局限性。在模型中不断增添新自变量的情况下,容易造成计算量增大且计算过程变的复杂,从而无法进行正确的变量选择。近年来,在各大科学应用领域出现的高频数据,使得研究者们一直在思考如何降维,即从诸多变量中,找出对模型有重要影响作用的变量,剔除其余的无关变量。如何突破传统的变量选择方法,寻求更好更实用的方法,这是众多专家与学者十分关心的问题。
.........
 
二、国内外研究综述
之所以进行变量选择,是因为要寻找最能解释响应变量的自变量子集,使预测变量的预测效果得到改进,得到快速、准确、有效的参数估计值,从而提高模型的准确度和可解释性。近年来人们面对的数据越来越多的呈现出海量、复杂的特点,传统的变量选择方法已无法很好地处理复杂数据,统计学家和学者们开始寻求一些新的变量选择方法。1996 年,Lasso 方法7问世,该方法提出至今,受到众多统计学家和学者的高度重视,Lasso 方法和传统的逐步回归最大的不同之处是它可以对所有独立变量同时进行处理,而不是逐步处理,这便大大增加了建模的稳定性。此外,Lasso 方法还具有计算速度快、模型可解释性强等优点,它能很好的克服像子集选择、岭回归等传统变量选择方法上的不足。2004 年,最小角回归算法——Lars 算法的出现,使 Lasso 的计算问题得到很好的处理。Lasso 方法被提出之后,诸多学者对 Lasso 方法的理论与实践方面进行了深入的研究和探讨,并将该方法应用到一些经典模型8中,在此之后,研究者们相继提出了一些基于 Lasso 方法的衍生方法。SCAD 方法由 Fan,Li(2001)提出,他们在研究 Lasso 方法时发现,Lasso 方法的确拥有一些优势,而这些优势是很多传统变量选择方法所不具备的。但当系数的绝对值较大时,这种系数会受到Lasso方法过大程度地压缩,这样容易使模型产生偏差。于是 Fan 和 Li 尝试对 Lasso 方法进行改进,使 SCAD 惩罚函数得以诞生。SCAD 方法具备 Oracle 性质,稳定性也比 Lasso 方法好。Lasso 方法没有按照因素之间的次序来压缩系数,针对这个问题,Tibshirani,Saunder(2005)提出了 Fused Lasso 方法9,该方法技术还扩展到支持向量分类器下面的“铰链”损失函数,Tibshirani 将 FusedLasso 方法应用到蛋白质质谱和基因表达数据的研究中。Zhao,Yu(2005)指出了 Lasso 方法的一个缺陷,即在一些特定条件下,采用Lasso 方法得到的估计不再具有相合性和 Oracle 性质,Zhao 在该文中提出了 BLasso算法10,当真实模型稀疏时,模拟表明 BLasso 模型估计比来自具有相当或稍微更好的预测性能的向前逐步拟合 FSF 的模型估计更稀疏,并且离散步长 BLasso 和 FSF 在预测和稀疏性方面具有额外的正则化效应。此外,还引入通用 BLasso 算法来最小化由一般凸函数惩罚的一般凸损耗。
..........
 
第一章 Cox 模型和变量选择方法的理论基础
 
第一节 生存分析概述
在众多领域,都会涉及到研究某事件在给定条件下从发生到结束的时间,其中需要推断这一过程的持续时间,还需要进行预测。例如,在医学上,经常会出现这种现象:病人患某种疾病,经过医生治疗后有所好转或康复、到后来疾病再次发作、死亡。这其中就涉及到病人的身体状况从一种状态向另一种状态转变所需要经历的时间,医学研究者可以通过研究病人的对应时间来找出影响病人健康的重要因素。在可靠性工程学中,会出现机械从完好地投入使用到出故障或最后完全失效的情况;在社会学中,人们会面临找工作、赋闲、失去工作后再就业等情况;在保险精算学中,会产生投保人从投保到需要找保险公司索要赔偿等情况。以上情况都涉及到某事件的状态转变所经历的时间,而这些时间有何规律,是生存分析中需要研究的问题。生存数据指事件发生前后所经历的时间长度,生存数据主要有三个要素19,按要素分类,生存时间数据主要分为两类:一类是寿终数据20,该数据信息是完整的,“有头有尾”;另一类是删失数据,这类数据或“缺头有尾”,或“有头无尾”,或“无头无尾”。删失数据中又包括三种类型,简单来说,分为左、右、区间这三类。一般而言,左删失数据可以这样来理解:研究样本的生存时间小于某个值,它在进入观测期之前具体“存活”了多长时间,观测者无从知晓。右删失数据可以解释为如下定义:研究样本的生存时间大于某个值,观测者很清楚地知道它是在什么时候进入观测期,但是观测期结束之后,样本依旧“存活”。区间删失数据可以解释为:研究样本在进入观测期之前、处于观测期、观测期结束后一直保持一个状态,即它一直是“活着”的,观测者既不知道研究样本在进入观测期之前具体的“存活”时间,也不知道样本在观测期结束之后的生存信息。生存时间数据的分类具体见图 1-1。
.........
 
第二节 变量选择方法
相较于岭回归而言,Lasso 方法同样拥有岭回归的一些优良性质,比如大偏差、小方差等。Lasso 方法连续压缩可以提高模型的预测精度,得到的结果更加具有可解释性,它能够很好地应用于高维数据的稀疏模型,求解算法高效,这诸多优点,使得Lasso 方法从提出至今,收到广泛关注与应用。然而,Lasso 方法也有一些缺点,它过分拟合模型,模型最多包含 m   min( n , p)个自变量,它不能进行组选择,一般只能从一组相关的变量中选择一个,也不关心具体选择哪个变量进入模型,即 Lasso 方法不太适合处理共线性的变量选择问题。Brasley Efron 提出 Lars 后,有效解决了 Lasso 方法的计算问题,Matlab、SAS、R 等统计软件中均有现成的 Lars 程序包可供调用,方便快捷,大大降低了 Lasso 方法的计算复杂度。一般用各种方法建立统计模型后,诸如普通的 Cox 回归,利用 Lasso 方法建立的Cox 回归,或者利用不同的变量建立不同的模型,最后对上述模型选择(评价)的时候,或者是参数择优的时候,通常会用 AIC,BIC、拟合优度-2logL,或者预测误差最小等准则来选择最优模型;而最新的文献中都会提到一种叫交叉验证(Crossvalidation)28的方法。Verweij P J 等人(1993)将此方法应用到生存分析中,得到了很好的效果。
..........
 
第三章 基于变量选择方法的股市实证研究..............25
第一节 数据处理及相关分析.......25
一、股票生存期的定义..........25
二、协变量的选择.......25
三、协变量相关分析..............27
四、协变量描述性统计分析.............29
第二节 基于 Cox 模型与变量选择方法的股市实证分析 ......29
一、Cox 逐步回归模型 ..........29
二、Lasso 方法的实证分析....32
三、Elastic Net 方法的实证分析 ......34
四、三种方法的对比分析......36
 
第三章 基于变量选择方法的股市实证研究
 
第一节 数据处理及相关分析
本文的研究对象为沪深300所对应的基本成分股,观测日期为2016年第一季度,股票信息数据来源于国泰君安数据库。股票生存期30:收集每支股在指定研究季度的每日最高价和最低价,记该支股票首次出现最高价交易当日的最高价为1P ,对应日期为1t ,从1t 到该季度最后一个交易日,查看最低交易价格中是否有1  85%P的交易记录,若有,则记首次发生日期为2t ,并定义该支股票死亡,从1t 到2t 所经历的交易日天数为股票生存期。若不存在这样的情况,则称这支股票的生存期为右删失数据,此时的生存期为从1t 到该季度最后一个交易日间隔天数。影响股票价格的因素很多,刻画股票质量的财务指标一般可以分为六大类:盈利能力、营运能力、经营能力、偿债能力、现金流量和成长能力,再结合王红兵、谢江等人的研究,整理出 30 个主要指标,见表 3-1。为方便研究,先忽略这 30 个财务指标在一个季度里发生的变化,在每个季度初收集协变量,这些协变量(财务指标)将直接影响到本季度股价波动,故在这个季度结束后收集处理每支股票的生存期。为保证数据的完整性,需对股票原始数据进行清理,剔除以下股票:(1)年报数据不完整的股票,(2)被特殊处理的股票,即名称前带 st 或*st 的股票,(3)未股改的股票,也就是名称前带有 s 的股票,(4)新上市的股票。经过以上处理,得到沪深300 指中 196 支成份股的数据。其中有 3 支股票的右删失的生存期是 1 天,而完整数据的最小生存期是 2 天,因此,有 193 支股票数据信息可用。删失比例为 14.5%,部分原始数据见表 3-2,其中T 表示股票生存期,S 表示生存状态(1 代表完整数据,0代表删失)。
\
........
 
结论
 
本文运用 Cox 模型及其多种变量选择方法,研究了沪深 300 指数所对应的基本成分股,从国泰君安数据库中,收集成分股的 30 项财务指标,观测时间为 2016 年第一季度,经过分析,有以下结论:
(1)利用 Cox 逐步回归方法、Lasso 变量选择方法、Elastic Net 方法,获得了对股票生存期有重要影响的协变量,在以后的股票市场研究中,可以以集合 E 为研究范围,主要关注这 6 个协变量:X4(每股资本公积)、X6(总资产报酬率 ROA),X16(流动资产周转率)、X17(固定资产周转率)、X20(营业外收支净额/利润总额)、X23(经营活动产生的现金流量净额/负债合计)。
(2)Lasso 变量选择方法和 Elastic Net 方法的变量选择效果比 Cox 逐步回归方法更胜一筹,Lasso方法和Elastic Net方法选择的协变量比Cox逐步回归方法要精简,没有多余的变量。通过 Cox 逐步回归方法选择出的变量存在多重共线性,说明此方法不太适用于自变量之间存在相关关系的情况,而 Lasso 方法选择出来的变量没有相关关系,说明当自变量之间存在共线性时,该方法能较好地处理这种情况。
(3)通过第二章模拟研究和第三章对股票数据的实证分析可知,Elastic Net 方法具有组效应性质,即能将具有相关关系甚至是强相关的协变量共同选入模型,而Lasso 方法没有这种性质,它只能在具有相关关系的变量之间选出一个进入模型,不能同时将协变量选入。特别是当数据呈现高维度、小样本、强相关的特征时,ElasticNet 方法选择出来的变量更加接近真实模型,更加优于 Lasso 方法。
(4)在拟合效果方面,Lasso 方法和 Elastic Net 方法优于 Cox 逐步回归法,而Lasso 方法的模型拟合效果最好。
..........
参考文献(略)

提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。
本论文由代写论文网整理提供 http://www.dxlwwang.com/
需要专业的学术论文资料,请联系我们客服
本文地址:http://www.dxlwwang.com/faxue/6601.html
论文关键字:法学论文 变量选择 Lasso 方法