本文是一篇计算机硕士毕业论文,计算机俗称电脑,是现代一种用于高速计算的电子计算机器,可以进行数值计算,又可以进行逻辑计算,还具有存储记忆功能。是能够按照程序运行,自动、高速处理海量数据的现代化智能电子设备。(以上内容来自百度百科)今天为大家推荐一篇计算机硕士毕业论文,供大家参考。
第一章 绪论
1.1 研究背景及意义
建筑业在很长一段历史中都是我国的支柱型产业,建筑业的发展使我国的城乡面貌得到了改善,新型城镇化进程得到大力推动,就业率得到提升,同时为国民经济的增长做出了杰出贡献。与此同时,工程造价分析和监管的重要性也越发体现出来,2017 年 9 月 14 日住建部发文提出了加强造价监管的要求[1]。无论是从企业造价咨询的角度还是从国家造价监管的角度,工程造价相关的研究都具有重要意义。我国于 2015 年提出了“互联网+”战略,鼓励传统行业与互联网领域利用各自的优势充分合作,互利互惠。从 2013 年开始大数据技术和商业模式进一步成熟,大数据技术在很多行业领域产生了许多应用产品,越来越多的成功案例开始涌现,创造了许多经济效益与社会效益,大数据技术逐渐落地。目前,应用大数据进行信息服务,知识获取,分析预测,辅助决策等诸多工程的领域包括政府管理,公共服务,商业分析,企业管理,金融及个人服务等,其他行业领域也在积极拓展尝试当中。结合大数据的诸多优势,在工程造价领域结合大数据知识与技术对于国家发展,国民经济增长具有重要的意义和作用。工程造价领域研究主要涉及的文件是各个建筑工程中由相关各方编制的工程造价文件,工程造价文件的作用贯穿工程建设从工程造价概算到最终工程项目结算的全过程,其中蕴含了大量有价值的信息,针对工程造价文件大数据的数据挖掘和学习对于我国建筑行业具有指导性的重要意义,然而我国的工程造价行业目前仍处于信息化的初期,对于工程造价清单大数据分析挖掘等工作比较滞后,目前我国工程造价大数据体系整体仍处于搭建平台的初级阶段,相关工作存在两个问题:其一是清单分类体系存在较大的人为差异,我国早期建筑行业主要采用定额计价的方式编制工程造价文件,之后国家又大力推行清单计价方式,这造成了我国工程造价领域的原始数据整体形成了定额体系和清单体系两套计价体系并存的局面,而依据不同计价体系编制的工程造价文件也呈现出明显的不同。而且清单计价规范对工程造价文件的清单计价编制方法只作了初步规定,其中关于清单分类的规范较为笼统,仅有若干大项的标准和指导性建议,在实际文件的编制过程中,对于具体工程项目的分类粒度和分类体系,不同编制机构存在较大的人为差异,这就给造价文件的评估审核和相关大数据平台对其知识的挖掘带来了困难,这一问题也是造成目前工程造价领域难以应用大数据相关分析技术的主要原因之一。
...........
1.2 工程造价大数据相关问题阐述
1.2.1 工程造价大数据问题
工程造价指的是建筑工程,园林绿化工程,道路交通工程等一系列工程的建造价格,由于现实生活中存在大量的工程造价的估算,审核,结算等工作,由此衍生出一个工程造价领域。经过长期的发展,工程造价领域中积累了海量的历史数据,主要是一些结构化的文本文件,对于这些结构化文本文件中蕴含的知识的挖掘和总结对于之后的工程造价领域的发展具有指导作用。由于积累下来的数据是海量的,将工程造价领域与大数据技术结合将给数据的存储,知识的分析挖掘等一系列工作带来重大改变。但目前我国的工程造价大数据行业仍然处于数据收集和规范化的初级阶段。本文选取了其中的清单分类和清单综合单价的异常数据处理两个具体问题作为切入点解决我国工程造价大数据初级阶段遇到的问题。
........
第二章 清单分类相关方法介绍
本章首先介绍清单分类中分词步骤的几种常用的方法,通过分词可以将清单信息分解为特征词,之后通过特征表示方法可以将清单表示为能够被清单分类模型和异常数据检测模型接收的形式。之后为了减少输入模型中的特征的数量,需要对之前分词得到的特征词进行筛选,所以又介绍了特征选取的方法,并介绍了几种特征选取方法的特点。由于本文工作中借鉴了文本分类的相关思想,所以最后又介绍了本文参考的几种文本分类方法。
2.1 分词方法
在实际情况中,无法将清单数据直接输入模型中进行分析和处理,需要首先对清单进行分词。由于本文中研究的是我国工程造价领域的造价清单,其所采用的分词方法与英文分词有所不同,英语中各个词之间由空格隔开,而对于中文清单而言,中文只存在用于划分句子的标点符号,而句子内部则没有明显的标点来对各个词语进行划分,而且清单中的工程造价相关的特殊符号与汉字之间没有明显的分割符,这使得清单文本分词需要针对性的分词方法。由于清单信息里中文与带有意义的特殊字符共同出现的特殊情况,不存在明显的例如空格这样的划分符来划分词语,英文文本的分词方法并不适用,这使得我们需要运用其他更加复杂的手段来完成清单文本分词的工作,目前比较成熟的方法主要有基于词典和词库的方法,基于词频统计的方法。
........
2.2 特征选取方法
中文文本在经过分词后被分解为若干词语的集合,其中的每个词语都一定程度上表示了它所属的文本的特征,但在后续的处理过程中如果选取所有的词语作为该文本的代表,则可能会造成特征维度过高而大大影响后续文本处理的速度和效果,此时,在不降低后续处理效果的前提下,需要对文本特征进行选取以达到特征降维,方便后续文本处理的效果。文本特征选取是针对特征词在文本中的统计信息,根据某种评估特征重要性的函数,对特征词的重要性进行评估和排序,从中选择出最能代表文本特征的特征词,用这些特征词近似的代表文本的特征,从而达到特征降维的效果。目前文本分类领域中比较常用的文本特征提取方法主要有互信息方法,信息增益方法,统计文档频数的方法,2 统计方法等。基于规则库的传统方法这种方法主要思想是首先根据已有的训练文本集构建一个文本类别与规则相对应的规则库,然后对于之后得到的文本,去依次匹配规则库中的规则,从而给需要分类的文本打上与它最匹配的规则所对应的文本类别标签。传统的工程造价明细清单的规范化分类就是采用这种方法,由多为工程造价咨询专家根据已有的清单文本数据,结合自身的经验和大量已有数据的总结,最终得出一套规则与清单类别相对应的规则库,这种规则常常是数条约束条件的组合,如当某一属性中含有某关键字段且另一属性为某一特定值时,可以将该条清单数据归为某一特定类别。
..........
第三章 工程造价清单规范化分类方法.... 20
3.1 清单规范化分类问题的解决思路........... 20
3.2 清单数据的特点及分类的难点.... 21
3.3 卷积神经网络清单分类方法及实验....... 22
3.4 基于编辑距离的 K 最近邻清单分类方法及实验........ 26
3.5 贝叶斯清单分类方法及实验........ 30
3.6 三种清单分类方法效果的比较.... 38
3.7 本章小结....... 40
第四章 工程造价清单异常数据检测方法........... 41
4.1 传统异常数据检测方法的不足.... 41
4.2 清单异常数据检测问题的数据集分析.............. 41
4.3 异常数据检测问题的解决思路.... 42
4.4 清单综合单价的聚类方法............ 43
4.5 清单异常数据检测中的清单分类方法及实验............. 44
4.6 清单异常数据检测方法及实验.... 47
4.7 本章小结....... 50
第五章 系统处理架构.......... 51
5.1 清单规范化分类模块......... 51
5.2 清单综合的单价清单异常数据检测模块.......... 53
5.3 数据预处理和特征提取方法介绍........... 56
5.4 本章小结....... 59
第五章 系统处理架构
运用本文中提出的清单规范化分类方法和清单综合单价的异常数据检测方法,本文提出一种解决工程造价大数据初期面临的清单的规范化分类和清单综合单价的异常数据检测两个问题的系统架构。系统主要包含规范化分类和异常数据检测两大模块,整体架构设计如图 5-1 所示。
5.1 清单规范化分类模块
首先介绍系统的两个主要模块,其中清单规范化分类模块主要是依据造价清单中的清单名称、清单描述、清单材料表等信息,运用前文提出的清单规范化分类方法,对清单所属类别进行判断,实现工程造价文件中的清单的智能分类。清单规范化分类模块分为模型训练和模型应用两大子模块。其中训练模块主要用于在必要的时候用新的数据对清单分类器进行训练以保证分类器适用于新的情况,应用模型运用训练好的清单分类器对输入的清单进行分类标签预测。对预处理得到的词计算其 TF-IDF 值,用于之后的多项式贝叶斯分类器的概率公式计算,并将特征词组成特征词库,方便之后测试时的分词和预处理工作。将所有训练清单用特征词库中的特征词构成词向量,每一维的值都是这一维所对应的特征词的 TF-IDF 值,将所有训练清单的词向量联合构成一个大小为M( 特征词库大小) N(训练文本总数)的词袋模型传入下一模块, 并将特征词的 TF-IDF 值和词袋模型存储起来方便清单分类应用阶段使用。

........
总结
本文的主要工作是针对工程造价大数据建设初级阶段的工程清单规范化分类和清单综合单价的异常数据检测两大问题,分别提出了一种基于多项式贝叶斯分类方法的清单分类方法和一种将综合单价作为分类标签,运用清单分类思想进行综合单价的异常数据检测的方法。并根据这两种方法设计了具有清单规范化分类功能和清单综合单价的异常数据检测功能的系统架构。具体做了如下工作:
(1)针对目前工程造价领域传统的基于规则匹配的清单分类方法中存在的规则总结依靠人工,无法发现数据中隐含的知识且效率低下,规则库不稳定且泛用性差等问题,分析了清单数据专有名词数量多,特征词分布比较分散等特点,本文提出了一种更加智能的,更能学习数据中的隐含知识并且能够适应清单数据自身特点的基于多项式贝叶斯的清单规范化分类方法。
(2)针对工程造价领域的传统异常数据检测方法考虑维度单一,只能检测清单的综合单价与历史数据差别较大的异常数据,而对于清单综合单价与历史数据差异较小,但是与清单描述所涉及的工作应有的价格严重不符的这类异常数据无法很好的检测的问题。本文提出一种以清单综合单价作为标签,运用清单分类方法分析正常数据中清单描述与综合单价的关联从而对这类异常数据进行检测的方法。
(3)根据本文中提出的两种方法设计了具有清单规范化分类功能和清单综合单价的异常数据检测功能的系统架构。
..........
参考文献(略)
提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。