首页 >  硕士论文 > 农学硕士论文 >   正文

农学硕士论文:基于Hadoop的农业大数据处理系统研究

添加时间:2018-01-03 20:56:07   浏览:次   作者: www.dxlwwang.com
专业论文资料, 搜索论文发表论文代写论文网为你解忧愁!详情请咨询我们客服。
获取免费的论文资料? 欢迎您,提交你的论文要求,获取免费的帮助

第一章绪论

 
1.1  研究背景
在计算机世界里,数据是信息的载体。当今社会,随着计算机的普及和现代社会生产、生活中信息化、现代化程度的不断提高,人类的活动所产生的数据呈几何递增。这些数据通过人类的日常活动源源不断的产生,记录了人类社会活动的轨迹。这些数据的数据体态非常的大(如:监控录像的视频数据、消费记录、上网记录等数据),数据的种类繁多(如:视频数据、图像数据、文字数据等),价值密度不高。往往大量的数据里所含有价值的信息的数据并不多。因而,如何从大量数据中迅速有效的挖掘到社会活动所需要的典型数据和有用数据对人类社会活动意义重大。2001 年麦塔集团分析员道格·萊尼在其撰写的一份题为《3D 数据管理:控制数据体量、速度和多样性》的报告中指出,数据的增长有三个方向的挑战和机遇,分别是:Volume(量,数据大小)、Velocity(速,资料输入输出的速度)、Variety(多变,多样性),现在这被认为是大数据的三个特性[2]。从 2005 年 Hadoop 项目诞生以来,到 2008年“大数据”得到部分美国知名计算机科学研究人员的认可,并由业界组织计算社区联盟(Computing Community Consortium)发表白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》[3],大数据受到了许多商业机构和国家组织的认可和重视,被应用于诸多方面,发展迅猛。我国人口众多,是世界上人口最多的国家。但我国耕地面积却仅为世界第四,人均耕地面积更是远低于国际平均水平,粮食安全问题值得研究与关注。我国地域广阔,土地类型多样,各类农业数据体量极大。近年来,受供求关系影响以及国际粮价冲击,农民收入受到极大影响,对我国粮食安全问题也造成了一定的威胁,大数据的飞速发展为这一问题提供了新的解决思路。
.........
 
1.2  国内外研究现状
2010 以后,随着云计算技术的不断成熟,大数据不再只是纸上谈兵的停留在概念和设想上,大数据技术有了真正实现的可能性[7]。IBM 的沃森超级计算机在 2011 年以其每秒可扫描并分析 4TB(相当于 2 亿页文字所记载的数据量)数据量的速度向人类展示了大数据的威力[7]。2013 年国际知名的互联网巨头们纷纷涌入大数据行业并发布相关产品,这标志着大数据进入深层价值阶段。2015 年 Computing Research(计算研究)发布“2015 大数据市场评论”,该评论指出,已经有越来越多的企业将大数据和大数据分析集成到其运营过程中。大数据已经开始作为企业决策的重要支撑,在商业市场上发挥巨大价值。大数据的发展获得了各国政府的大力推动,并已取得良好的效果:2009 年美国政府开放了政府数据,之后诸多国家政府相继效仿;2010 年德国联邦政府开始启动“数字德国 2015”战略,预期让工厂通过 CPS(网络物理系统)实现在全球范围内的互联;2012年美国联邦政府发布了《大数据研究和发展倡议》的倡议书,这标志着大数据已经成为重要的时代特征,大数据时代已然到来[8];2013 年英国政府宣布注资 1.89 亿英镑用来发展大数据技术;到 2014 年数据开放运动已覆盖全球 44 个国家。而在生产生活中,大数据技术已经和人类的活动息息相关,并不断为人类提供决策和帮助。例如:网站根据消费人群的消费信息,通过对用户购买商品和购买习惯等数据的分析,进而为用户提供及时有效的商品推荐及服务;警方在抓捕犯罪分子过程中,通过对大量视频数据、犯罪人员社会活动等数据进行分析,快速确定犯罪分子的社会活动轨迹,进而进行抓捕。通过对大数据进行有效的分析和应用,可以极大的提高人类社会的生产效率,使人类的生活更加方便快捷。
........
 
第二章相关概念、理论综述
 
2.1  大数据技术概述 
目前,关于大数据的认识和理解各有千秋,对于大数据的概念,目前还没有确切的定义。对于大数据概念的定义,笔者搜集到了以下信息,具体如下表(表 2-1)所示。综上所述,笔者认为大数据顾名思义,首先其数据体量是十分巨大的,但“大”并不是单纯的指海量的数据。“大”是大数据的一个重要特征,却不是大数据的全部。“大”还体现在数据的数据结构、数据类型等方面。它是为了应对爆炸式增长的数据量,从海量数据里快速提取有用信息的方法。IBM 公司提出大数据的 5V 特点在各界的认可度极高,5V 即 Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)(笔者注:随着大数据的发展,Veracity 这一特点渐渐与实际情况不相符合,因此,这一特性目前极少被提及)。人类进入信息社会后,各类数据自然增加,其产生不以人类的意志为转移。据统计,自 1986 年到 2010 年,全球的数据总量增加了 100 倍,并且专家断言,这种速度还会更快,我们已经进入了信息爆炸时代。著名机构 IDC(InternetData Center)曾估测,人类社会所产生的数据一直在以每年 50%的速度增长,即“大数据摩尔定律”[21]。预计到 2020 年,全球数据总量将达到 35ZB。各数据单位间的换算关系如下表(表 2-2)所示。
........
 
2.2 Hadoop 及相关技术概述
Hadoop 是基于 Java 语言开发的,可部署在大量廉价的计算机集群里并且具有良好的跨平台特性。Hadoop 源自于 2002 年的 Apache Nutch 项目,2009 年因为把 1TB 的数据排序时间缩短到 62 秒而名声大噪。Hadoop 是能对海量的数据进行分布式处理的软件框架,具有以下几个方面的特性。1、可靠性。Hadoop 采用冗余数据存储方式,如果其中一个或几个节点的数据发生故障,其他节点依旧可以稳定可靠的对外提供服务[25]。2、高效性。Hadoop 采用分布式存储、分布式处理的技术,能够快速有效的处理 PB级数的数据。3、可扩展性。Hadoop 可以稳定高效的部署在廉价的计算机集群上,可以扩展诸多计算机节点[25]。4、容错性。Hadoop 采用冗余数据存储方式,可自动保存多个数据副本,能够将失败的任务进行重新分配[25]。5、成本低。Hadoop 采用分布式处理方式,主要利用廉价的计算机集群,成本低。普通用户使用自己的 PC 即可搭建 Hadoop 的运行环境。6、支持多种语言汇编。Hadoop 是基于 Java 语言开发的,但其上的应用程序也可用其他语言编写。
.........
 
第三章系统设计..........17
3.1 农业大数据分析........ 17
3.1.1 实验数据.... 17
3.1.2 实验数据分析..... 20
3.2 需求分析........... 20
3.3 总体设计........... 22
3.3.1 系统设计思路..... 22
3.3.2 系统设计.... 23
3.4 系统关键模块............ 24
3.5 主要流程........... 24
3.6 本章小结........... 28
第四章 CART 算法并行化及改进 .......29
4.1 大数据经典算法介绍......... 29
4.2 算法并行化研究........ 33
4.2.1 算法并行化的需求...... 34
4.3 CART 算法并行化及改进 ........... 34
4.4 本章小结........... 37
第五章平台构建及实验结果........39
5.1 平台构建........... 39
5.1.1 相应设备描述..... 39
5.1.2 Hadoop 平台搭建过程 .......... 39
5.2 实验过程........... 41
5.3 本章小结........... 45
 
第五章平台构建及实验结果
 
5.1 平台构建
由于 Linux 系统可以在 Windows 系统中使用虚拟机或安装双系统进行使用,不会影响试验阶段对 PC 机的其他应用需求,所以本实验使用 Linux 系统的 Ubuntu 操作系统进行相应的实验操作。本实验选择 Ubuntu LTS 14.04。在本文的第三章第一小节中,笔者已对该实验所用数据进行了系统的介绍。以下实验过程中,实验数据主要利用笔者从国家农业科学数据中心下载的草业数据集合成的相关数据来进行研究,这些数据共 8 类,18 种属性。如下图(图 5-4)所示,是部分数据的截图。在整个实验过程中,笔者的思路是根据已有数据属性(土壤类型、生存周期、属性、根类型、芽型等),建立决策树,并以此来推测草的类别。由于所下载真实数据的数据量无法满足本实验的需求,所以,笔者参照这些数据,在这些数据的基础上合成了部分数据(具体数据合成过程已在第三章进行介绍)。如下图(图 5-5)所示,是笔者保存在 MySQL 数据库中部分数据截图(该数据集中笔者生成了上亿条数据)。
\
........
 
总结
 
本研究通过对大数据和农业大数据的国内外研究现状进行分析,阐述了在国内开展农业大数据研究的必要性。通过对 Hadoop 平台进行研究,设计了基于 Hadoop 平台的农业大数据处理系统,并基于 MapReduce 框架对 CART 算法进行了并行化和改进。具体来说,笔者主要做了如下工作:(1)通过对大数据、农业大数据的概念、发展、国内外研究现状就行阐述和分析,使读者可以的相关概念和知识能够有一定的认识。并且通过这些描述,笔者验证了研究农业大数据对我国现代农业发展的重要性。(2)笔者通过对 Hadoop 及其相关技术进行研究,深入探索了 Hadoop 的发展历程及其主要架构。重点分析了 MapReduce 计算架构和分布式文件系统 HDFS,并针对本研究根据实际硬件情况,对 Hadoop 进行了部署。(3)设计了基于 Hadoop 的农业大数据处理系统,并对其进行了部分实现。(4)对 CART 算法进行了并行化设计和改进,并且利用一定的数据对其进行了验证。
..........
参考文献(略)

提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。
本论文由代写论文网整理提供 http://www.dxlwwang.com/
需要专业的学术论文资料,请联系我们客服
本文地址:http://www.dxlwwang.com/nongxue/6481.html
论文关键字:农学硕士论文 农业大数据 Hadoop MapReduce