首页 >  毕业论文 > 物流供应链管理 >   正文

基于Hadoop平台的Hbase数据存储在快递物流行业的适用性研究

添加时间:2018-04-28 20:45:05   浏览:次   作者: www.dxlwwang.com
专业论文资料, 搜索论文发表论文代写论文网为你解忧愁!详情请咨询我们客服。
获取免费的论文资料? 欢迎您,提交你的论文要求,获取免费的帮助

本文是一篇物流供应链管理论文,物流供应链活动的一部分,是为了满足客户需要面对商品、服务以及相关信息从产地到消费地的高效、低成本流动和储存进行的规划、实施与控制的过程。应用学科:地理学(一级学科),经济地理学(二级学科)。(以上内容来自百度百科)今天为大家推荐一篇物流供应链管理论文,供大家参考。

 
第一章 绪论
 
1.1 选题背景
2016 年 11 月 18 日,国家邮政局发布监测数据显示:2016 年 11 月 11 日至 16 日,全国快递企业共揽收快件 11.2 亿件。在快递包装耗材方面,2015 年快递行业消耗快递运单量达到 207 亿枚[1]。该数据说明快递企业对运单扫描,便会产生海量客户信息。身处大数据背景下,快递企业不得不面临的一个共同难题:快递信息存储。伴随着云计算、物联网时代到来,进入大数据时代,“大数据”处理技术将成为快递市场新蓝海[2]。在商界,eBay 根据需求定义 500 种类型数据分析顾客。淘宝对用户浏览习惯、个人爱好、购物车、年龄、地区等海量数据综合多维度分析,制定个性化服务方案,使得阿里巴巴集团在 2016 年实现全年电商交易额突破 3 万亿元,相当于 2015 年中国消费品零售总额的 10%,成为全球最大的“网上经济体”。在 2016 年 11 月 11 日当天取得销售额达到 1207亿元的成绩。阿里巴巴集团从品牌认知、客户关系、数据保管和分析、云计算等方面,给人们展示一个崭新的商业模式[3]。正如麦肯锡咨询公司所说,大数据为快递行业带来的是一种新的资源,同时也是一种新的行业发展方向。在大数据环境下,快递公司扫描快递面单产生的数据具有大数据[4]特性,其现状特点如下:多样性:每条快递面单扫描信息包括收/发件人姓名、收/发件人电话、收/发件人地址、快递种类以及产品等相关信息,体现快递数据的多样性特点;数据量大:大量快递面单信息长时间集合,便是数以亿计条数据的集合,体现快递数据量大的特点;低价值密度性:快递面单信息需要长时间收集、存储,再使用相应的统计方法进行分析,能发现数据潜在价值,体现快递数据低价值密度性特点。
..........
 
1.2 国内外研究现状
在国外政策方面,将大数据看成一种资源。2012 年,由联合国出版大数据白皮书“BigData for Development:Challenges & Opportunities”。书中指出:大数据时代已经来临,大数据的出现将对社会各个领域产生深远的影响[6,7]。作为世界科技强国的美国在 2012年 3 月 29 日积极响应,正式实施名为:“Big Data Research and Development Initiative”计划。该计划提出“通过收集、存储、处理庞大而复杂的数据信息,从中获得知识和远见,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式”[8]。与此同时,美国学校管理者协会(AASA)携手学校网络联合会(COSN),以及全球性的信息技术研究和咨询公司 Gartner 共同实施一个名为“Closingthe Gap:Turning Data into Action”的项目,目的在于促进学校对学生信息系统和学习管理系统中大数据的使用[9]。在物流行业,公司运营趋于信息化。物流公司通过大数据技术提升物流价值,让物流企业更加趋于数据化、合理化。2016 年国际上发生一个物流数据生态信息[10]的变化:美国第二大电信运营商花费 30 亿美元,耗时两个月收购美国两家规模庞大的车队数据服务公司;同时,WABCO 公司收购物流服务商,让自己公司生产的 ABS 零件运输更加数据化、合理化;米其林公司也在巴西收购物流数据服务公司,为自己的产品运输数据化服务。上述企业活动均旨于完成线下的产品运输数据化,大数据技术能够极大提升公司运作效率。在大数据处理方面,开发出 Hadoop 大数据处理平台。2002 年,Google 公司公布“分布式文件系统”(简称 GFS)文章,该文章指出类似的分布式文件系统可以解决网页搜索和抓取过程中所产生海量信息存储、分析需求[11]。2006 年 2 月,Nutch 公司将其 NDFS与 MapReduce 项目分离,形成一个名为 Hadoop 的子项目,同年将该项目加入雅虎。2008年 2 月,雅虎宣布成功构建一个拥有一万个内核的大型 Hadoop 集群,用于引擎搜索[12]服务。同年 4 月,Hadoop 使用拥有 910 个节点的大型计算机集群,用时 209 秒完成对1TB 数据的排序。2008 年 11 月 Google 使用 MapReduce 只用时 68 秒便完成对 1TB 数据量的排序[13]。2009 年 4 月,Hadoop 在 3400 个节点用时 173 分钟排序 100TB 数据[14]。2011 年 3 月,Apache Hadoop 获得创新奖项的最高奖,并在《卫报》上进行刊登[15]。随后Hadoop成为业界公认的大数据存储与处理平台。许多IT巨头如:IBM,EMC,Micrsoft,Oracle,纷纷参与 Hadoop 的研发,同时产生了类似 Cloudera,Hortonworks 等专注于研发 Hadoop 的企业[16]。Hadoop 因为其开源性,同时可以搭建在廉价的机器上,使得企业对数据拥有更强大的处理能力。
..........
 
第二章 大数据环境下快递行业数据存储
 
2.1 大数据环境下快递行业数据特点
2.1.1 大数据环境对快递行业影响
电子商务的飞速发展、“互联网+”新理念提出,为我国快递行业创造良好的发展条件。作为消费环节的重要的一环,快递承担实物空间地理位置转换,既要满足客户的时效需求,又要保证企业经济性。快递行业依托互联网、云计算,产生以电子信息为依托的新型渠道,更加方便信息采集与处理。自 1984 年国内特快专递业务开始办理,到 2010年国内快递业务出现里程碑收入突破达到 500 亿元,用时 26 年之久。伴随互联网兴起,从 500 亿元到 1000 亿元大关,却只用时两年。在 2016 年双 11 更是让我们见证电商疯狂,淘宝电商一天销售额达到 1207 亿元的神话。国家邮政局公布双 11 购物黄金周快递数据:全国快递企业共收件 11.2 亿件,派送成功率只有 70.54%。而在双 11 当天,快递企业处理快件 2.51 亿件[1],与此同时产生大量数据用以统计快件、耗材、员工时效等信息。大数据处理技术给快递企业带来很大机遇:更加合理的企业管理与决策、客户关系维持、资源配置优化、人力优化等,对快递业产生积极效应。2014 年中国物流大数据应用市场规模为 2.92 亿元,预计到 2020 年该数字会达到 188.23 亿元[23]。大数据对快递行业有着深远的影响,通过对收集到的数据进行研究分析,由大数据驱动制定不同的作业模式、资源配置,可以实现智慧快递。快递信息量的快速增加大致有两种原因:一是公司借助政策东风,快速扩增业务,快递业务覆盖范围广且变得更加全面,导致快递企业信息量骤然增加。这种情形多见于资金充裕、快速抢占市场的企业;二是快递企业将之前未被重视的信息重新重视起来,加上先进的技术手段,增加信息的广度,便于更加合理的科学细分快递市场、细分企业客户群体。这种情形多见于市场占有率稳固,发展较稳定的快递企业。国家大力发展电子商务,快递行业前景一片利好,快递企业发展进入黄金期,例如:截止到 2016 年 3月,菜鸟网络用时三年,实现了覆盖全球 224 个国家和地区以及国内 2800 个县级区域的目标[25]。信息量的骤然增加大多是上述两种原因的综合。来源中国邮政局统计数据资料显示:我国快递业务量每年以 50%以上的速率快速增长[26],如图 2.1 所示。也就是说,在只考虑业务扩增情形下,快递行业信息将以每年 1.5 倍的速率增长。再加上未被重视的信息重新重视起来,快递行业信息增长速率又会增加。
..........
 
2.2 快递信息的存储索引研究
 
2.2.1 结构化快递信息存储索引
快递信息数据种类繁多,类型丰富。按照结构划分,大致分为:结构化快递数据,如扫描快递面单信息;非结构化快递数据,通常指结构化数据以外的数据,如系统日志、司机行为图像等。快递面单信息录入系统,可以通过一个或多个二维 Table 数据表进行展示[28]。该类快递数据具有明显的逻辑结构和物理结构,通常该类数据存储在结构化数据库中,根据数据的存储表格逻辑以及表格物理结构特性,由数据表中的行值作为指针索引,搜索相应指针对应的值,属于行索引模式。再通过索引得到的行,输入条件找到符合条件的特定值。对数据表进行增加、删除操作时,需要对索引进行动态维护。但是创建存储索引带来额外的时间和磁盘空间开销[29]。
 
2.2.2 非结构化快递信息存储索引
快递行业产生的信息大多数是非结构化数据,没有明显的逻辑结构,无法制成二维数据表进行展示。通常产生的数据可分为四大类:文本、图像、音频、视频。类型不同,存储方式、方法也不一样。文本信息,通过关键词匹配进行索引,因为数据量巨大,通过关键词检索容易出现信息不完整,所以通常索引结果难以满足需求;图像数据存储通过图像特征抽取[30]方法实现存储。初级抽取通过图像原始特征如颜色、形状、布局等特征进行抽取,实现索引;中级抽取是对图像的局部逻辑特征和外界知识进行索引;高级抽取便是对抽取对象的属性特征进行索引。音频非结构化数据通过音频分析技术[31]进行存储,对音频的频域能量、过零率以及音频流量等相应特征抽取进行索引;视频是图像、文本与音频的结合,存储复杂,但是索引模式依赖上述几类非结构化数据分析技术。对不同非结构化的数据,其存储和索引方式不同,大多数都是索引程序复杂。
...........
 
第三章 MapReduce 在快递行业的适用性研究......15
3.1 Hadoop 发展研究 ....15
3.1.1 Hadoop 平台概述 ...........15
3.1.2 Hadoop 平台特性 ............15
3.2 Hadoop 平台的搭建研究 ..........17
3.3 Hadoop 集群搭建常见问题及解决办法 ....18
3.4 MapReduce 组件工作原理........20
3.5 MapReduce 数据处理模型在快递行业的适用性........22
3.6 MapReduce 任务调度在快递行业的适用性.......24
3.7 本章小结 ........25
第四章 Hbase 数据库在快递行业的适用性研究...........26
4.1 HDFS 组件数据写入工作原理 ..........26
4.2 HDFS 组件数据读取工作原理 ..........29
4.3 Hbase 数据模型 .......31
4.4 Hbase 视图 ......32
4.5 Hbase 数据库存储数据原理 .....34
4.6 Hbase 数据库读取数据原理 .....35
4.7 Hbase 数据模型在快递行业的适用性 .......36
4.8 Hbase 数据库分布性质在快递行业的适用性 ....37
4.9 本章小结 ........38
第五章 Hadoop 平台搭建及 Hbase 数据存储实验.........39
5.1 实验背景 ........39
5.2 Hadoop 平台搭建实验 .....40
5.3 Hbase 存储实验 .......45
5.4 MapReduce 数据统计实验........48
5.4 本章小结 ........52
 
第五章 Hadoop 平台搭建及 Hbase 数据存储实验
 
5.1 实验背景
5.1.1 S 公司背景介绍
S 快递河南信阳公司(简称 S 公司)负责配送信阳市 8 县 2 区的快递。每天负责扫描从全国各中转站中转过来的几万件快递(包括中转运输给其他中转站的快递)。每天存储扫描的快件信息、其他类型信息数量近十万条之多。收集到的快递面单信息是字符串类型,有一定的逻辑结构,所以信息存储格式.xlsx,即使用 Excel 办公软件存储。受 S 公司硬件配置限制,对存储的快递扫描信息设定的间长度为 30 天,即超过 30 天时间,便会删除“过期”快递信息。S 公司在快递数据处理方面面临以下问题:
1.大规模存储困难
S 公司电脑配置一般,存储一个月跨度时间的信息数据量相当巨大,导致办公电脑运行缓慢,信息查询效率低下,数据处理非常耗时。信息部门经理希望将信息存储到其他廉价设备,办公电脑存储跨度七天数据,这样办公电脑运行效率提高。当进行数据查询与处理时,可以提高工作效率。
 
2.快递信息统计、分析不足
S 公司收集到的快递面单信息中包含客户电话、住址、快递类型、个人要求等重要信息。公司希望通过快件面单,长时间收集大量客户资料(时间跨度至少一年)。对存储的大量数据统计、分析,发现信阳市区快递市场待发掘地区、客户购买特点、购买频率、购买快递类型等潜在信息。确定是否需要对购买特殊物品(大、贵、重等类型)客户提供相应个性化配送服务;确定要针对某些长期客户提供 VIP 配送服务等。上述潜在信息均可以通过对大量长期累积的数据进行简单统计能够得出相应答案。时间跨度越长,累积收集的数据量便越大,数据呈现规律越明显,呈现的规律更有说服力。
\
...........
 
结论
 
身处大数据时代,大数据处理技术会是快递行业的下一片蓝海,对快递数据信息的存储与分析,在快递行业占据着举足轻重的位置。本文对快递行业的信息存储状况、Hadoop 平台的工作原理、Hbase 数据库工作原理进行理论研究。又借助 S 快递河南信阳公司提供的快递面单数据,使用搭建在 Hadoop 平台的 Hbase 数据库进行实验,本论文得到结论如下:
1.信息时代,快递行业数据呈现大数据特性:多样性、数据量大、低价值密度性。同时,为解决快递行业信息存在的“数据浪费”问题,需要找到新的方法对快递行业数据进行存储分析。
2.传统数据库无法满足快递行业信息处理需求,而新兴的 Hbase 数据库能够适用快递行业的信息处理所面临的问题。
3.MapReduce 数据处理模型以其数据存储便捷、编程灵活、容错性高,能够很好适应快递行业信息处理需求;
4.Hbase 数据库不仅可以大规模数据存储,同时便于快递数据统计、分析,而且能够节省企业成本,在快递行业有很好的适用性。
5.Hbase 数据库分布特性不仅能够保证数据库弹性存储空间,而且通过备份机制提高数据安全性,同时也能够提高数据分析效率,在快递行业有很好的适用性。
..........
参考文献(略)

提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。
本论文由代写论文网整理提供 http://www.dxlwwang.com/
需要专业的学术论文资料,请联系我们客服
本文地址:http://www.dxlwwang.com/wuliu/6673.html
论文关键字:物流供应链管理论文 快递数据 数据存储与分析