首页 >  硕士论文 > 市场学硕士论文 >   正文

写论文最新论文:基于 Hadoop 的全国零售户数据处理与市场感知

添加时间:2017-03-03 15:49:52   浏览:次   作者: www.dxlwwang.com
专业论文资料, 搜索论文发表论文代写论文网为你解忧愁!详情请咨询我们客服。
获取免费的论文资料? 欢迎您,提交你的论文要求,获取免费的帮助

第一章 绪 论

 

1.1 研究背景、意义
目前各个烟草商业公司每月都会安排专门的终端业务人员对绝大部份的零售户进行终端走访,走访的过程中会对零售户的销售信息数据进行采集,将采集到的数据上报到商业公司,各个商业公司再把数据汇总到国家烟草局。终端业务人员主要采集的内容包括零售户的基础信息、按卷烟规格的需求销售量、实际购进量、销售额、市场价格等。由于在全国范围内烟草行业的零售户有 816.3 万家,十七家烟草公司的卷烟规格有 2000多种,零售户每个月都会从不同的商业公司中购进几次货,从而导致了终端业务人员采集到的数据是无限大的。然而企业在构建系统之初,由于成本等问题,企业所搭建的硬件设备和软件设备可能并不能满足容纳、处理如此规模的数据。随着时间的推移, 现有的那些关系型数据库将会承受巨大的压力,其数据的存储、数据的处理速度、负载能力也会受到海量数据的冲击,面临巨大的挑战。
信息时代,数据为王。在某种意义上说目前企业不是缺少信息,而是有价值的信息被其他信息噪音淹没了。现有的一些关系型数据库可以高效地实现数据的收集、存储、统计等功能,但是无法发现数据中存在的潜在价值,更无法根据现有的数据预测未来的发展趋势,其原因缺乏对数据进行深度挖掘和横向联系的手段,从而导致了“数据爆炸但信息贫乏”的尴尬现象。同时由于海量数据的冲击,使得企业在现有硬件与软件基础上,很难实现对潜在有价值信息的挖掘,企业往往对着庞大信息数据无从下手,而分布式云计算的出现为海量数据的存储、处理、响应、挖掘提供了有效地解决方案[2]。本论文以全国零售户订单数据为例,研究 Hadoop 集群的分布,以及在分布式存储系统下的数据处理,智能感知的销售动态。其主要意义在于:
1)基于零售户订单数据分析实现零售户终端信息管理,为企业提供零售户的各类信息,并对零售户进行有效的细分,按照业务部门明确的筛选指标确定样本零售户,并对样本零售户进行相关性的定性和定量的分析。
......
 
1.2 现状研究
1.2.1 大数据研究现状
本文主要针对全国零售户订单数据的需求,研究了 Hadoop 集群的分布式存储系统服务器管理以及通过建立企业的数据模型进行数据处理,采用数据挖掘技术进行对市场的感知,具体研究内容如下:
1)根据全国零售户订单数据的性质,提出了基于月份的分区存储和运用 Hive 的数据处理模型,解决针对全国零售户订单数据的应用存储和负载均衡问题。2)探讨了对整个 HDFS 常用的数据处理办法,并根据存储数据的实际情况,搭建了一个针对全国零售户数据的处理模型,提出了一个在异构集群下减少数据处理的响应时间的算法,完成了对集群的时效性的提高。3)为了提高数据加工处理的效率,让数据能够快速的被实用,提出了一种分布式的数据同步加工处理模型,有效的对零售户数据进行上传和加工。4)根据企业对全国的零售户下行订单数据的需求,分析零售户销售情况,运用ARIMA 销售预测模型来预测市场销售,提出了一种计算零售户市场价值、忠诚度的方法,为决策者提供一个有效的信息支撑。5) 基于 Hadoop 的数据存储技术建立了一个大数据处理平台,提出了一个以企业产生的零售数据为导向的数据存储的生态大循环、以战略为牵引的大数据平台中循环和以数据信息为核心的数据同步处理的内部 3 个生态小循环的三层生态循环系统架构。
......
 
第二章 基于 Hadoop 全国零售订单数据的分布式存储
 
2.1 引言
通过对全国零售户资源统计和结构变化进行分析,零售户数据主要包括零售户的基础信息表、订单信息表、订单明细信息表。零售户基础信息是姓名、地址、联系方式、分类代码等,其中零售户分类是结合市场类型、经营规模对进行细分,分类后,产生42 种组合属性的客户群体(见附录);订单信息表是包括了零售户的区县地址、订单时间、订单号、专卖证号、订单需求量、订单购进量、订单金额等;订单明细表是对订单信息表的细化,包括了零售户在某个商业公司、某天购进了某一种规格卷烟的详细信息。由于零售订单数据颗粒度是到天的,所以全国 800 万的零售户每天将产生非常大的数据量,面对如此规模的海量数据,数据存储的问题及其高效的并发读写,哪些像 DB2、ORACLE 等传统的关系型数据库已经无法满足企业的需求,因此这对数据管理中心的构建提出了更高的要求:数据中心需要有更大的数据存储空间、更快的数据处理速度、更高的稳定性和可靠性。随着大数据时代的变革,国内外众多大公司均使用 Hadoop 构建自己的云计算平台,其中包括百度、阿里、腾讯、Facebook 等大型互联网公司,虽然Hadoop 的开发没有大公司的支持,而且到现在为止各大公司对其使用 Hadoop 的细节不对外公布,但是因为 Hadoop 是开源项目,得到了全世界众多开发的技术支持、用户可以在使用的同时对其进行完善和修改,并不断开发新的业务模式,因此 Hadoop 会变得越来越完善,其应用前景是光明的。
因此,本章是基于 Hadoop 平台下的分布式存储技术,对平台中的 HDFS+Hive 进行了研究和针对全国零售订单的数据规模分析集群构建的可行性。
......
 
2.2 HDFS 体系及数据存储
2.2.1 分布式存储的体系结构研究
\
从图 2-1 中可以看出 Namenode 只有一个,它的正常运行是否直接决定 HDFS 能否正常服务,因此 Namenode 也就成为了 HDFS 的一个单点故障,而 DataNode 有多个副本,不存在单点故障问题。Hadoop 自带的数据备份方案、Secondary Namenode 方案及其需要配置的 Backup Node 方案、Checkpoint Node 方案,DRDB 方案和 FaceBook 的AvatarNode 方案,并比较了各个方案的优缺点及给出了相应的建议,例如组合方案:元数据备份+Secondary Namenode 方案、元数据备份+Backup Node 方案等等。
就烟草企业目前建立了很多信息系统,例如专卖系统、微信终端数据采集系统、营销系统等,这些系统积累了大量数据,但由于各个系统相对独立,数据格式、存储形式存在较大差异,这些产生的海量数据很难整合在一起进行使用。由上一节提到的分布式文件存储系统(HDFS)是一个高容错性、文件处理模型要简易、数据流式的访问等特点的数据存储系统,因此烟草企业产生的这些杂乱无规则的数据,就可以 txt、del、excel等文件的形式储存在 HDFS 下面[13]。
数据存储是每一个 IT 公司都要考虑的事情,例如淘宝、腾讯这样的大型互联网公司每天都产生 TB 到 PB 级别日志数据,虽然都是以文件的方式进行存储,但是怎么进行文件存储为后期的分析处理带来简易的操作也是他们所研究的重点方向。淘宝目前开源了的 Oceanbase、腾讯的 TDW 等为他们公司提供了管理这些数据文件的有效方案。但是以烟草行业产生的数据而言,烟草销售是专卖的,采集的数据是以全月为基准进行采集,产生的数据是一些结构性的数据,与其他行业还是有不同之处的。怎么能够快速、有效的管理这些文件是目前烟草企业所关心的重点内容。Hadoop 的一个子项目 Hive 的出现,为数据仓库提供了一个管理 HDFS 的工具。它的主要作用是那些熟悉 SQL 语言的用户用来在 HDFS 上进行数据处理等。用户可以使用一种名为 HQL 的类 SQL 语言来与 Hive 进行交互[14][15]。除了设计用来处理结构化的数据以外,Hive 还增加了一些MapReduce 没有的优化功能。Hadoop 和 hive 的整合使用给用户同时带来了分布式文件系统、MapReduce 和 SQL 的便利[16]。
......
 
第三章 数据同步加工处理................................19
3.1 引言.............................................19
3.2 数据同步加工.......................................19
第四章 基于零售订单数据的智能市场感知.................31
4.1 引言...............................................31
4.2 企业营销中市场预测模型.............................31
第五章 全国零售户订单数据分析系统设计..................46
5.1 引言...............................................46
5.2 系统总体框架与思路.................................46
 
第五章 全国零售户订单数据分析系统设计
 
5.1 引言
零售户订单数据分析系统是面向管理者、决策者、客服人员以及客户的,所以对于整个零售户订单数据分析系统应该从多个角度来进行构建。对于决策者,零售户订单数据分析系统是收集客户信息、分析客户行为、预测客户消费趋势、监控客户忠诚度变动的有效工具,对于业务人员将是与客户进行沟通、实现宣传信息传递的有效支持,对集团企业零售户订单数据分析系统进行设计,构建基于 Hadoop 的大数据平台为数据管理中心提供海量数据处理与存储支持,实现基于 Hadoop 环境的零售户订单数据分析系统。
在企业营销战略牵引下,以客户为导向,以价值为主线,运用体思维,在公司生态型系统整体构架下,从价值洞察、价值创造、价值传递 3 个方面出发,通过营销管理体系的持续优化,构建、完善零售户订单数据的分析,落实数据分析决策关键提升点,创建以大数据为平台的客户需求洞察体系,深度洞察客户需求及潜在价值。以满足客户需求为目标,设计优化流程、组织,以及资源配置的模式[45]。实现内部流程运转高效,搭建需求牵引下自动反馈的后台支撑体系。实现生态型全面、交互式的企业决策优化目标。其中整个系统对数据处理可分为:数据源层、数据加工层、数据分析层、营销洞察感知层,如图 5.1 所示。
数据源是零售户订单数据分析系统的数据来源,包含了企业内部数据和外部数据,以及客户信息数据。其中内部数据包括企业内部报送数据(如每年的计划目标),营销业务数据及办公自动化系统包含的各种文档数据。外部数据主要来源于国家一号工程数据,涵盖了全国十九家工业企业的产销信息,以及企业产品在全国各市场的购销存数据等。内部数据及外部数据的采集,主要是通过人工上报,或者通过 Web Services 接口进行数据的对接交互[46]。零售户信息数据的收集途径主要为终端走访,其内容主要包括客户描述性数据、促销数据以及零售户历史交易数据。
......
 
第六章 总结与展望
 
6.1 全文总结
针对全国 816.3 万家烟草零售户,按照每天有 20%的零售客户(160 万)在网上预订卷烟推算,每天至少有 2 亿笔交易的订单数据。随着时间的推移,数据量将会越来越大,这就给企业的数据的存储、数据的处理速度、负载能力带来冲击。因此,对海量数据的处理是所有企业都会关注的重点内容。随着 Hadoop 的出现,为企业存储数据的处理提供了解决方案,本文结合分布式数据存储和数据挖掘技术,构建了基于 Hadoop 的全国零售户订单数据分析系统,实现了零售户订单数据的有效存储,并解决了在 Hadoop集群下的对各个几点节点性能的充分利用,达到一个最优的响应时间;实现了分析零售户的描述、行为等属性的有效挖掘,使企业对零售户的决策有一个更加准备的定位,达到一个真正有效的大数据分析。
全国零售户订单数据分析系统运行后,企业决策者对零售户的决策更加准确,其零售户的终身价值也在提高,订单量也在增长幅度也增加了,致使企业的销量也随之提供。根据统计分析,从 2015 年 4 月份到 11 月份卷烟总销量相比同期增长 113612 箱,增长了3.02 个百分点,对于企业卷烟销量尤其重点促销品牌卷烟销量的也大幅增长,全国零售户订单数据分析系统在其中起了非常重要的刺激作用。
......
参考文献在(略)

提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。
本论文由代写论文网整理提供 http://www.dxlwwang.com/
需要专业的学术论文资料,请联系我们客服
本文地址:http://www.dxlwwang.com/shichangxue/5649.html
论文关键字:市场学硕士论文 大数据 数据模型 HDFS ARIMA 预测模型 忠诚度