首页 >  硕士论文 > 计算机硕士毕业论文 >   正文

基于SVM的网络流量特征降维与分类方法研究

添加时间:2018-05-09 18:30:47   浏览:次   作者: www.dxlwwang.com
专业论文资料, 搜索论文发表论文代写论文网为你解忧愁!详情请咨询我们客服。
获取免费的论文资料? 欢迎您,提交你的论文要求,获取免费的帮助

本文是一篇计算机硕士毕业论文,计算机论文由封面、毕业设计(论文)成绩评议表、毕业设计(论文)任务书、开题报告、中期检查、结题验收、中文摘要、英文摘要、目录、正文、参考文献、附录十二部分组成。(以上内容来自百度百科)今天为大家推荐一篇计算机硕士毕业论文,供大家参考。

 
第 1 章 绪 论
 
1.1 研究背景及意义
互联网作为当今社会最重要、发展最迅速的信息技术之一,已经广泛渗透到政治、经济、科技、国防等各个重要领域。由于互联网的普及,用户规模、网络带宽急剧增长导致网络流量数据不断膨胀,并引发了诸多网络安全及网络管理问题。因此,作为网络分析与管理的基础,网络流量分类技术一直是学术界、产业界研究的核心问题之一。网络流量分类是指从海量的混有各种应用的网络流量数据中,依据流量应用中相应的属性特征,自动将网络流量划分为不同类别的过程。按照网络流量分类的目标粒度,由细粒度到粗粒度分为包级(Packet-level)、流级(Flow-level)、会话级(Session-level)。基于网络数据包特征进行的流量分类称为包级分类;基于五元组(源 IP 地址、目的 IP 地址、源端口号、目的端口号、协议)进行的流量分类为流级分类;基于三元组(源 IP 地址、目的 IP 地址、协议)进行的流量分类为会话级分类,属于粗粒度分类。目前研究最广泛的为流级分类。网络流量分类目的是对相应的网络流量进行差别化管理,为后续的网络协议设计、网络运营管理及网络流量调度提供基础和依据,并为网络安全中网络攻击的检测及流量清洗提供手段[1]。在网络协议设计过程中,通过网络流量分类,深入分析流量的演化趋势,为网络协议设计和应用设计提供数据支持。在网络运营管理过程中,通过流量分类对异常和垃圾流量进行识别,控制、优化网络带宽资源并提高其运营效率。在网络流量调度过程中,网络流量分类可以对不同的应用流量进行有差异的控制,控制 P2P 应用所占带宽,提高其它应用的服务质量。在网络攻击流量检测的过程中,通过建立网络流量正常行为模型来发现其它异常行为的网络病毒和攻击,为网络安全提供重要保障。由此可见,网络流量数据分析与建模及网络流量分类对网络安全、网络运营控制与管理、网络质量保障以及网络结构设计与扩展都具有重要意义。
..........
 
1.2 国内外研究现状
 
1.2.1 基于端口的流量分类
基于端口的流量分类主要应用在早期的典型应用中,Internet 服务名和传输协议端口号分配机构(Internet Assigned Numbers Authority,IANA)为网络中的每个应用都规划了相应的TCP/UDP服务端口。其中,范围为0~1023是系统应用端口号,范围为1024~49151 是用户应用端口号,范围为 49152~65535 是动态或私有端口号。互联网工程任务组(Internet Engineering Task Force,IETF)为标准应用协议分配系统应用端口号。例如,Web 应用的标准端口为 80,Telnet 的标准端口为 23。基于端口的流量分类是对 TCP/UDP包头中的端口号进行检测,并将其值与相应的网络流量应用进行匹配,以此来进行流量分类[9,10]。在早期的流量分类过程中,这种方法快速、实现简单。但随着网络应用的不断变化发展,新的应用及私有应用不断涌现,其适用范围越来越小。主要局限性体现在以下几个方面:1)某些开放端口被应用于不同的网络。2)为了穿越防火墙、规避嗅探,一些应用采用端口混淆技术冒用其它应用的默认端口。例如,有的 P2P 应用也采用 80端口,Skype 等应用采用随机动态端口等。文献[11-13]也早在 2004 至 2005 年就指出了仅采用基于端口的网络流量分类方法识别出来的网络流量越来越少,尤其是 P2P 应用。上述因素使基于端口的流量分类准确率越来越低,且难以应用部署,目前一般仅将其作为判断高带宽网络设备流量均衡的粗粒度依据[13,14]。
............
 
第 2 章 SVM 相关理论基础
 
2.1 基于数据的机器学习问题
基于数据的机器学习问题研究的是利用已知的数据,导出不能通过传统方法而得出的规律,并基于此规律对未知的数据进行估计。机器学习的目的是基于已知的训练数据,通过输入与输出间的规律对未知的测试数据进行准确的预测[32]。基于数据的机器学习问题模型如图 2.1 所示。学习过程中,学习一致性条件是非常严格的,学习目的是通过求经验风险最小化函数来对期望风险最小化的函数进行逼近。统计学习理论给出了经验风险最小化的充要条件,但针对能满足一致性条件有哪些学习方法并没有给出,因此,统计学习理论提出了一项能够衡量函数集性能的重要指标,即 VC 维(Vapnik-Chervonenkis Dimension)[38]。
.........
 
2.2 统计学习理论
统计学习是当欠缺合适的理论模型时,对大量的观测数据采用的分析推理方法。在传统的统计模式下,分类问题的研究往往都是在数据集的数据量非常庞大的前提下进行的,而实际应用过程中,数据集中的数据量都是有限的,尤其在基于高维特征空间的分类问题中,想要得到趋于无穷大数目的数据更加困难。上世纪 60 年代中期,统计学习理论(Statistical Learining Theory,SLT)由 Vapnik 等人提出[38]。统计学习理论从机理上探讨并研究了小样本数据的期望风险与数据经验风险间的联系,并研究如何应用统计学习理论开发新的机器学习算法等一系列问题。统计学习理论是基于小样本数据集,研究数据的机器学习理论,并为模式识别等机器学习问题提供了坚实的理论基础。其中,支持向量机(Support Vector Machines,SVM)就是基于统计学习理论发展起来的一种数据机器学习方法。统计学习理论的核心问题包括:学习过程一致性、控制 VC 维和泛化能力边界、结构风险最小化、基于小样本数据的归纳推理原则及实现方法。
........
 
第 3 章 基于 SVM 的流量特征选择和特征提取.........24
3.1 引言......24
3.2 数据预处理............25
3.2.1 核函数的选择..........25
3.2.2 数据抽样与规范化...........27
3.3 特征降维方法........28
3.4 基于 SVM 的 Filter-Wrapper 混合特征选择模型....29
3.5 基于 SVM 的 PCA 特征提取模型.......35
3.6 实验结果与分析....40
3.7 本章小结.......55
第 4 章 基于 SVM 流量分类模型的参数优化....56
4.1 引言......56
4.2 基于改进网格算法的 SVM 参数优化........56
4.3 基于改进粒子群算法的 SVM 参数优化....59
4.4 实验结果与分析....66
4.5 本章小结.......84
第 5 章 基于特征选择和细菌觅食算法的 SVM 流量分类...........86
5.1 引言......86
5.2 分类模型框架........86
5.3 基于 GA 的特征选择.......88
5.4 基于细菌觅食算法的 SVM 分类模型优化.........94
5.5 实验结果与分析...........104
5.6 本章小结..... 115
 
第 5 章 基于特征选择和细菌觅食算法的 SVM 流量分类
 
5.1 引言
在实际的网络流量分类应用过程中,当原始数据冗余度较高时,基于 SVM 的Filter-Wrapper 特征选择模型易受到冗余及不相关特征的影响,导致分类性能下降。而在PCA 特征提取过程中,由于 PCA 的主分量为原始特征的线性组合,使映射后的低维特征不能与原始高维特征对应,对原始关键特征进行分析及解释较为困难。在分类模型参数优化过程中,当搜索空间范围较大并存在精英个体时,IGS 算法需要确定二次网格搜索区域缩小搜索空间,而 IPSO 算法虽使局部搜索能力增强但易丢失精英个体,导致参数优化能力下降。针对上述问题,本章提出了一种新的网络流量分类模型 GB-SVM。该模型在特征选择阶段,通过创建 SVM 模型,利用优化的遗传算法(Genetic Algorithm,GA)快速、准确的选择出网络流量的关键特征及其组合。这种方法在特征选择阶段,无需二次特征选择就可以筛选出网络流量关键特征,兼顾了数据间的相关性;可以对原始关键特征进行确定,同时对特征组合分量进行准确的解释;并且可以同样达到降维、大大缩短建模时间的效果。在参数寻优阶段,提出了改进的细菌觅食算法(Improved Bacteria ForagingOptimization,IBFO)进行 SVM 参数空间寻优。该算法对标准的 BFO 核心算子进行改进,无需大范围搜索便能够快速、准确的获取网络流量分类中 SVM 各个参数的最优解。在确保算法局部搜索能力同时,避免了精英个体的丢失,并增强了算法的收敛能力。
\
..........
 
总结
 
本文针对基于 SVM 的网络流量特征降维和分类方法中存在的诸如:流量数据集不平衡性,有效降维后特征子集难以确定,参数空间寻优过程中传统算法的收敛能力及寻优能力欠佳,以及 SVM 的经验风险和泛化能力需要平衡等问题,依次展开了网络流量数据预处理、特征降维及分类模型参数优化等方法研究。主要工作如下:
1. 基于SVM核函数变换理论,分析并确定了适合网络流量分类问题的核函数。实验结果表明,选择的核函数可以不受样本数量及特征维数限制,可以通过较少的参数减少函数复杂度,使其更适合于样本量大、特征维度高的网络流量数据分类。
2. 为缩短SVM训练时间,对原始流量数据进行了预处理。首先,采用分层抽样方法对数据进行抽样,降低了数据的不平衡性;然后,采用最小—最大规范化方法对数据进行规范化,有效的避免了数据集特征值范围过大或过小,避免了训练过程中由于计算核函数而计算内积引起的数值计算困难。
3. 对特征选择方法改进,提出了一个 Filter-Wrapper 混合特征选择模型。该模型在Filter 式特征选择基础上,结合启发式序列前向搜索策略,进行 Wrapper 式二次特征选择,选择具有强区分能力的组合特征子集。该模型解决了单纯使用 Filter 式特征选择引起的组合特征被误删以及特征评价结果与最终分类算法存在偏差的问题。
4. 为了解决冗余及不相关特征对标准 SVM 分类性能的影响,提出了一个嵌入二次特征选择模块的 PCA 特征提取模型。该模型嵌入的二次特征选择模块能加强特征的最大关联—最小冗余性,且能够自适应的根据实际应用需求快速锁定关键特征。实验结果表明,该模型能够有效降低计算复杂度,缩短训练时间,提高分类准确率。
..........
参考文献(略)

提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。
本论文由代写论文网整理提供 http://www.dxlwwang.com/
需要专业的学术论文资料,请联系我们客服
本文地址:http://www.dxlwwang.com/jsj/6686.html
论文关键字:计算机硕士毕业论文 特征提取 参数优化