首页 >  硕士论文 > 计算机硕士毕业论文 >   正文

计算机硕士毕业论文:视频压缩中的高效帧内编码技术研究

添加时间:2017-12-22 20:44:16   浏览:次   作者: www.dxlwwang.com
专业论文资料, 搜索论文发表论文代写论文网为你解忧愁!详情请咨询我们客服。
获取免费的论文资料? 欢迎您,提交你的论文要求,获取免费的帮助

第1章 绪 论

 
1.1 课题背景
随着互联网技术的高速发展以及各种移动设备的普及,以数字视频为主要载体的多媒体应用层出不穷,例如互联网电视,视频监控,视频聊天以及当下热门的虚拟现实和视频直播。在这些应用中,数字视频都扮演者极其重要的角色,此外视频的应用范围也在不断拓展,使得视频数据量在持续地增长。视频已经日益影响着人们日常的生产和生活方式。近些年来,高清和超高清分辨率的视频逐渐成为人类日常生活中的主流视频。仅仅针对视频监控录像而言,每天的数据量就达上千 PB,累计的历史数据将更为庞大,存储和传输数据量如此巨大的视频数据对视频编码技术提出了更高的要求,也使得视频编码技术一直能够成为国内外工业界和学术界的研究热点之一[1]。由于数字视频的数据量十分庞大,如果不经过压缩处理则无法进行高效的存储和传输。例如,对于帧率为 30f/s 的 1 分钟的 1080p 的高清数字视频,在未压缩情况下将需要 30×1920×1080×60×24 bit = 41.7GB 的存储空间,其中24 表示每个像素所需的比特数;如果对该视频进行实时传输,那么网络带宽需达到 593Mbps。如果提升视频的帧率到 60f/s,则数据量将会翻倍。同样对于更高分辨率的视频如 8K×4K 或者 4K×2K,则数据量的增加将会更大。显然,在实际应用中,如此巨大的存储空间和带宽要求是无法接受的。所以,为了有效的存储和传输数字视频,对数字视频进行高效的压缩一直都是视频编码标准的主要目标。为了高效地对海量的高清及超高清视频数据进行压缩,国际上最新的视频编码标准 HEVC 于 2013 年正式发布。相比于上一代编码标准 H.264/AVC,HEVC 在同等主观质量下获得了 50%码率降低,大大提升了压缩性能。2014年,国内 AVS 工作组发布了我国第二代视频编码标准 AVS2,主要是针对超高清视频的编码。AVS2 能够获得与 HEVC 相近的编码性能。虽然 HEVC 和AVS2 与 H.264/AVC 都采用了相同的混合视频编码(Hybrid Video Coding)框架,然而 HEVC 和 AVS2 在众多技术细节上进行了创新。正是这些创新使得 HEVC 和 AVS2 的压缩效率得到了较大的提升。然而,新编码技术的使用在提高编码性能的同时也带来了较高的编码复杂度,这给编码器的实际应用带来了一定的挑战。此外,基于现有的视频编码标准,如何进一步提高视频编码的性能也是一个值得深入研究和探讨的问题。本章首先介绍数字视频压缩的基础,包括基本原理,关键技术和视频压缩标准的发展历程;其次对当前最新的视频压缩标准的关键技术进行描述;最后基于这些背景知识,引出本文的研究课题,给出本文的贡献以及论文的组织结构。
........
 
1.2 数字视频压缩基础
数字视频系统一般包括视频的采集,处理和显示等模块。自然场景通过照相机,摄像机等采集设备被转换为图像或者图像序列,进一步进行编码,传输和解码等过程最终输出到显示设备上进行显示。在某一时刻对自然场景的采集可以得到二维空间的采样点,这一过程称为空间采样,其中采样点也即是图像中的像素点。视频除了包含了空域信息,还包含了时域信息,其通过在不同的时间点上采集的二维空间图像来得到视频多个时间采样点。由于数字视频的空域采样和时域采样特性使得其在空间域和时间域都存在冗余。而数字视频之所以能够进行压缩的根本原因也正是由于其存在着大量的冗余信息。本节首先介绍视频压缩的基本原理,给出视频冗余信息的类别,其次给出目前主流视频压缩标准使用的混合编码框架,并介绍其中的关键技术。最后对视频编码的发展历程进行回顾。空域冗余是图像中最主要的数据冗余。对于图像中相邻的像素或者图像块,它们在统计意义上具有很强的相关性。例如,图像中的背景区域大部分像素值都比较接近,或者对于方向性很强的物体边缘,相邻区域的纹理相关性很强。对于空域冗余,一般利用当前块周围的像素或者区域对当前块进行预测,从而有效的降低当前块的能量达到压缩的目的。在传统的视频编码标准中,帧内预测技术主要针对的就是空域冗余。
..........
 
第2章 视频压缩中帧内编码技术的研究现状
 
如何提高视频编码器中帧内编码的速度,一直都是视频和图像编码相关应用中的关键问题。为了实现这个目标,在视频编码标准的制定过程以及发布之后,各种加速帧内编码的算法被提出来。近些年来,随着视频分辨率的不断提升以及视频数据量井喷式的增长,在现有编码标准的基础上提出更加高效的帧内压缩算法,进一步提高视频/图像压缩性能,一直是视频压缩领域的研究热点和难点。本章首先介绍国内外在降低最新标准中的帧内编码复杂度,即帧内快速编码技术方面的研究现状,然后介绍提升帧内编码性能方面的国内外研究现状,主要介绍与本文研究内容相关的帧内预测技术和帧内变换技术。
 
2.1 帧内快速编码技术的研究现状
目前最新的视频编码标准 HEVC 和 AVS2 的帧内编码中,编码单元即CU 的深度值可以为 0、1、2 和 3,分别对应的 CU 的大小为 64×64、32×32、16×16 和 8×8。编码器需要通过高复杂度的率失真优化过程对每种大小的 CU进行尝试,最终选择最佳大小的 CU 进行编码。此外,HEVC 的帧内预测模式多达 35 种 (AVS2 的帧内预测模式多达 33 种),如果对于每种模式都进行率失真优化决策过程,则复杂度将会很高。为了降低帧内编码的复杂度,国内外研究者提出了大量的帧内编码加速算法。这些方法按照针对的是编码模式决策还是编码单元划分决策,分为两大类:快速编码模式决策和快速 CU大小决策。快速编码模式决策的主要动机是: 1)帧内编码模式的数量较多,如果针对每个模式都进行 RD 决策,则会导致较高复杂度;2)根据编码块的特性,很多帧内编码模式可以提前退出 RD 过程。一种基于三步算法的帧内模式决策算法[79],用于加速帧内编码模式决策过程。首先,一个粗选择过程(RMD)根据每个模式的哈德马代价(HAD cost)从 35 个帧内模式中选择若干个 HADcost 最小的模式,并将这些选中的模式保存到一个候选模式列表中。其次,根据相邻块间较强的相关性,利用当前块周围邻近块得到三个最可能模式(MPM)[80][95],并把它们加入到该候选模式列表中。最后,该列表中所有模式通过 RDO 过程,选择率失真代价(RD cost)最小的模式为当前编码块的最佳预测模式。由于哈德马代价的计算复杂度要远远低于率失真代价,而且哈德马代价可以近似反映编码的率失真代价,因此该基于三步的模式决策算法能够很大程度上降低需要进行率失真优化过程的模式数量,从而降低了编码过程的复杂度,同时保证了对编码性能的影响较小。
..........
 
2.2 帧内预测技术的研究现状
与 H.264/AVC 中的帧内预测方法相似,最新标准 HEVC 和 AVS2 也采用了基于周围相邻像素的方向插值预测方法,由于预测方向更加精细,同时引入了 planar 模式或者 plane 模式,大大增加的帧内预测的准确性。基于方向插值的预测方法对于简单的具有一定纹理方向的块具有较好的预测效果,然而对于复杂的纹理块,性能会受到限制。为了进一步提升帧内预测的性能,研究者们提出了一些新的帧内预测方法[96~107]。这些方法按照利用相关性的不同大致可以分为两大类:基于局部相关性的预测方法和基于非局部相关性的预测方法。第一类基于局部相关性的方法利用当前块的周围像素值来加权平均得到当前像素点的预测值,或者利用当前块中像素点周围的像素点加权平均得到当前像素点的预测值。文献[126][127]中提出了循环外插算法。在该方法中,图像信号被表示为 2-D 非分离的马尔科夫模型。一个三抽头的滤波器[126]或一个四抽头的滤波器[127]作用于当前像素的最近邻像素上得到当前像素点的预测值。文献[126]中的 2-D 非分离马尔科夫模型如公式(2-9)所示。其中 V,H 和 D 为当前像素 X 的相邻像素,位置关系如图 2-2(a)所示。cv,ch和 cd有效地反映了 2-D 空间中像素的相关性以及纹理的方向性,这些系数值通过离线训练得到。在实际编码中,V,H 和 D 为对应像素点的重建值或者预测值。对一个 4×4 的块进行预测的顺序如图 2-2(b)所示。考虑到图 2-2(a)中的三抽头滤波器无法表示来自右上方和左下方的方向预测,文献[127]提出了两种不同的四抽头滤波器分别用于对右上的方向和左下的方向进行预测,如图 2-3所示。文献[128]利用从图像中学习得到的统计模型,提出了一个基于位置依赖滤波的帧内预测算法。该方法中,对于不同大小块中的不同像素位置都有一个与其对应的滤波器,通过将该滤波器作用于当前块周围已经重建的像素来得到该位置的预测值。文献[99]将基于 PDE 的图像修补技术应用于帧内预测中。该方法基于一个假设:图像块通常是平滑的,因此块的预测可以通过利用块周围已知像素求解 PDE 问题得到。文献[100]提出了一种联合的帧内预测方法,该方法结合了编码块与周围像素点之间的关系以及编码块内部像素点之间的关系。然而当 RQT 结构被 HEVC 采纳之后,该方法在 HEVC 上的性能变的很小。这是由于基于 RQT 结构的帧内预测大大缩短了参考像素点与待预测块之间的距离,从而提升了帧内预测的性能。另外一种减少参考像素与待预测块之间距离的方法 SDIP 在文献[101]中被提出来。该方法采用了基于四叉树结构的非方形编码块的划分,重建的非方形块可以作为参考用于后面块的预测。图 2-4 给出了在 SDIP 方法中不同大小 CU 对应 PU 的划分。可以看出,该方法中参考像素与待预测像素之间的距离得到大大的缩短,从而提升了预测的准确性。双向帧内预测算法[102]通过结合两个不同的帧内预测模式来生成一个新的预测,被首先提出来用于 H.264/AVC 中的帧内预测。在文献[102]中,基于统计得到了一些模式的结合,其中每种结合对应的加权系数值通过离线训练得到。
..........
 
第 3 章 快速帧内模式和编码单元决策 ..........32
3.1 现有的帧内编码决策方法 ........... 32
3.2 提出的快速帧内模式和编码单元决策的基本框架 ........... 35
3.3 快速帧内预测模式决策 ..... 36
3.4 快速帧内编码单元划分 ..... 41
3.5 实验结果 ......... 49
3.6 本章小结 ......... 54
第 4 章 基于局部及非局部相关性的混合帧内预测 ..........55
4.1 问题的提出及提出方法的框架 ............. 55
4.2 自适应模板匹配预测 ......... 58
4.3 基于 AIP 和 ATMP 相结合的预测........ 62
4.4 基于邻近模式相结合的预测 ....... 64
4.5 提出的混合帧内预测的模式编码 ......... 68
4.6 实验结果与分析 ....... 69
4.7 本章小结 ......... 79
第 5 章 自适应的色度帧内预测 ............80
5.1 色度预测方法概述 ............. 80
5.2 LM 模式 ........... 82
5.3 自适应模板选择 ....... 84
5.4 自适应 Cr 分量预测 ........... 85
5.5 实验结果 ......... 88
5.6 本章小结 ......... 91
 
第6章 信号依赖的自适应帧内变换
 
变换技术用于去除预测之后残差中剩余的空间冗余,是视频编码中的一个重要模块。目前,HEVC 标准采用了 DCT 和 DST 相结合的变换编码方式,而 AVS2 标准主要采用了 DCT 变换编码方式。虽然,DCT/DST 在一些情况下已经被证明接近于最优的 KLT 变换。然而,由于 DCT/DST 是信号不依赖的变换,其无法自适应于各种不同分布的残差,使其性能上有所局限。考虑到目前固定变换的这种局限性,本章基于对最新标准中帧内预测残差的分析,提出了一种信号依赖的帧内变换方法。提出的变换方法充分考虑了帧内编码中,基于预测块得到的合成块与残差块之间的结构相似性,通过对合成块进行奇异值分解(SVD)得到特征矢量矩阵,并将其用于残差的变换中,从而去除残差中的空间冗余。
 
6.1 现有帧内变换及预测残差分析
在高斯-马尔科夫模型下,当像素之间的相关性系数接近于 1 时,这也意味着编码块中存在较大的冗余,DCT 变换已经被证明近似于 KLT 变换[145]。由于最新标准中帧内预测能够去除编码块中的绝大部分冗余,最后得到的残差块中像素之间的相关性不会像原始编码块中的像素那么高。理论上来说,在一些情况下[75][76][77],针对帧内预测之后残差块,DST 变换被证明接近于最优的 KLT 变换。针对预测模式靠近垂直方向得到的预测残差,对于垂直方向上的变换,DST 近似于 KLT,而对于水平方向上的变换,DCT 近似于 KLT。类似地,针对预测模式靠近水平方向得到的预测残差,对于垂直方向上的变换,DCT 近似于 KLT,而对于水平方向的变换,DST 接近于 KLT。根据文献[77],DCT 和 DST 的不同组合应该被用于不同的帧内预测模式。在HEVC编码标准中,为了取得复杂度和编码性能之间一个较好的平衡,对于帧内预测中 4×4 亮度块,采用 DST 变换对残差进行变换;而在其他情况下,仍然使用 DCT 变换[78]。这是由于对更大的块进行 DST 变换相比于 DCT变换在性能上的提升没有在 4×4 亮度块上那么明显。HEVC 采用的这种简化的变换选择方式相比于[77]在性能上有少量的损失。然而这种方式能够去除硬件上对 DCT 和 DST 进行选择的逻辑单元,更有利于硬件的实现。
\
...........
 
结 论
 
HEVC 视频编码标准作为最新的国际视频编码标准,相比于上一代标准H.264/AVC,取得了显著的压缩性能提升。我国的 AVS2 视频编码标准也取得了与 HEVC 相似的编码性能。由于 HEVC 和 AVS2 引入更加复杂的编码工具,在带来性能提升的同时,也引起了复杂度的大幅度提升。因此,为了使得 HEVC 和 AVS2 的编码器在实际中得到充分应用,在保持其压缩性能的前提下,最大限度地降低其编码复杂度具有重要意义。虽然目前的 HEVC 和AVS2 标准已经制定完成,然而随着视频大数据时代的到来,以及视频分辨率越来越高,对视频压缩的性能要求越来越高,这将对现有视频压缩标准的性能提出新的挑战。因此,基于现有的标准,进一步提高视频压缩的性能,为未来的视频压缩标准做技术储备,依然是视频编码领域的热点问题。针对上述问题,本文围绕着图像/视频压缩中最核心部分之一:帧内编码,进行了深入研究。针对帧内编码中三个主要环节:帧内编码决策、帧内预测和帧内残差变换进行深入探讨,并提出了相应的解决方案。具体地,本文的主要研究成果包括:
(1) 提出了快速帧内预测模式和编码单元划分决策方法用于降低帧内编码的复杂度。针对现有标准中帧内预测模式较多、决策复杂度高的问题,本文提出了基于平均梯度的快速帧内预测模式决策方法,通过快速地计算出水平和垂直方向的平均梯度来判断待编码块的纹理方向,从而有效地减少了需要进行粗选择过程以及高复杂度的率失真优化过程的预测模式的数量,达到降低帧内预测模式选择的复杂度的目的。为了高效地对编码单元划分进行决策,本文提出了基于编码单元提前划分和编码单元提前终止策略的快速编码单元划分决策方法。在快速地编码单元划分方法中,本文创新性地引入两个加权的 SVM 依次进行编码单元划分的分类。在特征设计中,本文充分挖掘图像的空间相关性得到多个有效的特征用于 SVM 的训练和决策中。实验结果表明,提出的方法取得了较主流方法相当甚至更好的性能。
(2)提出了基于局部和非局部相关性的混合帧内预测用于提升帧内预测的准确性。由于现有标准中的帧内预测只能对纹理简单或者纹理方向比较单一的块进行较好的预测,而对于纹理复杂的编码块,现有标准中的帧内预测将不再高效。为了继续提高视频编码标准中的帧内预测模块的编码效率和为下一代视频编码标准的制定做技术储备,本文利用图像中存在的局部和非局部相关性,提出一种混合帧内预测方案,该方案包括自适应的模板匹配预测方法,联合局部和非局部相关性的预测方法和基于临近编码模式的双向帧内预测方法。实验结果表明,本文提出的混合帧内预测能够获得 3%左右的BD-rate 的降低。
(3)提出了自适应的色度预测方法用于改进现有的 LM 模式,提高帧内色度预测的准确性。目前主流视频编码器的输入视频格式为 YCbCr420。尽管从 RGB 格式到 YCbCr420 格式的转换很大程度上去除了信道之间冗余,然而 Y,Cb 和 C 这三个分量之间依然存在着相关性。为了进一步去除这三个信道之间的冗余,LM 模式被提出来利用当前编码块中已经编码重建的亮度块 Y 根据估计的线性模型来预测待编码的色度块 Cb 和 Cr。本文针对 LM模式中存在的不足,提出了自适应的模板选择方法用于提高参数估计的准确性,同时提出了自适应的 Cr 预测方法用于进一步提升 Cr 分量的预测准确性。实验结果表明,本文提出的自适应色度预测方法相比于 LM 性能上有进一步的提升,同时提出方法对编解码复杂度的影响可以忽略。
..........
参考文献(略)

提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。
本论文由代写论文网整理提供 http://www.dxlwwang.com/
需要专业的学术论文资料,请联系我们客服
本文地址:http://www.dxlwwang.com/jsj/6439.html
论文关键字:计算机硕士毕业论文 快速帧内编码 混合帧内预测 自适应变换