首页   实验室与人员介绍   科学研究   人才培养   论文著作   学术讲座   合作交流   招贤纳士   招生指南   联系我们
greyback

数字视音频编解码技术研究组

  一、简介
  数字视音频编码技术研究组的前身是MPEG-4技术研究组。顾名思义,我们早期的研究方向主要是MPEG-4编解码技术。实验室的负责人高文教授作为MPEG中国代表团的团长从1996年就开始参加国际MPEG专家组的一些决策型会议。2001年,研究组提出的“快速鲁棒的静态Sprite生成算法”被MPEG-4标准的第7部分(ISO:14496-7)采纳,这是国内首批被MPEG-4标准采纳的技术之一。2002年7月在奥地利召开的ISO/IEC MPEG和ITU-T VCEG联合视频工作组(Joint Video Team)工作会议上,研究组提出的“结合率失真优化理论的码率控制算法”又被JVT标准所接受,这项技术表明研究组在数字视音频编解码方面的研究在国内已经处于领先地位。近几年,研究组在帧间预测、变换量化、熵编码等方面的研究成果又被AVS标准采纳,已成为AVS标准核心技术的主要贡献者之一。目前,研究组承担的课题有:自然科学基金重点项目"高效视频编码中的关键技术研究",863计划重点项目"数字音视频编码、传输、测试与应用研究"等。

  二、研究方向
  在广播数字化、网络宽带化、通讯无线化、存储高密化的大趋势下,已经对如何传输与存储以音视频为主的海量数据提出了更高的要求。实验室的负责人、多媒体技术专家高文教授认为:
  在数字视音频编解码领域,传统的信息论已经受到了挑战,我们需要新的理论。数字视音频编解码领域当前面临的主要开放问题或技术挑战包括:编码理论的上限、不同压缩算法组合的理论依据、压缩效果的有效性评价标准、码率转换的误差边界、带宽约束和带宽可变问题、面向传输安全与存储安全的压缩问题、数据表达问题等。为了解决这些问题,近期主攻方向应集中在基于知识的模型化方法,而模拟人类视听感知系统(或通俗地称为仿生方法)应该是长期努力方向,希望逐步建立超过传统信息论的广义信息论。
  因此,研究组在数字视音频编解码技术领域研究的主要目的是给出一套高效智能化的能够解决海量多媒体数据存储、表现、编码和传输的理论方法与算法模型,解决数字视音频编解码标准化的关键问题,在带宽有限或抖动的网络上有效地传输流媒体的问题,以及低功耗低计算复杂度约束条件下的高效编码问题。研究方向有:

  新型高效的视频编码技术
  视频转码技术
  编码优化技术
  MPEG-4芯片设计组

新型高效视频编码技术 ↑Top

  多媒体数据能够压缩的基本原理是数据相对于所表达的信息具有相当的冗余性,现有的预测理论、正交变换、向量量化等数据压缩理论在实践中已经取得大量应用,小波变换和分形压缩也得到广泛研究。基于这些技术及其组合,世界范围内已经提出了很多标准,典型的有ISO/IEC JTC1推出的MPEG系列标准、ITU-T推出的H.26x系列标准。然而,这些传统的视频编码算法都是构架在香农信息论的基础上的。在广播数字化、网络宽带化、通讯无线化、存储高密化的大趋势下,流媒体技术对传统信息理论提出了重大挑战,核心问题是如何传输与存储以音视频为主的海量数据。因此,研究组在流媒体领域的研究主要集中在开发新型高效的视频编码技术上,目前的研究内容有:基于传统混合编码器框架的高效视频编码技术,新型的精细可伸缩视频编码,基于3D小波的可伸缩编码,编码优化控制技术,基于对象/模型的视频编码,分布式视频编码技术等。
  (1)基于传统混合编码器框架的高效视频编码技术
  尽管现有的视频编码器的性能已经有了显著的提高,但其基本结构仍然是运动补偿预测、正交变换和熵编码器技术的组合,传统视频编码器存在的问题(如方法干扰问题)仍然存在。因此针对视频编码系统的结构框架,给出设计高效视频编解码器的一般性方法尤为重要。此外,编码系统中每个技术模块的优化空间依然存在。如对于运动补偿和预测编码,采用基于块匹配的运动补偿与主运动补偿相结合的策略可以进一步提高预测精度。传统的主运动估计算法极为复杂,可以通过块运动矢量恢复全局运动参数的方法,一方面可以避免全局运动估计参数的计算,减轻编码器的负担,另一方面还可以减少需要编码的运动矢量的数目,提高编码效率。在图像边缘,采用纹理自适应的图像边缘填充算法,提高运动补偿的预测精度。在多参考帧预测时,通过低复杂度的图像拼接减少预测及编码模式的变化,提高编码效率。
  (2)新型的精细可伸缩视频编码
  精细的可伸缩性的视频编码FGS是MPEG-4标准的视频流化框架中的关键性编码技术, 主要由基本层和增强层构成. 基本层采用现有的运动补偿DCT变换编码标准, 通常基本层的码率非常低, 量化步长比较大. 基本层的量化误差通过位平面编码技术形成增强层码流. 由于增强层缺少有效的运动补偿, 编码效率较低, 因此, 提出了一种新型的精细可伸缩编码框架PFGS, 其目的是为了提高FGS的编码效率和提供通用的可分级的视频编码. 首先在增强层的编码中引入了高质量的参考图像和运动补偿, 由于采用了两层运动补偿技术, 该编码框架不仅提供了高效的基于图像质量的可分级视频编码, 而且同时支持高效的时域, 空域和解码复杂度的可伸缩视频编码. 其次, 在PFGS中, 每个增强层的宏块可以选择不通的参考图像用于运动补偿和重构. 通过定义多个不同的编码方式, PFGS编码框架不仅能够灵活的控制增强层的编码, 而且可以有效的消除在可伸缩编码中产生的误差传递和累计。
  (3)基于3D小波的可伸缩视频编码
  相对于传统的基于FGS的可伸缩视频编码技术,小波变换具有完全的可伸缩特性,可以同时实现质量、空间和时间的可伸缩编码。然而,在视频编码中应用小波技术需要解决的关键问题是如何嵌入高效的运动补偿策略。我们研究的目的是在所开发的视频编解码技术的基础上,针对网络传输带宽模型,研究基于小波的视频编码中的运动估计和运动补偿问题,实现高效的可伸缩的视频编码,使编码的视频流能够有效的适应网络带宽的波动。
  (4)编码优化控制技术
  通常的视频压缩算法都采用了可变长编码,编码生成的视频码流的可变码率的。为了能够在实际的固定码率信道或者可变码率信道上传输,需要引入缓冲区缓存视频码流数据。因此,视频编码算法必须提供一个有效的缓冲区管理策略,确保缓冲区不会发生上溢和下溢。编码器通过码率控制算法,调整生成的视频码流满足既定的缓冲区管理策略;同时在码率控制算法中使用自适应量化方法,确保压缩视频的质量。
一般的,缓冲区管理策略都是建立在一个假想的解码器模型上,该解码器模型直接和编码器的输出相连接,缓冲区管理策略通过控制编码视频数据流移入和移出解码器缓冲区的时间以保证解码器模型的数据缓冲区不上溢也不下溢。在MPEG标准中,该解码器模型称为VBV(Video Buffer Verifier),而在H.261、H.263以及JVT中称为HRD(Hypothetical Reference Decoder)。
  码率控制技术是实现HRD的关键技术之一,负责编码器各个环节与传输信道和解码器之间的协调。由于视频流具有分层的特点,码率控制一般分为帧级控制和宏块级控制。宏块级码率控制多采用率失真模型,根据图像层码率控制确定的该帧图像的输出期望比特数,给图像各部分选择合适的量化步长;而帧级码率控制主要考虑编码时延、缓冲区溢满程度等因素,在一帧图像编码前,确定该帧图像的期望比特数。H263+的TMN8与MPEG-2的TM5码率控制方案是迄今为止比较优秀的方案。
  目前,率失真优化编码技术已经成为编码的一项重要技术,它大大的提高了压缩效率,但是它给宏块级的码率控制带来了困难,TM5与TMN8都表现了极大的不适应性。研究组在码率控制领域的主攻方向是开发与率失真技术相结合的码率控制算法,目前已经取得了一些阶段性的成果。在2002年7月奥地利召开的第4次JVT JVT(Joint Video Team)会议上,研究组提出的码率控制算法被JVT标准采纳,该算法对于推动JVT标准的应用具有重要作用。
  (5)基于对象/模型的视频编码
  基于对象的编码方法作为第二代视频编码技术的主要组成部分已经成为研究的热点问题。与传统的视频编码方法相比,基于对象的方法不仅可以有效地提高编码效率,还可以在诸如基于内容的多媒体交互等应用中产生重要作用。基于Sprite的编码技术就是针对背景视频对象提出的一种十分有效的编码方法。Sprite又被称为镶嵌图,是指一个视频对象在视频序列中曾经出现过的部分经过拼接而生成的全景图。因为Sprite对象是由视频序列某个对象所有出现部分拼接的结果,所以Sprite可以直接重构该视频对象或对其进行预测补偿编码。研究组对Sprite编码技术方面的研究包括静态Sprite生成,基于多方向预测的静态Sprite编码,高分辨率动态Sprite编码。其中,研究组开发的静态Sprite生成算法已经被MPEG-4标准的第7部分(14496-7)采纳。
  基于模型的编码可以看作是一种特殊的基于对象的编码,此时对象的结构更复杂,除了在对象的边界存在形状特征外,在对象的纹理区域也存在一定的结构,这些结构信息通过网格模型的内部节点和边来表示。我们的研究目的是将传统的基于块的编码方法同基于模型的编码方式相结合,采用基于图像内容的2D网格模型对即将编码的当前图像做出预测,然后利用传统的视频编码原理再次进行运动估计和运动补偿编码。由于参考帧采用预测后的图像,使得在相同的码率下重构图像的信噪比明显高于传统的视频编码技术,如MPEG-4标准及H.264/AVC标准。
  (6)分布式视频编码技术
  分布式视频编码技术主要应用领域是无线传感器网络。无线传感器网络是由大量的集成了传感器、数据处理单元和通信模块的微小节点构成的全分布式的自组织网络。在传感器网络中应用DSC技术,对多个信源应用独立编码器进行编码,得到的多个独立码流送入同一个联合解码器,这个解码器充分利用码流之间的相关性对所有输入码流进行解码。分布式视频编码避免了传感器之间的信息交互,简化了传感器网络分布结构的设计,节省了由于信息交互带来的带宽需求。另外,DSC技术是一种低复杂度编码端技术。我们都知道传统的视频压缩技术,如MPEG、H.26x,编码端需求的计算量非常大,尤其是运动估计模块,需要大量的CPU与内存之间的交互,消耗了大部分电力和影响了系统运行速度。对于无线传感器网络来说,在存储、计算、电力资源有限的发送端(如无线视频监视系统,移动摄像电话,无线摄像PC等)上难以应用高计算复杂度编码技术。利用DSC技术可以实现:计算复杂度由编码器向解码器的转移,把复杂计算转移到位于网络数据处理中心上的解码器上进行;在有限的传输带宽和传输功率下,高效的数据压缩;对于由信道传输错误造成的丢包具有健壮性。
  分布式视频编码技术在实际应用时所遇到关键的问题就是相关性模型,因为图像块的噪声需要按照预先设计好的相关性级别进行分级,分级后的块根据相关性在不同级别上应用相应的信道编码方法。分布式视频编码中的关键技术是信道编码,好的信道编码技术能够在相关性信息不断变化的情况下仍保持高效性。

视频转码技术 ↑Top

  多媒体技术的发展使得通信得到更加广泛的应用,通信的方式也更加多样化。特别是随着互联网和移动网络的迅速发展,越来越多的多媒体信息正在或即将通过各种不同的传输途径和终端设备为人们所分享和交换,包括固定的或移动的、有线的或无线的设备正在通过光纤主干网、窄带或宽带本地接入、高速局域网、家用网以及日趋广泛使用的无线网等来传送和接收信息。面对如此广泛的、不同种类的而且动态变化着的网络及其多样化的用户终端设备,以及多样化的人机交互方式,对于视频编码与处理技术提出了越来越高的要求。传统的视频编码技术通常假定一定的网络结构和终端设备特性,力争在保证一定的视觉质量的前提下具有尽可能高的编码效率。显然,对于实际应用中的各种不同特性的网络结构和终端设备,这样编码得到的视频码流并不是最优的。能够适应变化的网络状况和不同分辨率终端设备的视频编码技术正在成为多媒体应用中的热点问题,而这类问题的解决在技术上还远未成熟,为此,我们在以下几个方面进行了研究:
  (1)基于新一代视频编码标准的转码关键技术的研究
  随着新一代高复杂性视频压缩算法(如最新的国际编解码标准H.264/MPEG-4 AVC)的出现,多种编码模式和子像素精度运动矢量等新的编码工具的采用使得转码技术面临更大的挑战。对于新的国际标准H.264,由于引入了帧内预测模式、更为复杂的多种帧间预测方法以及率失真优化,因此简单地采用传统的开环和闭环结构是不适合的。在空间分辨率下采样的转码中,我们提出了一种基于H.264/AVC的原有的宏块预测模式信息的快速转码算法。在比特率缩减的转码中,为了降低率失真优化带来的编码器的高复杂度,我们提出了一种基于模式分级的快速宏块预测模式选择的算法,并提出了一种新的、更为精确的转码中的码率控制算法,从而更加有效地实现了基于新一代视频编码标准的转码。
  (2)基于移动网络的容错编码/转码技术的研究
  视频在移动网络中传输的一个很重要的需要解决的问题就是由于信道误码带来的丢包现象。一般说来,在码流中插入帧内块是一种简单、有效的方法。最早的方法是随机的插入帧内块或根据宏块的活动性区域插入帧内块的方法。在H.264标准的制定过程中,一种基于率失真优化的方法被提出并被采纳。但是由于其过高的算法复杂度导致了这种方法的实用性很差。为此,我们提出了一种新的基于率失真优化的容错编码算法,首先预测每种编码模式在某个固定码率下的量化参数,进而选择对应于最小量化步长的编码模式,从而在实现固定码率编码的同时,获得最小的失真,有效地解决目前H.264中基于率失真优化的方法存在的问题。同时,我们还提出了一种解码端差错隐藏的算法,有效地改进了H.264中的差错隐藏方法。
  (3)用户效用函数最大化的转码技术的研究
  在移动多媒体应用中,移动网络的带宽和掌上设备的计算能力、显示能力是限制移动应用的关键因素。如何保证用户在有限的带宽、移动设备能力的条件下获得最好的多媒体服务是移动多媒体内容提供商最为关注的问题。在传统的视频编码研究中,码率控制问题即如何精确地控制编码后的视频流在带宽允许的范围内,是得到重点关注的领域。常用的方法包括了建立各种模型来精确的控制量化步长(QP)。我们正在进行的工作是根据用户所需要的视频内容和网络资源占用情况,综合考虑,动态调整视频流的帧率、空间分辨率,以及量化步长,使得用户的效用函数最大化。目前,在这方面的研究上,我们已经完成了系统的整体设计,流媒体平台的搭建,视频搜索的基本功能模块和所需的转码的各个独立的功能模块的实现。在接下来的工作中,我们的重点将放在基于内容的转码的研究上,目前以效用函数指导的综合码率控制为切入点。

编码优化技术 ↑Top

  由于应用领域的差别,对视音频编解码器有不同的优化要求,但它们的共同点是:算法复杂度要尽可能小、算法处理的时间尽可能短、性价比尽可能高。目前,研究组从两个方面进行了MPEG系列视音频编解码的优化工作。
  (1)软件优化
  主要包括算法级别的优化和代码级别的优化。算法级别的优化是指采用快速算法实现编解码器中时间复杂度较高的部分,对于DCT变换和运动估计类型的MPEG编解码算法,采用快速的DCT算法和快速的运动估计算法,可以极大的降低DCT变换和运动估计的时间复杂度。例如,8*8的DCT变换,求得每个DCT系数需要64次乘法和63次加法,那么总共需要4096次乘法和4032次加法。而采用快速DCT变换,目前最好的结果是Feig等人提出的2-D DCT快速算法,总共值需要462次加法、54次乘法和6次左移操作。代码级别的优化是指利用PC机CPU指令集中相关指令编写程序代码,从代码执行速度上提高编解码算法的执行速度。对于INTEL体系的CPU,采用其提供的MMX指令集以及SSE指令集可以提高程序的执行效率。INTEL PENTIUM MMX以后的CPU都支持MMX指令集,它采用了SIMD(单指令多数据)结构,其中有8个64位的寄存器,每次运算如果操作数为8位、16位、32位,则一次完成相同的运算次数为8、4、2个。INTEL PENTIUM III以后的CPU支持SSE技术(Streaming SIMD Extensions )更是提供了8个128位的寄存器用于并行处理。
  (2)硬件优化
  目前,研究组采用TI公司的新一代C64xx系列可编程媒体处理芯片作为开发平台,实现完全遵从AVS标准的视音频编解码及系统层的复用与解复用。编解码技术的优化主要从三个方面进行考虑:一是减少每个操作的运行周期;二是提高每个周期能够完成的操作数;三是减少总共需要完成的操作数。设计中主要利用了冒进的优化和全局调整技术,包括:发现指令级并行,寄存器管理、流水线装载和功能单元管理,利用并行产生指令操作,支持扩展的全局优化、分析和调整,通过软件流水线、循环展开、preconditioning来重组循环,提供局部调整和优化,支持面向媒体的机器应用,减少数据依存性来最大的发挥调整效率。

MPEG-4编解码芯片设计 ↑Top

  近来,随着移动的电子设备在世界范围内广泛使用。与之相适应,视音频压缩算法越来越引起人们的关注。由于MPEG-4标准具有高编码效率和较好的错误恢复能力等优点,使它成为一个对于移动多媒体的设备非常适合的标准。
  在移动多媒体市场上,低功耗和高的性能价格比是两个关键评价指标。为了达到如上的目标,无论从芯片设计还是算法都需要改进。从体系结构的观点来看,专用的硬件结构,例如运动估计和IDCT结构,更适合视频的信号处理。另一方面,由于MPEG-4的算法较传统的视频编码方法MPEG-1/2更加复杂,而要求更多的可编程性。因此,我们的结构采用了RISC处理器和专用硬件结构相结合的方法。
  研究组研究的目的是面向多媒体通讯电子产品需求,采用基于平台的SOC设计方法,设计符合MPEG-4标准视音频编解码芯片。并结合在局域网视频的应用需求,设计实现可基于IP的simple profile @ level 1的MPEG-4视音频流的片上系统(SOC: System On Chip)。
研究组在MPEG-4芯片设计的进展情况为:
  对一些MPEG中计算量较大的算法采用专用的硬件结构实现,做了很多有益的尝试,取得了一定的成果。设计了一个基于IP的视频传输的片上系统,这个SOC(system on a chip)首先通过CMOS得到的图像序列,再压缩成MPEG-4的视频码流,最后得到符合IP或是802.11b网络协议的数据流,在以太网(Enthernet)或是无线局域网(Wireless Lan)上传送。这个SOC可以用于局域网的视频传输领域。在算法优化、硬件结构实现、软硬件协同设计方面,研究组作了大量知识和技术储备,特别是在队伍、技术、管理、设备等方面为该专题的实施奠定了良好的基础,积累了较丰富的实践经验,形成了一条规范化的、行之有效的技术路线,为研究组今后工作的实施起到了很好的保障作用。目前,我们正在利用FPGA实现并验证MPEG-4的simple profile @ level 1的视频解码部分。  

  研究组在MPEG-2视频编解码芯片设计的研究成果

  实现了基于MP@ML的MPEG-2的视频解码器。它包括一个微处理器接口,完成视频解码器和微处理器的数据和指令的传递;存储器控制接口;解码流水线;其他的一些必要的解码模块,如:起始头检测模块,错误恢复和中断模块等;采用DA算法设计完成IDCT结构;采用SYSTOLIC结构设计了优化的运动估计结构;设计完成了一种既可用于DCT又可以用于IDCT的硬件结构;完成了其他一些编解码过程中必须的模块:变长编解码模块、反扫描和反量化模块等


Copyright © 2009  数字视频编解码技术国家工程实验室