龙空技术网

摄像机的视频编解码技术

智慧城市物联世界 160

前言:

现在兄弟们对“显示器的分辨率1024768表示”大致比较关切,朋友们都想要分析一些“显示器的分辨率1024768表示”的相关知识。那么小编也在网摘上汇集了一些有关“显示器的分辨率1024768表示””的相关知识,希望兄弟们能喜欢,我们一起来了解一下吧!

随着互联网的飞速发展,消费类电子、通信、影视及广播、计算机技术日益紧密地结合起来,使得

基于互联网的多媒体产业成为本世纪初发展最快、规模最大的产业之一

众所周知,人类通过视觉获取的信息量约占总信息量的70%,而且视频信息具有直观性、可信性等

一系列优点。但是,多媒体数据在没有经过压缩前,数据量非常大。对于分辨率为720576的静态图片,

如果没有压缩,在RGB空间下需要的存储空间为:

7205763(byte)=9.49mb

以每秒25的帧率发送该分辨率对应的运动图像需要的传输带宽为:

9.49(Mbits/frame)*25=237.3(Mbps)

可见,在不进行数据压缩的情况下,传输的数据量非常大,单纯用扩大存储器容量、增加通信干线

的传输速率的办法是不现实的。因此,必须对多媒体数据进行压缩编码,以压缩形式存储、传输,既节

约了存储空间,又提高了通信干线的传输效率。所以,视频编码压缩技术是多媒体技术中的关键。

像素和分辨率

数字图像是由按一定间隔排列的亮度不同的像点构成的,形成像点的单位称"像素",也就是说

组成图像的最小单位是像素。一幅图像有很多行组成,而每一行又有很多个像素点组成,很多幅图像连

续起来就组成活动的图像。

图像的分辨率是指组成图像的每一个方向上的像素数量。分辨率1024768,其中"1024"表示水平

方向显示的像素点数,"768"表示垂直方向的像素点数。因此,所谓分辨率就是指画面的清晰度,像素

点数值越大,图像就越清晰。

目前数字电视标准按照显示格式的不同,共分为以下5种规格:

D1:480格式,分辨率为640×480,隔行扫描/60Hz,行频为1525KHz。

D2:480P格式,分辨率为640×480,逐行扫描60Hz,行频为315KHz。

1080格式,分辨率为1920×1080,隔行扫描60Hz,行频为3375KHz。

20P格式,分辨率为1280×720,逐行扫描60Hz,行频为45KHz。

D5:1080P格式,分辨率为1920×1080,逐行扫描,专业格式。

其中D1和D2标准是我们一般模拟电视的最高标准,并不能称得上高清晰,D3的1080标准是高清晰

电视的基本标准,它可以兼容720P格式,而D5的1080P只是专业上的标准,不是民用级别的。

色度空间

绝大部分数字视频程序都依赖于彩色视频的显示,这样的话,就需要方法来捕捉井表示颜色信息

副单色的图像,只需要对空间内的每个像素点的亮度或透明度用一个值表示即可。但对于彩色图像来

说,任一像素点至少需要三个数值才能准确表达颜色信息。用来表示亮度和颜色的方法叫做色度空间。

RGB

在RGB色度空间中,一个带颜色的图像采样是用三个值来表示一个像素点的红、绿和蓝色比。任何颜色都可以通过红、绿、蓝的不同配比得到。

YCbCr人类视觉系统(HVS)相比亮度而言对颜色不是那么敏感。在RGB色度空间中,三种颜色的重要度相当,并使用相同的分辨率进行存储,数据量很大。通过把图像的亮度信息和颜色信息分离,并使用不同的分辨率进行存储,对亮度值取更高的分辨率,Cb和Cr使用更低的分辨率。这样可以占用极少的带宽,并且不影响图像质量的主观感受。

YCbCr色度空间及其变换(通常写为YUV)是一种流行而高效的表示一个颜色图像的方法。YCbCr是将图像亮度和色度分离的表示彩色图像的方法,Y表示明亮度,Cr和Cb表示色差。其中,Cr反映了RGB输入信号红色部分与RGB信号亮度值之间的差异,而Cb反映的是RGB输入信号蓝色部分与RGB信号亮度值之同的差异。

一帧视频图像:

RGB色度空间的视频图像:

YUV空间的视频图像:

帧和场

一个视频信号可以逐行扫描或隔行扫描来进行采样。

每一帧画面都自上而下,逐一完成每一条水平扫描线,称作逐行扫描。每一帧画面自上而下,先扫描所有奇数扫描线,再完成偶数扫描线,就是隔行扫描。一幅只含奇数行或偶数行的画面称为一

"场(Field)",其中只含奇数行的场称为奇数场或前场(TopField),只含偶数行的场称为偶数场或后场(Bottom Field)。也就是说一个奇数场加上一个偶数场等于一帧(一幅图像)。

一帧图像在经过编码压缩后,根据编码方式的不同,分不同类型的帧:l帧、P帧和B帧。

帧(帧内编码帧)是一种自带全部信息的独立帧,无需参考其它图像便可独立进行解码。l帧的缺点在于它们会占用更多的数据位。

P帧(帧间预测编码帧)需要参考前面的l帧和/或P帧的不同部分才能进行编码。与I帧相比,P帧通常占用更少的数据位。

B帧(双向预测编码帧)需要同时以前面的帧和后面的帧作为参考帧。

当视频解码器逐个帧地对比特流进行解码以便重构视频时,必须始终从帧开始解码。如果使用了P帧和B帧,则必须与参考帧一起解码。

视频编解码流程

典型的视频编解码流程的第一步是将从摄像机输入的视频从RGB色度空间转换到YCbCr色度空间。

输入的视频图像通常被分割为互不重叠的宏块分别编码,宏块的大小通常是16x16的亮度块信息和对应的色度块信息,然后使用分块的运动补偿从已编码的帧对当前帧的数据进行预测,接着使用块变换或者子带分解来减少空域的统计相关性。最常见的变换是8×8的离散余弦变换(DCT Discrete cosine transform),对这些小方块的数据从空间域转换到频域。变换的输出系数接下来被量化,量化后的系数进行熵编码并成为输出码流的一部分。

源编码器的一般形式如下图4所示:

图4编码器的一般形式

图4编码器的一般形式

T——变换

Q——量化器

P——具有运动补偿可变延迟的图像存储器

CC——编码控制

p—INTAR/INTER方式标记

t——传输与否标记qz——量化器指示

q——变换系数的量化索引号

v——运动矢量

下面对编码过程中的几个主要环节作深入的阐述。

采样

采样是指用每隔一定时间的信号样值序列来代替原来在时间上连续的信号,也就是在时间上将模拟信号离散化。

一个自然视频场景在空间和时间上是连续的。数字视频就是在数字形式下的一个视频场景的空间采样和时间采样的表示方式。每一个时-空采样(像素)用一个数或一组数来表示,用来描述采样点的亮度和色度。

空间采样通常是通过在视频图形面上用长方形格处理,对于每个格交点处的点进行采样。选择粗糙的采样格会得到低分辨率的采样图像,而增加采样点的数量就会增加采样图像的分辨率。一个可动的视频图像是通过对信号在周期性的时间间隔上进行快照得到的。重放这一系列的帧会得到运动的效果。一个高的时间采样率(帧率)会产生更加平滑的运动,相对应就有更多的采样需要被捕捉和保存。量化是在幅度轴上,把模拟信号的连续幅度变为有限数量的、有一定间隔的离散值。在时间轴上已变为离散的样值脉冲,在幅度轴上仍会在动态范围内有连续值,可能出现任意幅度,故还必须用有限电平等级来代替实际量值。量化的过程是把取样后信号的电平归并到有限个电平等级上,

并以一个相应的数据来表示。

编码

编码则是按照一定的规律,把量化后的值用二进制数字表示,然后转换成二值或多值的数字信号流。

具体说来,就是用n比特二进制码来表示已被量化的样值,每个二进制数对应一个量化值,然后把它们排列,得到由二值脉冲组成的数字信息流。

视频信号有两种编码方式,即复合编码和分量编码。复合编码是将复合彩色信号直接编码成PCM形式。复合彩色信号是指彩色全电视信号,它包含有亮度信号和以不同方式编码的色度信号。分量编码将三基色信号R、G、B分量或亮度和色差信号Y、(B-Y)、(R-Y)分别编码成PCM形式。

压缩

视频图像数据有极强的相关性,也就是说有大量的冗余信息。其中冗余信息可分为空域冗余信息和时域冗余信息。空域冗余是指同一时间的视频图像,在空间上存在的冗余信息。时域冗余是指前后时间的视频图像间具有相似性,而存在的冗余信息。压缩技术就是将数据中的冗余信息去掉,压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。

预测法是最简单和实用的视频压缩编码方法,经过压缩编码后传输的并不是像素本身的取样值,二是该取样的预测值和实际值之差。

为什么取像素预测值与实际值之差作为传输的信号?因为大量统计表明,同一幅图像的邻近像素之间有着相关性,或者说这些像素值相似。邻近像素之间发生突发或"很不相似"的概率很小,而且同帧

图像中邻近行之间对应位置的像素之间也有较强的相关性。人们可以利用这些性质进行视频压缩编码。

通过帧内预测消除同一副图像内的冗余信息,帧间预测使用基于块的运动矢量消除不同图像间的冗余,再通过对预测残差进行变换和量化消除图像内的视觉冗余,最后,运动矢量、预测模式、量化参数和变换系数用熵编码进行压缩,以消除编码码字冗余。

下面对上述压缩技术作详细的介绍。

帧内帧间预测编码

帧内预测编码和帧间预测编码是两种不同的编码压缩方式,均用于消除视频图像中存在的冗余信息。由于帧内压缩和帧间压缩分别用于消除不同的冗余,因此,这两种压缩方式常同时使用,以获得最大的压缩效果。

帧内压缩又可分为空域和频域预测压缩。空域预测是对一幅图像,通过周边的像素点的值估计当前块的像素点的值,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息;频域预测则是通过周边块的AC/DC系数,预测当前块的AC/DC系数。

帧间压缩是基于许多视频或动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。根据这一特性,帧间压缩用于压缩相邻帧之间的冗余量,进一步提高压缩量,减小压缩比。一般而言,帧间预测编码的编码效率比帧内更高。

运动估计和运动补偿在帧间预测编码中,由于活动图像邻近帧中的景物存在着一定的相关性,即当前画面上的图像可以看成是前面某时刻画面上图像的位移,位移的幅度值和方向在画面各处可以不同。因此,可将活动图像分成若干块或宏块,并设法搜索出每个块或宏块在邻近帧图像中的位置,并得出两者之间的空间位置的相对偏移量。得到的相对偏移量就是通常所指的运动矢量,得到运动矢量的过程称为运动估计。利用运动位移信息与前面某时刻的图像对当前画面图像进行预测的方法,称为前向预测。反之,根据某时刻的图像与位移信息预测该时刻之前的图像,称为后向预测。基于块的运动估计和运动补偿考虑到视频序列中构成新帧的大量信息都可以在前面的帧中找到,但可能会在不同的位置上。所以将一个帧分为一系列的宏块。然后,通过在参考帧中查找匹配块的方式,逐块地构建或者"预测"一个新帧(例如P帧)。如果发现匹配的块,编码器只需要对参考帧中发现匹配块的位置进行编码。与对块的实际内容进行编码相比,只对运动矢量进行编码可以减少所占用的数据位。运动矢量和经过运动匹配后得到的预测误差共同发送到解码端,在解码端按照运动矢量指明的位置,从已经解码的邻近参考帧图像中找到相应的块或宏块,和预测误差相加后就得到了块或宏块在当前帧中的位置。通过运动估计可以去除帧间冗余度,使得视频传输的比特数大为减少,因此,运动估计是视频压缩处理系统中一个重要的组成部分。

变换编码

绝大多数图像都有一个共同的特征:平坦区域和内容缓慢变化区域占据一幅图像的大部分,而细节区域和内容突变区域则占小部分。也可以说,图像中直流和低频区占大部分,高频区占小部分。这样,如果将空间域的图像变换到频域或所谓的变换域,就会产生相关性很小的一些变换系数,并可对器进行压缩编码,即所谓的变换编码。

常见的变换编码有K-L变换、离散余弦变换(DCT)等。编码性能以K-L变换最理想,但缺乏快速算法,且变换矩阵随图像而异,不同图像需计算不同的变换矩阵,因而只用来参考比较。DCT编码性能最接近与K-L变换,略次而己,但它具有快速算法,广泛应用于图像编码。

嫡编码

利用信源的统计特性进行码率压缩的编码方式称为熵编码,也叫统计编码。视频编码常用的有两种:变长编码(也称哈夫曼编码)及算术编码。

解码

解码基本上执行和编码的过程完全相反的过程。其中不能被完全恢复原来信息的步骤是量化。这时候,要尽可能接近的恢复原来的信息。这个过程被称为反量化,尽管量化本身已经注定是个不可逆过程。

视频编解码标准

目前视频流传输中最为重要的编解码标准有国际电联的H.261、H.263,运动静止图像专家组的M-JPEG和国际标准化组织运动图像专家组的MPEG系列标准,此外在互联网上被广泛应用的还有Real-

Networks的ReaVideo、微软公司的WMT以及Apple公司的QuickTime等。

MPEG-4:相对于MPEG-1/2在低比特率压缩上有着显著提高。

1)从清晰度和存储量上都比MPEG1具有更大的优势,更适合网络传输。

2)可以方便地动态调整帧率、比特率,以降低存储量。

H.264: 集中了以往标准的优点,在许多领域都得到突破性进展,使得它获得比以往标准好得多整体性能

1)和H.263+和MPEG-4SP相比最多可节省50%的码率,使存储容量大大降低;

2)H.264在不同分辨率、不同码率下都能提供较高的视频质量;

3)采用"网络友善"的结构和语法,使其更有利于网络传输。

H.265: 与H.264同属于ITU-T VCEG (国际视频解码专家组)所制定的视频编码标准,都属于目前世界上最重要的视频解码标准,广泛应用于视频储存、广播电视、网络等各类视频传输流中(在H.265出现之前,H.264几乎是最著名的编解码标准 —— 所有蓝光播放器都必须能解码H.264)。H.265是基于H.264技术加以优化后的视频编码标准,在保留H.264技术特性的同时,进一步改善了码流、编码质量、延时和数据算法之间的关系,性能相对更强。在1080P为极致观影追求的时代,H.264是最理想的解码方式,而随着4K成为行业大趋势,H.265才是其最理想的搭档。

标签: #显示器的分辨率1024768表示