多媒体技术

多媒体与传统媒体的不同

信号本质不同;模拟与数字

被动接受与主动交互

多媒体

融合两种或两种以上媒体的人-机互动的信息交流和传播媒体

特点：

是信息交流和传播媒体

是人-机交互式媒体

都是以数字形式存储和传输

传播信息的媒体的种类很多

ISO93a的分类：

感知媒体：帮助人来感知环境 (视听触觉)

表示媒体：用计算机的内部表示刻画表示媒体(编码)

表现媒体：信息输入输出的工具和设备(交互)

存储媒体：支持信息存储的数据载体

传输媒体：传输数据信息，支持连续媒体的数据传输

信息交换媒体：所有用于传输和存储的信息载体

多媒体数据

特点：

数据量巨大;

数据类型多;

数据输入输出复杂;

超文本

超文本是通过复杂的、非顺序的关联关系连接在一起的一种文本，其真正含义是“链接”的意思

超媒体

使用文本、图形、图像、声音和电视图像等媒体任意组合的一种交互式信息传播媒体

多媒体是超媒体的一个子集

多媒体系统

DCIKW

data(数据) ：以数字、字符或图像等可读语言或其他记录方法表示的事实、概念或计算机指令

Content(内容)：内容是对数据的描述

information(信息)：信息是对内容的解释，也就是数据的含义

knowledge(知识)：在某个感兴趣领域中的事实、概念和关系

wisdom(智慧)：知识累积后产生的洞察力、判断力和发明创造能力

多媒体内容

多媒体内容是对多媒体数据的描述，多媒体信息是对多媒体内容的描述，多媒体内容不都是多媒体信息，多媒体信息不一定包含全部多媒体内容

多媒体内容处理分类 ~6~

多媒体内容分析

多媒体内容分类

多媒体内容管理多媒体内容搜索

多媒体内容检索

多媒体内容浏览

多媒体国际标准

ITU标准

ISO/IEC标准

因特网技术标准

万维网协会(W3C)标准

数据压缩

意义：

降低多媒体数据对存储器容量的要求

降低多媒体数据对传输带宽的要求

分类：

无损压缩: 经过压缩和解压缩后的数据与压缩前的原始数据完全一样的数据压缩技术

有损压缩:经过压缩和解压缩后的数据与压缩前的原数据不完全一样

编码方式

熵编码:不考虑数据源的无损数据压缩技术。其核心思想是按照符号出现的概率大小给符号分配长度合适的代码

源编码:考虑数据源特性的数据压缩技术。编码时考虑信号源的特性和信号的内容

混合编码:组合源编码和熵编码的数据有损压缩技术

计算机网络

因特网：通过网络设备把世界各国使用TCP/IP协议的计算机相互连接在一起的计算机网络

互联网：泛指多种网络通过网络互连设备互连而成的网络

万维网：分布在全世界所有HTTP服务器上互相连接的超媒体文档的集合

万维网的三项核心技术

统一资源地址(URL)

超文本传输协议(HTTP)

超链接(HyperLink)

通用内容标记语言SGML

国际标准化组织(ISO)采用的一个信息管理标准。该标准定义独立于平台和应用的文本文档的格式、索引和链接信息，为用户提供一种类似于语法的机制，用来定义文档的结构和指示文档结构的标签

SGML的精华是把文档的内容与样式分开处理

HTML

HTML是万维网上的文档所用的标记语言

HTML是SGML的一个子集。SGML使用标签来标志文档中的文本或图形之类的元素，并告诉Web浏览器该如何向用户显示这些元素，以及应该如何响应用户的行为，例如当用户通过按键或鼠标单击某个链接时该如何响应

多媒体、万维网和因特网之间有何关系?

多媒体构成了超媒体系统，超媒体系统构成了万维网，万维网是因特网上使用TCP/IP协议和UDP/IP协议的系统

无损压缩

数据可被压缩的依据

数据本身存在冗余
听觉系统的敏感度有限
视觉系统的敏感度有限

三种多媒体数据类型

文字 (text)数据——无损压缩

根据数据本身的冗余

声音(audio)数据——有损压缩

根据数据本身的冗余

根据人的听觉系统特性

图像(image)/视像(video) 数据——有损压缩

根据数据本身的冗余

根据人的视觉系统特性

冗余

人为冗余

视听冗余

数据冗余

决策量(注意单位)

$H_0=log(n)$

条件：有限数目的互斥事件集合

Sh (Shannon): 用于以2为底的对数

Nat (natural unit): 用于以e为底的对数

Hart (hartley):用于以10为底的对数

信息量(注意单位)

具有确定概率事件的信息的定量度量

$I(x)=-log_2P(x)$

一个等概率事件的集合，每个事件的信息量等于该集合的决策量

熵(注意单位)

有限的互斥和联合穷举事件的集合中，熵为事件的信息量的平均值，也称事件的平均信息量
$H(x)=-\sum_{i=1}^np(x_i)log_2p(x_i)=\sum_{i=1}^np(x_i)I(x_i)$

数据冗余量

决策量H~0~超过熵H的量

$R=H_0-H$

统计编码

给已知统计信息的符号分配代码的数据无损压缩方法

香农-范诺编码

在香农的源编码理论中，熵的大小表示非冗余的不可压缩的信息量

步骤：

按照符号出现的概率减少的顺序将待编码的符号排成序列。

将符号分成两组，使这两组符号概率和相等或几乎相等。

将第一组赋值为0，第二组赋值为1。(书上大0小1)

对每一组，重复步骤2的操作。

Huffman编码

(书上大1小0)

算数编码

对10 00 11 00 10 11 01进行算数编码

初始化

确定符号的编码范围

编码时输入第1个符号是10，找到它的编码范围是 [0.5, 0.7]

消息中第2个符号00的编码范围是[0, 0.1)，它的间隔就取[0.5, 0.7)的第一个十分之一作为新间隔[0.5, 0.52)

编码第3个符号11时，取新间隔为[0.514, 0.52)

编码第4个符号00时，取新间隔为[0.514, 0.5146)

依此类推……

消息的编码输出可以是最后一个间隔中的任意数

解码：

行程长度编码

声音编码

声音

声音是听觉器官对声波的感知，而声波是通过介质连续振动

声音的强弱体现在声波幅度的大小上，音调的高低体现在声音的频率上

声音频率

高保真声音(high-fidelity audio): 10 ~ 20 000 Hz

音频(audio): 20~ 20000Hz

话音(speech): 300~3000/3400 Hz

亚音/次音(subsonic): < 20 Hz

超声(ultrasonic): > 20 000 Hz

声音的等级

声音质量的衡量方法

声音带宽法

客观质量度量

主观质量度量

主观评分MOS标准

声音大小计算

$(f_s\times 时间长度 \times 采样精度字节数 \times 声道数)/(1024 \times 1024) MB$

立体声：双声道

采样

对连续时间的离散化,在某些特定的时刻对模拟信号进行测量的过程

每隔相等的一段时间采样一次，这种采样称为均匀采样

量化

对连续幅度的离散化，就是把信号的强度分段

如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化

采样频率

奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音，这叫做无损数字化

$fs\geq 2f{max}$

采样精度

度量声音波形幅度的精确程度，用每个声音样本的位数(即bps)表示

量化阶：精度($\frac{1}{2^n}$)

信号噪声比：(n为每个样本位数)
$SNR=20log_{10}\frac{V_{signal}}{V_{noise}}=20lg2^n$
其中，V~signal~表示信号电压，V~noise~表示量化噪声电压(模拟信号的采样值和与它最接近的数字数值之间的差值)，SNR的单位为分贝(db)

脉冲编码调制(PCM)

输入是模拟信号，输出是PCM样本。

防失真滤波器:低通滤波器，用来滤除声音频带以外的信号

波形编码器:可理解为采样器

量化器:可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器

时分多路复用

24路制

每秒钟传送8000帧，每帧 125μs

12帧组成1复帧

每帧由24个时间片(信道)和1位同步位组成

每个信道每次传送8位代码，1帧有193位

数据传输率R=8000x193=1544kb/s

每一个话路的数据传输率= 8000×8=64 kb/s

30路制

每秒钟传送8000帧，每帧125μs

16帧组成1复帧

每帧由32个时间片(信道)组成

每个信道每次传送8位代码

数据传输率:R=8000×32×8=2048 kb/s

每一个话路的数据传输率=8000×8=64 kb/s

T1等级：1544kb/s数据率(24路制)

E1等级：2048kb/s数据率(30路制)

T2等级：5312kb/s

E2等级：8448kb/s

模拟声音数字化的两个步骤

采样

量化

量化方法

均匀量化

非均匀量化：大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔

$\mu$率压扩：在脉冲编码调制(PCM)系统中，一种模拟信号和数字信号之间进行转换的CCITT压(缩) 扩(展)标准。在北美PCM电话网中，使用μ率压扩算法

A率压扩：在脉冲编码调制(PCM)系统中，一种模拟信号和数字信号之间进行转换的CCITT压(缩) 扩(展)标准。在欧洲电话网，使用A律压扩算法

增量调制

固定量化阶可能产生的问题：

斜率过载失真：

由于当输入信号的斜率较大，调制器跟踪不上输入信号的变化

粒状噪声失真：

输入信号变化缓慢，增量调制器输出会出现0、1交替的情况

自适应增量调制(ADM)

根据输入信号斜率的变化自动调整量化阶Δ的大小，以使斜率过载和粒状噪声都减到最小。

在检测到斜率过载时开始增大量化阶Δ，而在输入信号的斜率减小时降低量化阶Δ

例如，宋(Song)在1971描述的ADM技术中提出:每当输出不变时量化阶增大50%;每当输出值改变时，量化阶减小 50%

又如，由格林弗基斯(Greefkes)在1970年提出的连续可变斜率增量调制(CVSD)的基本方法是:如果连续可变斜率增量调制器的输出连续出现三个相同值时，量化阶加一个大的增量，反之，就加一个小的增量

自适应脉冲编码调制 APCM

根据输入信号幅度大小来改变量化阶大小的一种波形编码技术

自适应

瞬时自适应，即量化阶的大小每隔几个样本就改变

音节自适应，即量化阶的大小在较长时间里发生变化

改变量化阶大小的方法

思想

根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是音节自适应，即量化阶的大小在较长时间周期里发生变化

差分脉冲编码调制 DPCM

基本思想

利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。这种技术是根据过去的样本去估算(estimate)下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。

它与脉冲编码调制 (PCM)不同的是，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值，这就降低了传送或存储的数据量。此外，它还能适应大范围变化的输入信号

自适应差分脉冲编码调制 ADPCM

综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码技术

基本思想

利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值

使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小

编码性能

MIDI

音乐合成器乐器和计算机之间交换音乐信息的一种标准协议。

特点: 文件比较小;容易编辑等

色彩数字图像基础

颜色

视觉系统对可见光的感知结果，感知的颜色由光的波长决定

颜色只存在于眼睛和大脑

人的视网膜有对红、绿、蓝颜色敏感程度不同的三种锥体细胞

杆状体细胞在光功率极低的条件下才起作用

有源物体

一个能发出光波的物体称为有源物体，它的颜色由该物体发出的光波决定

RGB相加混色模型

组合红、绿和蓝光波来产生特定颜色的方法叫做相加混色法

无源物体

一个不发光波的物体称为无源物体，它的颜色由该物体吸收或者反射哪些光波决定

CMY相减混色模型

用三种基本颜色即青色(cyan)、品红(magenta)和黄色 (yellow)的颜料按一定比例混合得到颜色的方法，通常写成CMY，称为CMY模型

图像基本属性

屏幕分辨率

水平像素数×垂直像素数，是衡量显示设备再现图像时所能达到的精细程度的度量方法，也称显示分辨率

图像分辨率

图像分辨率也称空间分辨率和像素分辨率,是图像精细程度的度量方法

在图像显示应用中的图像分辨率表示法

物理尺寸:每毫米线数(或行数)

行列像素:像素/行×行/幅，如640像素/行×480行/幅

像素总数:如数码相机上标的500万像素

单位长度上的像素:如像素每英寸(pixels per inch，PPI)

线对数:以黑白相邻的两条线为一对如5对线

在图像数字化和打印应用中的图像分辨率表示法

通常用多少点每英寸(dots per inch，DPI)表示

分辨率越高，图像质量就越高，像素就越多，要求存储容量就越大

像素深度

存储每个像素所用的位数

$\alpha$通道

在每个像素用32位表示的图像表示法中的高8位，用于表示像素在一个对象中的透明度

真彩色

像素颜色直接用RGB表示

伪彩色

将像素值当作彩色查找表(color look-up table)的表项入口地址，查找显示图像时要使用的R，G，B值，用查找出的R，G，B值产生的彩色

使用查找得到的R，G，B数值显示的彩色是真的，但不是图像本身真正的颜色，它没有完全反映原图的颜色

直接色

每个像素值由R，G，B分量构成，每个分量作为单独的索引值对它做变换，用变换后的R，G，B值产生的颜色

矢量图

根据数学规则描述而生成的图

优点

易对图像变换

可快速生成、文件大小小

缺点

很难用数学方法来描述真实世界的彩照

位图

用像素值阵列表示的图

灰度图

只有明暗不同的像素而没有彩色像素组成的图像

只有黑白两种颜色的图像称为单色图像

$\gamma$校正

在屏幕上显示用离散量表示的色彩时采用的一种色彩调整技术。计算机显示器和电视采用的阴极射线管产生的光亮度与输入的电压不成正比。$\gamma$值一般在2.5左右

在把输入电压送到显示设备之前对它做一次变换，使输入到显示设备的电压′= (输入电压)^γ^

光亮度=(输入电压)$^\gamma$

JPEG

Joint Photographic Experts Group的缩写，联合图像专家组

在压缩比为25∶1的情况下，压缩后还原得到的图像与原始图像相比，非图像专家难于找出它们之间的区别

JPEG标准

静态图像数据压缩标准，用于压缩灰度图像和彩色图像

步骤

使用正向离散余弦变换(FDCT)把空间域表示的图变换成频率域表示的图

使用加权函数对DCT系数进行量化

使用霍夫曼编码器对量化系数进行编码

JPEG算法与颜色空间无关

DCT(离散余弦变换 )

用余弦函数的离散值构成的变换矩阵对信号进行数学变换

可将能量集中到频率较低的系数上

将分量图像分成8×8的图块

量化

对DCT变换后的系数进行量化

目的：增加0值个数

分开使用亮度量化表和色度量化表

Z字形编排

目的：增加连续0元个数

熵编码

用DPCM对DC系数进行编码，用RLE对AC系数编码

使用Huffman编码对整体编码

步骤特性

DCT变换: 无损

量化: 有损

Z字形编码: 无损

使用DPCM对直流系数(DC)进行编码: 无损

使用RLE对交流系数(AC)进行编码: 无损

熵编码:无损

BMP文件

无损压缩

伪彩色

GIF

采用LZW压缩(无损压缩)

伪彩色

透明性

PNG

PNG用来存储灰度图像时，灰度图像的深度可多到16位，存储彩色图像时，彩色图像的深度可多到48位，并且还可存储多到16位的α通道数据

采用LZ77派生的无损压缩算法

伪彩色

透明性

总结

16777216 = 2^24^

256 = 2^8^

颜色的度量

颜色的研究史

Newton:发明了色环，发现白光包含所有可见光谱波长

Thomas :认为人的眼睛有三种不同类型的颜色感知接收器，大体上相当于红、绿和蓝三种基色的接收器。

Maxwell:探索了三种基色的关系，并且认识到三种基色相加产生的色调不能覆盖整个感知色调的色域，而使用相减混色产生的色调却可以。他认识到彩色表面的色调和饱和度对眼睛的敏感度比明度低。Maxwell的工作可被认为是现代色度学的基础。

Munsell:开发了第一个广泛被接受的颜色次序制，称为Munsell color system，对颜色作了精确的描述并用在他的教学中。Munsell颜色次序制也是其他颜色体系的基础。

指出颜色的HSB特性，把明度从色调和饱和度中分离出来

Ostwald:开发了Ostwald颜色体系，根据对颜色起决定作用的波长、纯度和亮度来映射色调、饱和度和明度的值。

C(全彩色)W(白色)B(黑色)

CIE定义了许多度量颜色的标准

颜色特性

视觉感知的光波范围是380~780nm

色调(hue)，纯色由光的波长定义，即光谱色

对光的波长的感知

饱和度(saturation)

颜色的纯度

光波掺入其它光的成分越多，饱和度越低

明度(brightness)

视觉系统对可见物体辐射光或发射光多少的非定量感知

明度和反射率成对数关系

亮度(luminance)

单位面积反射或发射的光强

与brightness的区别

luminance可计量，brightness考虑主观感受，不可计量

luminance指定白光作为参考

光亮度(lightness )

视觉系统对亮度(luminance)的感知响应值，用L^*^表示

颜色空间(颜色模型)

使用数学方法描述所有颜色的一套规则和定义

分类

设备相关：指定生成的颜色与生成颜色的设备有关，如RGB

设备无关：指定生成的颜色与生成颜色的设备无关，如L^^a^^b^*^

颜色系统(color system)(颜色度量体系、颜色制)

组织和表示颜色的方法

方法

颜色模型

编目系统

RGB颜色匹配函数

匹配每种光波波长所需要的三种相加基色的相对量

标准白光E~w~匹配

用红、绿和蓝三基色光匹配成白光时，所需红、绿和蓝基色光的光通量之比为 1∶4.5907∶0.0601

R=1个红基色光单位=1光瓦

G=1个绿基色光单位=4.5907光瓦

B=1个蓝基色光单位=0.0601光瓦

1光瓦=680流明(lm)

CEw =1xR+1xG+1xB

CIE XYZ

规定X、Y和Z基色都用正数去匹配所有的颜色，并用Y值表示人眼对亮度(luminance)的响应

X=Y=Z合成白光E~w~

CIE xyY

把XYZ颜色投影到x+y+z=1平面

x：红色分量；y：绿色分量；z：蓝色分量

将XYZ投影到XY平面：xyY色度图：

等色调、等饱和度线

xyY的缺点

明度未反映

感知非均匀

CIE L^^a^^b^*^

基于对色理论

红、黄、绿和蓝四种基色，红-绿和黄-蓝构成两对对立色调，黑-白是另外一对

红和黄认为是“暖色，绿和蓝是冷色

颜色空间变换

颜色空间分类

感知角度

混合型颜色空间：RGB，CMY(K)和XYZ

非线性亮度/色度型颜色空间：L^^a^^b^^, L^^u^*^v，YUV和YIQ

强度/饱和度/色调型颜色空间：HSI, HSL, HSV和LCh

技术角度

RGB型

主要用于电视机和计算机的颜色显示系统

XYZ型

与设备无关的颜色表示法，在科学计算中得到广泛应用

YUV型

由广播电视需求的推动而开发的颜色空间

颜色空间的选择

CMYK：用于印刷

PAL制彩色电视(欧洲的模拟彩色电视)

YUV

NTSC制彩色电视(北美模拟彩色电视系统 )

YIQ

计算机图像显示设备

RGB

用YUV或YIQ模型来表示彩色图像的优点

它的亮度信号(Y)和色度信号(U，V)是相互独立的，因此可以对这些单色图分别进行编码

可以利用人眼的特性来降低数字彩色图像所需要的存储容量。

黑白电视机可看彩色电视图像的原因

黑白电视能接收彩色电视信号的道理是利用了YUV/YIQ分量之间的独立性

RGB$\to$HSL算法(教材222页)

HSL$\to$RGB算法

彩色电视基础

主要的彩色电视制式(互不兼容)

PAL
- 德国制定
- 德国、英国等一些西欧国家，以及中国、朝鲜等国家采用
- 特性
  
  图像的宽高比为4:3，625条扫描线，隔行扫描，25帧图像每秒，视像带宽至少为4 MHz，使用YUV颜色模型，色度信号用正交幅度调制，声音用调频制(FM)，总的电视通道带宽为8 MHz
NTSC
- 美国国家电视系统委员会制定
- 美国、加拿大等大部分西半球国家以及日本、韩国、菲律宾和台湾地区采用
- 特性
  
  图像的宽高比为4:3，525条扫描线，隔行扫描，30帧每秒，视像带宽为4.2 MHz，使用YIQ信号，色度信号用正交幅度调制(QAM)，声音用调频制(FM)，总的电视通道带宽为6 MHz
SECAM
- 法国制定
- 法国、俄罗斯、东欧和中东等约有60多个地区和国家使用
- SECAM制与PAL制具有相同的扫描线数(625线每帧)、帧频(25帧每秒，50场每秒)和图像宽高比(4:3)，视像带宽最高为6 MHz，总带宽为8 MHz
逐行扫描

电子束从显示屏的左上角一行接一行地扫到右下角，在显示屏上扫一遍就显示一幅完整的图像

隔行扫描

电子束扫完第1行后从第3行开始扫，接着扫第5行、7 行、…，一直扫到最后一行的中间

扫描术语
行频/水平行速率(horizontal line rate) fH ，每秒钟扫描的行数

NTSC制精确的帧频是29.97 Hz，525行每帧，因此行频为29.97×525=15 734行/秒

场频/场速率(field rate) f~f~，每秒钟扫描的场数

根据人的视觉特性和电网频率(50Hz或60Hz)确定的，目的是使在屏幕上显示的图像看起来不会让人感觉到在闪烁，以及减低电网频率的干扰

帧频/帧速率(frame rate) f~F~ ，每秒扫描的帧数
- 用“帧每秒(frames per second，fps)”做单位
- PAL制和NTSC制电视的帧频分别为25 fps和30 fps
S-Video信号
亮度信号(Y)和色度信号(C)分开录制和处理的电视信号

优点
- 减少亮度信号和色差信号之间的交叉干扰
- 不需使用梳状滤波器分离亮度信号和色差信号

电视图像数字化

分量数字化

对彩色空间的每个分量进行数字化，如对YCbCr，YUV，YIQ或RGB颜色空间中的分量

信号源

录像带、激光视盘和模拟摄像机等输出的彩色全电视信号

方法

先分离后数字化

先把模拟的全彩色电视信号分离成YCbCr，YUV，YIQ或

RGB彩色空间中的分量信号

用三个A/D转换器分别对分量信号数字化

先数字化后分离

用一个高速A/D转换器对彩色全电视信号进行数字化

在数字域中分离出YCbCr，YUV，YIQ或RGB颜色空间中的分量数据

有效显示分辨率

对所有制式，每一扫描行的有效样本数均为720个

图像子采样

对色差信号使用的采样频率比对亮度信号使用的采样频率低的采样方法

可采用方式

对亮度信号和色差信号采用相同的采样频率进行采样

对亮度信号和色差信号采用不同的采样频率进行采样

依据

人眼对色度信号的敏感程度比对亮度信号的敏感程度低

人眼对图像细节的分辨能力有一定的限度

在YCbCr空间执行

采样方式

4:4:4

这种采样格式不是子采样格式，它是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、4个红色差Cr样本和4个蓝色差 Cb样本，每个像素用3个样本表示

4:2:2

在每条扫描线上，每4个连续的采样点取4个亮度Y样本、2个红色差Cr样本和2个蓝色差Cb样本，平均每个像素用2个样本表示

4:1:1

在每条扫描线上，每4个连续的采样点取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本，平均每个像素用1.5个样本表示

4:2:0

在水平和垂直方向上，每2个连续采样点上取2个亮度Y样本、1个红色差Cr样本和1 个蓝色差Cb样本，每个像素用1.5个样本表示

数字电视

数字电视是远程通信系统

使用数据压缩技术和数字传输技术

提供质量高于模拟的电视的图像和声音

图像使用MPEG-2 Video标准，声音使用MPEG-2 Audio或杜比数字(Dolby Digital)标准

采用的标准不断修改

传输方式

卫星转播:卫星数字电视(digital satellite TV)

地面广播:地面数字电视(digital terrestrial TV)

电缆传输:有线数字电视(digital cable TV)

数字电视标准

美国的ATSC DTV(ATSC数字电视)标准

欧洲的DVB (数字电视广播)标准

日本的ISDB(综合业务数字广播)标准

MPEG简介

回顾制定MPEG标准的4个阶段和各阶段的提交的文件类型。

工作文件(Working Draft，WD):工作组(Working Group，WG)准备的工作文件

委员会草案(Committee Draft，CD):从工作组WG准备好的工作文件WD提升上来的文件。这是ISO文档的最初形式，它由ISO内部正式调查研究和投票表决。

国际标准草案(Draft International Standard，DIS):投票成员国对CD的内容和说明满意之后由委员会草案CD提升上来的文件。

国际标准(International Standard，IS):由投票成员国、ISO的其他部门和其他委员会投票通过之后出版发布的文件。

MPEG-1, -2, -4和-7的目标是什么?
>

MPEG-1处理的是标准图像交换格式的电视，即NTSC制为352像素 × 240行/帧 × 30帧/秒， PAL制为352像素×288行/帧×25帧/秒，压缩的输出速率定义在1.5 Mb/s以下。这个标准主要是针对当时具有这种数据传输率的CD-ROM和网络而开发的，用于在CD-ROM上存储数字影视和在网络上传输数字影视。

MPEG-2标准是一个直接与数字电视广播有关的高质量图像和声音编码标准，是MPEG-1的扩充。MPEG-2提供位速率的可变性能功能，其最基本目标是:位速率为4~9 Mb/s，最高达 15 Mb/s。

MPEG-4是为视听数据的编码和交互播放开发算法和工具，是一个数据速率很低的多媒体通信标准。MPEG-4的目标是要在异构网络环境下能够高度可靠地工作，并且具有很强的交互功能。

MPEG-7的名称叫做多媒体内容描述接口，目的是制定一套描述符标准，用来描述各种类型的多媒体信息及它们之间的关系，以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3D模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某些情况下，数据类型还可包括面部特性和个人特性的表达。

MPEG声⾳

列出你所知道的听觉系统的特性。

响度感知, 音高感知, 掩蔽效应

什么叫做听阈?什么叫做痛阈?
>

当声音弱到人的耳朵刚刚可以听见时，称此时的声音强度为“听阈”

当声音强到人的耳朵刚刚感到疼痛时，称此时的声音强度为“听阈”。实验表明，如果频率为1 kHz的纯音的声强级达到120 dB左右时，人的耳朵就感到疼痛，这个阈值称为 “ 痛阈”。

什么叫做频域掩蔽?什么叫做时域掩蔽?

强纯音掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽。

在时间方向上相邻声音之间的掩蔽，这种特性称为时域掩蔽。

MPEG-1的层1、2和3编码分别使用了听觉系统的什么特性?

层1:频域掩蔽特性

层2:频域掩蔽特性，时间掩蔽特性

层3:频域掩蔽特性，时间掩蔽特性

MPEG-1的层1、2和3编码器的声音输出速率范围分别是多少?

层1:384 kb/s

层2:256~192 kb/s

层3:128~112 kb/s

MPEG-1的声音质量是:

AM FM 电话 near-CD CD-DA □ AM □ FM □ 电话√□ near-CD □ CD-DA

什么叫做5.1声道立体环绕声?什么叫做7.1声道立体环绕声?

“5.1环绕声”也称为“3/2-立体声加LFE”，其中的“.1”是指LFE声道。它的含义是播音现场的前面可有3个喇叭声道(左、中、右)，后面可有2个环绕声喇叭声道，LFE是低频音效的加强声道。
7.1声道环绕立体声与5.1类似。

简述MPEG-2 AAC的特性。

MPEG-2 AAC是MPEG-2标准中的一种非常灵活的声音感知编码标准。它使用听觉系统的掩蔽特性来减少声音的数据量，并且通过把量化噪声分散到各个子带中，用全局信号把噪声掩蔽掉。

AAC支持的采用频率可从8 kHz到96 kHz，AAC编码器的音源可以是单声道的、立体声的和多声道的声音。AAC标准可支持48个主声道、16个低频音效加强通道LFE、16个配音声道或者叫做多语言声道和16个数据流。 MPEG-2 AAC在压缩比为11:1，即在每个声道的数据率为(44.1×16 )/11=64 kb/s，而5个声道的总数据率为320 kb/s的情况下，很难区分还原后的声音与原始声音之间的差别。与MPEG- Audio层2相比，MPEG-2 AAC的压缩率可提高1倍，而且质量更高，与MPEG的层3相比，在质量相同的条件下数据率是它的70%。

什么叫做自然声音?什么叫做合成声音?

自然声音通常是指人、动物等发出的声音、弹奏乐器或其他音源自然发出的声音。
合成声音通常指合成器生成的声音，如MIDI。

什么叫做TTS?至少列举TTS的3个潜在应用例子。

通过话音合成设备自动地把基于文字的数据转换为声音输出的一种技术。文语转换的最终目标是要使计算机像人一样输出清晰而又自然的声音，也就是说，根据文本的内容可以不同的情调来朗读任意的文本。TTS是一个十分复杂的系统，涉及到语言学、语音学、信号处理、人工智能等诸多的学科。尽管现有的TTS系统结构各异，转换方法不同，但是基本上可以分成两个相对独立的部分:1文本分析，通过对输入文本进行词法分析、语法分析，甚至语义分析，从文本中抽取音素和韵律等发音信息。2语音合成，使用从文本分析得到的发音信息去控制合成单元的谱特征(音色)和韵律特征(基频、时长和幅度)，送入声音合成器(软件或硬件)产生相应的语音输出。通过电话访问信息，朗读文本，盲人计算机等。

MPEG电视
电视图像数据压缩的依据是什么?
根据人的视觉特性和电视图像数据自身的冗余特性。
注:人的视觉系统具有的两种特性可以用来压缩电视图像数据。一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低，利用这个特性可以把图像中表达颜色的信号去掉一些而使人不察觉;二是人眼对图像细节的分辨能力有一定的限度，利用这个特性可以把图像中的高频信号去掉而使人不易察觉。

MPEG-1编码器输出的电视图像的数据率大约是多少?

1.15 Mb/s

MPEG专家组在制定MPEG-1/-2 Video标准时定义了哪几种图像?哪种图像的压缩率最高? 哪种图像的压缩率最低?

(1) MPEG专家组定义了三种图像:帧内图像I(intra)，预测图像P(predicted )和双向预测图像B (bi-directionally interpolated )。
(2) 双向预测图的压缩率最高，帧内图像的压缩率最低。

有人认为“图像压缩比越高越好”。你对这种说法有何看法?

在图像压缩算法中，为了获得比较高的压缩率，通常要采用有损压缩。这就意味压缩率越高，图像的质量损失越大，重构图像的质量将会越低。

有人说“MPEG-1编码器的压缩比大约是200:1”。这种说法对不对?为什么?

不对。理由:(1)电视图像的子采样(4:1:1)不是MPEG编码器的功能，
(2)电视图像画面尺寸(如PAL制720×576)的降采样(变成360×288)也不属于MPEG编码器的功能。

说明电视规格MP@ML和HP@HL各自的含义。

MP@ML (Main Profile, Main Level)指的是具有这种特性的电视:分辨率为720×576×30，子采样格式为4:2:0，位速率可高达15 Mb/s。
HP@HL (High Profile, High Level)指的是具有这种特性的电视:分辨率为1920×1152×60，子采样格式为4:2:0或者4:2:2，位速率可高达80 Mb/s。

电视图像的空间分辨率和时间分辨率是什么意思?

空间分辨率:图像的尺寸。例如，PAL制图像尺寸:720×576，360×288。
时间分辨率:图像的帧数/每秒钟。例如，PAL制电视图像的时间分辨率为25帧/秒，NTSC 电视图像的时间分辨率为30帧/秒，电影图像的时间分辨率为24帧/秒。

MP4或称MPEG-4第14部分（英语：MPEG-4 Part 14）

Lecture Notes

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

数字逻辑上一篇

数据库下一篇