人工智能发展概况：多媒体技术篇

混沌科技栈 06-03 120

前言：

当前大家对“多媒体检索的主要内容”都比较关注，咱们都想要分析一些“多媒体检索的主要内容”的相关文章。那么小编同时在网络上收集了一些关于“多媒体检索的主要内容””的相关文章，希望小伙伴们能喜欢，同学们一起来了解一下吧！

多媒体技术

1 多媒体概念

“多媒体”一词译自英文“Multimedia”，而该词又是由 multiple 和 media 复合而成，核心词是媒体。媒体(medium)在计算机领域有两种含义:

一是指存储信息的实体，如磁盘、光盘、磁带、半导体存储器等，中文常译为媒质;

二是指传递信息的载体，如数字、文字、声音、图形和图像等，中文译作媒介，多媒体技术中的媒体是指后者。

其实，“媒体”的概念范围是相当广泛的。“媒体”有下列五大类:

(1)感觉媒体(Perception medium)指的是能使人产生直接感觉的媒体。如声音、动画、文本等;

(2)表示媒体(Representation medium)指的是为了传送感觉媒体而人为研究出来的媒体。诸如语言编码、电报码、条形码等等;

(3)显示媒体(Presentation medium)指的是用于通信中使电信号和感觉媒体之间产生转换用的媒体。如键盘、鼠标器、打印机等;

(4)存储媒体(Storage medium) 指的是于存放某种媒体的媒体。如纸张、磁带、磁盘、光盘等;

(5)传输媒体 (Transmission medium)指的是用于传输某些媒体的媒体。常用的有如电话线、电缆、光纤等。

多媒体技术就是融计算机、声音、文本、图像、动画、视频和通信等多种功能于一体的技术，它借助日益普及的高速信息网，可实现计算机的全球联网和信息资源共享，并且它给传统的计算机系统、音频和视频设备带来了方向性的变革，将对大众传媒产生深远的影响。因此多媒体将加速计算机进人家庭和社会各个方面的进程，给人们的工作、生活和娱乐带来深刻的革命。多媒体技术涉及的内容包括:

 多媒体数据压缩:多模态转换、压缩编码;

 多媒体处理:音频信息处理，如音乐合成、语音识别、文字与语音相互转换; 图像处理，虚拟现实;

 多媒体数据存储:多媒体数据库;

 多媒体数据检索:基于内容的图像检索，视频检索;

 多媒体著作工具:多媒体同步、超媒体和超文本;

 多媒体通信与分布式多媒体:CSCW、会议系统、VOD 和系统设计;

 多媒体专用设备技术:多媒体专用芯片技术，多媒体专用输入输出技术;

 多媒体应用技术:CAI 与远程教学，GIS 与数字地球、多媒体远程监控等。

2 多媒体技术发展历史

 启蒙发展阶段

多媒体技术的一些概念和方法，起源于 20 世纪 60 年代。1965 年，纳尔逊 (Ted Nelson)为计算机处理文本文件提出了一种把文本中遇到的相关文本组织在一起的方法，并为这种方法杜撰了一个词，称为“hypertext(超文本)”。与传统的方式不同，超文本以非线性方式组织文本，使计算机能够响应人的思维以及能够方便地获取所需要的信息。万维网(WWW)上的多媒体信息正是采用了超文本思想与技术，组成了全球范围的超媒体空间。

多媒体技术实现于 20 世纪 80 年代中期。1984 年美国 Apple 公司在研制 Macintosh 计算机时，为了增加图形处理功能，改善人机交互界面，创造性地使用了位映射(bitmap)、窗口(window)、图符(icon)等技术。这一系列改进所带来的图形用户界面(GUI)深受用户的欢迎，加上引入鼠标作为交互设备，配合 GUI 使用，大大方便了用户的操作。Apple 公司在 1987 年又引入了“超级卡”(Hypercard)，使 Macintosh 机成为更容易使用、易学习并且能处理多媒体信息的机器，受到计算机用户的一致赞誉。

 标准化阶段

自 20 世纪 90 年代以来，多媒体技术逐渐成熟。多媒体技术从以研究开发为重心转移到以应用为重心。

由于多媒体技术是一种综合性技术，它的实用化涉及到计算机、电子、通信、影视等多个行业技术协作，其产品的应用目标，既涉及研究人员也面向普通消费者，涉及各个用户层次，因此标准化问题是多媒体技术实用化的关键。在标准化多媒体技术阶段，研究部门和开发部门首先各自提出自己的方案，然后经分析、测试、比较、综合，总结出最优、最便于应用推广的标准，指导多媒体产品的研制。

静态图像的一个标准，是国际电信联盟(ITU)的T.81。静态图像的主要标准称为JPEG标准(ISO/IEC 10918)。它是 ISO 和 IEC 联合成立的专家组 JPEG (Joint Photographic Experts Group)建立的适用于单色和彩色、多灰度连续色调静态图像国际标准。该标准在 1991 年通过，成为 ISO/IEC10918 标准，全称为 “多灰度静态图像的数字压缩编码”。

视频/运动图像的主要标准是国际标准化组织(ISO)下属的一个专家组 MPEG(Moving Picture Experts Group)制定的 MPEG-1(ISO/IEC11172)、MPEG- 2(ISO/IEC13818)和 MPEG-4(ISO/IEC 14496)三个标准。与MPEG-1、4等效的国际电信联盟(ITU)标准，在运动图像方面有用于视频会议的H.261(Px64)、用于可视电话的 H.263。

在多媒体数字通信方面(包括电视会议等)制定了一系列国际标准(表 01-03-2)，称为 H 系列标准。这个系列标准分为两代。H.320、H.321 和 H.322 是第一代标准，都以 1990 年通过的 ISDN 网络上的 H.320 为基础。H.323、H.324 和 H.310 是第二代，使用新的 H.245 控制协议并且支持一系列改进的多媒体编、解码器。

更深层次的多媒体技术标准也开始推出或列入开发中。一个典型的标准是称作“多媒体内容描述接口”的 MPEG-7 标准(ISO/IEC15938)。与已经推出的几个 MPEG 标准不同，MPEG-7 是一个关于表示音/视信息的标准。它的七个组成部件中，系统、描述定义语言(DDL)、视频、音频和多媒体描述方案等已经成为正式标准，参考软件和一致性测试则计划在 2002 年 9 月成为标准。

 蓬勃发展时期

随着多媒体各种标准的制定和应用，极大地推动了多媒体产业的发展。很多多媒体标准和实现方法(如 JPEG、MPEG 等)已被做到芯片级，并作为成熟的商品投入市场。与此同时，涉及到多媒体领域的各种软件系统及工具，也如雨后春笋，层出不穷。这些既解决了多媒体发展过程必须解决的难题，又对多媒体的普及和应用提供了可靠的技术保障，并促使多媒体成为一个产业而迅猛发展。

代表之一是进一步发展多媒体芯片和处理器。1997 年 1 月美国 Intel 公司推出了具有 MMX 技术的奔腾处理器(Pentium processor with MMX)，使它成为多媒体计算机的一个标准。奔腾处理器在体系结构上有三个主要的特点:

(1)增加了新的指令，使计算机硬件本身就具有多媒体的处理功能(新添 57 个多媒体指令集)，能更有效地处理视频、音频和图形数据。

(2)单条指令多数据处理 (SIMD, Single Instruction Multiple Dataprocess)减少了视频、音频、图形和动画处理中常有的耗时的多循环。

(3)更大的片内高速缓存，减少了处理器不得不访问片外低速存储器的次数。奔腾处理器使多媒体的运行速度成倍增加，并已开始取代一些普通的功能卡板。

随着网络电脑(Internet PC、NC)及新一代消费性电子产品，如电视机顶盒 (Set-Top Box)、DVD、视频电话(Video Phone)、视频会议(Video Conference) 等观念的崛起，强调应用于影像及通讯处理上最佳的数字信号处理器(DSP)，经过另一番的结构包装，可由软件驱动组态的方式，进入咨询及消费性的多媒体处理器市场。

现在多媒体技术及应用正在向更深层次发展。下一代用户界面，基于内容的多媒体信息检索，保证服务质量的多媒体全光通信网，基于高速互联网的新一代分布式多媒体信息系统等等,多媒体技术和它的应用正在迅速发展，新的技术、新的应用、新的系统不断涌现。

3 人才概况

 全球人才分布

学者地图用于描述特定领域学者的分布情况，对于进行学者调查、分析各地区竞争力现况尤为重要，下图为多媒体领域全球学者分布情况。

地图根据学者当前就职机构地理位置进行绘制，其中颜色越深表示学者越集中。从该地图可以看出，美国的人才数量优势明显且主要分布在其东西海岸;亚洲东部也有较多的人才分布;欧洲的人才主要集中在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;多媒体领域的人才分布与各地区的科技、经济实力情况大体一致。

多媒体全球学者分布

此外，在性别比例方面，多媒体领域中男性学者占比 91.7%，女性学者占比 8.3%，男性学者占比远高于女性学者。

多媒体领域学者的 h-index 分布如下图所示，大部分学者的 h-index 分布在中低区域，其中 h-index 在 20-30 区间的人数最多，有 691 人，占比 34.2%，50- 56 区间的人数最少，有 124 人。

多媒体学者 h-index 分布

 中国人才分布

我国专家学者在多媒体领域的分布如下图所示。通过下图我们可以发现，京津地区在本领域的人才数量最多，其次是长三角和珠三角地区，相比之下，内陆地区的人才较为匮乏，这种分布与区位因素和经济水平情况不无关系。同时，通过观察中国周边国家的学者数量情况，特别是与日韩、东南亚等亚洲国家相比，中国在多媒体领域学者数量较多且有一定的优势。

多媒体中国学者分布

 中国国际合作

中国与其他国家在多媒体领域的合作情况可以根据 AMiner 数据平台分析得到，通过统计论文中作者的单位信息，将作者映射到各个国家中，进而统计中国与各国之间合作论文的数量，并按照合作论文发表数量从高到低进行了排序，如下表所示。

多媒体领域中国与各国合作论文情况

从上表数据可以看出，中美合作的论文数、引用数、学者数遥遥领先，表明中美间在多媒体领域合作之密切;同时，中国与欧洲的合作非常广泛，前 10 名合作关系里中欧合作共占 5 席;中国与德国合作的论文数虽然不是最多，但是拥有最高的平均引用数说明在合作质量上中德合作达到了较高的水平。

4 多媒体技术进展

近年来，随着数字化技术的发展，多媒体技术突飞猛进，音视频技术是当前最活跃、发展最迅速的高新技术领域之一。多媒体分析以文本、图像、声音、视频等多种不同类型媒体的数据为研究对象，主要的研究目的一方面是使计算机具备人类的多媒体(如视、听)理解能力，另一方面是从多媒体数据中挖掘信息和知识、帮助人类更好地理解世界。

多媒体技术研究领域包括多媒体信息处理、多媒体数据压缩编码、多媒体内容分析与检索技术、多媒体交互与集成、多媒体通信与网络、多媒体内容安全、多媒体系统与虚拟现实等。在近几年的研究中，多媒体技术呈现出与计算机体系结构、计算机网络、人机交互、信息安全、社会网络等多学科交叉融合的发展趋势。

近两年多媒体领域研究热点主要集中在大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像、实时视频流化等方面。

由于多媒体数据往往是多种信息的传递媒介(例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播)，多模态学习已逐渐发展为多媒体内容分析与理解的主要手段。

在计算图像方面，大规模数据集的构建仍是一个热点研究方向，尤其语义对象的像素级标注需求越来越强烈，能够人机交互标注的过程中不断学习的协同标注方法得到了广泛关注。

无监督学习是多媒体数据分析的长远目标。目前很多领域拥有大量的数据，但是这些数据都是没有经过标记的。因此除了基本的数据勘探和异常检测场景，这些数据基本无法使用。近期在使用未标记的数据来改进(标记数据)监督学习过程方面已经取得了许多进展。

此外自动机器学习(AutoML)和元学习(Meta Learning)的最新研究成果及其在多媒体上的应用也逐渐增多。

在图像压缩处理方面，也有一些研究工作将深度学习用于图像或视频压缩后处理，并得到了一定的效果。然而，现有工作的一个主要问题是用于后处理的深度网络较为复杂，计算速度慢，不满足实际应用的需求。如何在处理效果和处理速度之间取得一个折中，是压缩后处理的一个主要挑战。

图神经网络(Graph Neural Network, GNN)在多媒体领域的应用是近两年的热点研究方向，应用场景包括:个性化推荐，如基于多模态图卷积网络(MMGCN) 的多模态推荐方法;短视频推荐，如使用基于图的顺序网络进行建模;多视频摘要，如采用图卷积网络衡量每个视频的重要性和相关性;基于文本的行人搜索，如使用深度对抗图注意力卷积网络(A-GANet)利用文本和视觉场景图学习联合特征空间;视频关系监测，如使用转移图神经网络(DoT-GNN)解决图像外观变化的问题。

随着 Mask-RCNN 与 RetinaNet 的发展，物体检测研究日趋成熟，但即便如此，就应用而言，当前的技术依然存在诸多缺陷，为此，针对现代目标检测的基本框架(backbone、head、scale、batchsize 与 post-processing)，神经网络架构搜索(NAS)以及细粒度图像分析(FGIA)等 3 个方面的潜在难题成为主要研究内容，尤其是后两者，将成为未来视觉物体检测的两个重要研究维度。

扩展阅读：

人工只能发展概况：机器学习篇

人工智能发展概况：计算机视觉篇

人工智能发展概况：知识工程篇

人工智能发展概况：自然语言处理篇

人工智能发展概况：语音识别篇

视频：人工智能时代

资料来源：公开网络

本文地址：http://www.longkongtuishu.com/ca5d8BA1sBFIHDlZc.html

标签： #多媒体检索的主要内容