龙空技术网

关于电话会议/视频会议系统对未来应用场景的讨论

SIP实验室 176

前言:

如今大家对“php视频会议”大体比较珍视,看官们都需要了解一些“php视频会议”的相关内容。那么小编也在网上搜集了一些关于“php视频会议””的相关文章,希望看官们能喜欢,同学们快快来了解一下吧!

电话会议系统是一个相对比较成熟的系统,一般比较大一点的企业都需要电话会议系统这样的功能,关于SIP技术在会议系统中的应用也有很多非常成熟的产品和方案。这些产品基本上满足了一些企业用户的基本需求。但是,因为移动互联网的发展,手机APP,员工工作方式的变化,客户属性的变化等因素衍生出了很多新的用户需求,这些需求倒逼电话会议或者视频会议厂家不断更新应用功能来满足新环境引起的变化。今天,笔者专门针对移动互联网的兴起,员工工作环境的变化等多方面的因素来讨论关于如何重新定义语音电话会议系统,视频会议系统的功能来满足目前以及未来企业用户的需求。

笔者首先讨论一些相关的电话会议的背景,市场报告,还有电话会议的实现方式和工作机制,以及电话会议的功能。最后讨论企业客户不断更新的企业用户的一些变化和未来应用场景的发展趋势。

这里,笔者首先说明,笔者仅涉及一些SIP基本的技术讨论和目前根据笔者的观察所得出的一些建议和结论,不涉及其他会议类型的讨论,也没有完全覆盖完整的生态链和技术细节,望见谅。另外,笔者主要讨论基于SIP协议的媒体会议处理模式,没有涉及H323的方式。

01

电话会议/视频会议的使用背景

一般的企业办公呼叫中,电话沟通是基本的沟通方式。但是,因为业务场景和企业协同变得越来越复杂,仅电话双方的沟通很难满足最新业务类型的发展模式。电话会议/视频会议在我们目前的企业办公环境或其他组织的工作流程中慢慢变得非常重要,它们具有不可替代的作用,多方会议人员可以分布在不同地方一起进行工作沟通。电话会议的形式也有很多种,可以支持不同的会议终端和不同的场景。

所有图片来自于互联网

在企业办公环境中,大部分用户使用电话会议的目的是和企业内部同事进行沟通,或和企业客户通过会议的方式进行业务沟通。电话会议或者视频会议具有非常多的优点,可以帮助企业或者客户节省沟通成本,同时可以支持更多的业务场景。特别是视频会议的功能支持了更多的现代具有互联网化的场景,例如远程医疗诊断,产品培训,远程教育和金融保险服务等行业客户。基于企业用户对语音视频会议的需求不断增加,同时互联网技术本身的不断发展,越来越多的厂家也开始对电话会议终端和视频会议系统发力,越来越多的厂家发布了很多视频会议产品。

02

电话会议/视频的市场需求

因为用户对语音和视频会议的需求越来越大,很多国际大厂也开始投入公司资源进入语音视频会议的市场。本身VOIP的市场分额也在逐步增加,示图中说明了美国市场的增加情况:

根据国外月份报告的预测,到2022年,65%的电话会议系统都将支持视频会议功能。根据市场划分,多家产品都有着各自不同的特点。根据Global Market Insights的报告,到2024年,全球视频会议的市场需求将到达200 亿美金,同时MCU硬件设备和终端产品也会大幅增长。

Video Conferencing Market is anticipated to exceed USD 20 billion by 2024; according to a new research report by Global Market Insights, Inc. The video conferencing market is propelled by the rise in globalization.

在市场布局的同时,每个厂家都针对各自的特点,采取各自的策略来推广自己的产品。以下是一个关于视频会议产品的分析说明:

同时,它们又支持了不同的功能属性:

资料来源:

因为是2017年的报告,可能中国品牌Yealink还没有完全进入视频会议的市场。但是,在2018年,中国品牌Yealink算是异军突起,赢得了一定的市场地位。

因为视频会议的兴起,会带动其他相关生态链的发展,其中比较突出的业务包括:

会议终端产品:包括视频会议电话,USB会议终端,会议摄像头,会议终端软硬件的会议部署服务,包括云平台或者本地部署方式服务类型支持:包括基于云的网页会议服务,视频会议服务,视频在线服,支持视频的融合通信服务等功能。

随着市场的变化,很多竞争对手也发生了变化。Zoom就是一个比较大的变化,特别是在2017年上市以后,Zoom的市场估值很高,这也说明了视频会议市场的需求比较旺盛。

03

主要的技术架构

我们首先介绍语音电话会议的技术架构。语音电话会议基本上由两个核心服务器构成(B2BUA和媒体服务器/会议服务器)。B2BUA负责用户的协议管理,我们多次在前面的文章中有非常完整的介绍。媒体服务器除了提供IVR,媒体文件播放。DTMF采集以外,媒体服务器也可以提供会议桥的功能。RFC4353对会议桥的技术架构有非常明确的定义:

媒体服务器的核心构件包括:

下面,我们通过比较详细的使用示例场景来进一步说明SIP服务器和媒体服务是如何工作的。会议桥的主要功能就是把多个媒体流通过桥接的方式分发到其他会议终端。如下图例介绍了一个简单的会议桥服务流程:

但终端同时上游终端说话时,媒体服务器或需要对这些终端过来的媒体流进行混音处理,然后再发送到上游终端。在混音处理时,不同厂家的产品可能有不同的处理方式,为了优化网络带宽和消除杂音,一般的媒体会议服务器对混音处理支持两种方式:

仅对比较高音量的媒体进行混音,音量比较低的则剔除设置一个音量阀值,阀值以上的进行混音处理,阀值以下的删除

刚才笔者已经说明,媒体服务器需要借助于B2BUA来实现对用户的管理。媒体服务器仅支持媒体功能,没有用户管理功能,而B2BUA则负责用户的管理,B2BUA相等于媒体服务器的大脑中心,B2BUA负责对媒体服务器进行调度管理。因此,B2BUA可以帮助媒体服务器实现两个主要功能:

1)通过B2BUA创建媒体流路径,终端发出会议INVITE以后,

2)通过B2BUA获悉哪些媒体流需要桥接到指定的媒体流服务器和会议室。

在下面的图例中,我们可以看到,如果Alice需要加入到会议室时,首先对B2BUA发起INVITE请求,B2BUA然后对媒体会议服务器发送另外一个INVITE请求,如果通过,终端和会议服务器创建一个RTP流。关于会议请求的处理流程,读者可以查阅RFC5366。其他终端也进行类似的处理流程,最后把RTP流汇聚到会议服务器端。会议服务器端根据B2BUA的INFO请求,对不同的媒体流分别进行处理。需要对B2BUA发送一个INFO,会议服务器根据INFO请求中的payload进行不同的混音处理,分发处理。这里要注意,在INFO中,SIP头会携带会话的基本描述和路由的参数,同时在Payload中包括了一些关于媒体文件的模式,以XML的方式发送。在XML中会命令媒体服务器需要进行混音的具体参数。关于XML的数据格式,读者可以查阅RFC4575。如果读者对IMS网络中的会议处理有兴趣的话,可以查阅3GPP的官方资料(3GPP TS 24.147)。

终端,B2BUA和媒体服务器如何进行混音的流程:

不同的会议服务器厂家可能提供很多不同的会议功能,这里不再过多解释。笔者希望针对另外一个比较有特色的功能进行一下简单说明。这个比较特殊的功能就是实时发言检测功能。在实际的会议现场,会议服务器可以检测到谁正在发言,然后对B2BUA服务器发送过INFO消息,B2BUA通过会议应用界面来显示实时的发言者检测功能,通过图标来显示实时发言人的状态信息。另外,有一些特别的会议服务器厂家的会议功能中可以支持发言人的时间控制,如果通过实时监测,发现了发言人讲话超时,则会自动停止其发言。

04

会议服务器的工作流程

在前面的介绍中,我们讨论了会议服务器的处理机制和B2BUA之间的交互。事实上,每个会议服务器厂家都基本上根据其处理的基本原则来进行会议启动。媒体服务器支持一个IVR的交互来实现对会议的处理。B2BUA本身就是一个SIP终端,会议发起方终端可以对其URL进行拨号呼叫,进入到IVR以后,根据具体的路由指令来完成会议流程,进入到会议室。具体的工作流程如下:

首先,会议终端拨打会议URL,对B2BUA发起INVITE请求B2BUA然后对媒体服务器发送INVITE请求B2BUA拷贝会议发起方的SDP消息,和媒体服务器创建RTP语音流媒体路径B2BUA应用服务器对媒体会议服务器发送命令请求,命令媒体服务器播放语音IVR导航提示音,要求呼叫方输入会议ID,密码等验证信息媒体会议服务器获取到输入的DTMF输入和密码验证等信息,然后对会议终端播放其他语音信息会议服务器获取到DTMF以后,通过INFO返回到B2BUA,B2BUA通过应用数据库或其他存储方式来验证其身份。如果终端身份有效,则B2BUA发送INFO到会议服务器,通知会议服务器播放欢迎消息,然后桥接其终端媒体流进行混音处理,进入到同一会议室其他会议终端重复以上同样流程,最后都进入到同一会议室房间

这里,读者需要注意,我们讨论的是一般情况下会议创建的流程,很多会议服务器厂家的业务逻辑可能有所不同,但是,大部分的工作流程基本上类似,不一定完全一样。

会议服务器的类型可以分为一下四种类型:

定时启动的会议,按照设定的时间自动启动的会议室功能,通过日期预订会议资源,保证了会议资源分配。Ad-hoc 自组会议,通过系统热键自组实时会议,支持小型的即时会议,临时,无计划的会议。通过呼入方式加入的会议,通过每一个会议号码呼入到会议系统来召开会议通过外呼邀请加入的会议,通过系统自动外呼,然后转入到会议服务器来召开会议,以被邀请的方式加入

关于会议类型和其会议创建的方式,读者可以查阅RFC4579,此规范详细说明了以上四种方式的SIP消息处理流程。

Session Initiation Protocol (SIP) Call Control - Conferencing for User Agents

如何实现对会议的管理也是一个非常重要的问题。语音会议服务器基本上可以通过两种管理方式来控制会议:

通过会议服务器的界面来实现会议的控制,界面可以支持HTTP呼叫会议URL,管理员可以对会议人员静音,可以点击每个按钮退出会议等功能。B2BUA收到HTTP请求后,然后通知执行必要的流程,或者对终端发送BYE消息等。通过会议系统的热键(或DTMF)来实现会议控制功能,一般会议室可以支持通过某些系统热键(例如,#9或×1等组合按键)实现会议模式切换,退出会议室,或者踢出会议人员等功能。媒体会议服务器收到系统热键和DTMF以后,对B2BUA返回INFO消息,B2BUA根据其热键功能的请求(例如,结束会议),然后,B2BUA对终端发送BYE消息来结束会议。

05

会议服务器主要功能介绍

在前面的章节中我们讨论了会议服务器的工作流程和其类型。接下来,我们花费一点时间再针对会议服务器的功能做一个简单说明。事实上,无论是语音会议服务器还是视频会议服务器,会议功能结合了很多具体的应用场景,其功能已经非常丰富,笔者不可能完全逐一介绍每个会议服务器的功能,这里,我们针对一般常见的会议发起人的功能做一个说明。会议发起人或组织者具有以下几个功能:

会议发起人功能,会议组织人可以发起会议,主持会议和控制会议管理权限,通过B2BUA的消息来确认会议发起人的认证信息和权限设置。会议组织者可以针对某些终端开启静音或关闭静音功能。会议组织者可以通过HTTP模式或者其他模式对每个会议人员进行静音设置,B2BUA应用程序收到此HTTP请求后,然后对媒体会议服务器发送INFO消息,要求会议服务器停止对所静音的终端进行混音处理。这样,会议室就不会收到此成员的RTP流。此终端仍然可以接收到其他会议终端的RTP流。会议人员提问功能,如果被静音的用户需要提问时,会议终端界面可以通过HTTP对B2BUA发送提问请求,B2BUA然后媒体会议服务器发送INFO,通知会议服务器关闭终端静音功能。这样,终端就可以进行提问。会议组织者可以添加邀请会议人员,如果有必要,会议组织者根据需要可以增加会议人员或者踢除会议室成员。和静音的处理方式相同,如果会议组织者想踢除一个会议成员的话,界面对B2BUA发送一个HTTP请求,然后B2BUA应用程序对终端发送一个BYE消息,此会议成员从会议室被删除。开启宣讲模式,通过开启宣讲模式,其他会议人员进入到仅接受RTP流的状态。会议服务器组织者可以通过界面设置会议进入到宣讲模式,界面发送HTTP到B2BUA应用服务器,应用服务器然后对媒体会议服务器发送一个INFO消息,通知媒体服务器除了会议组织者以外,停止对其他终端进行混音处理,其他终端只能收到RTP语音流,不会发送语音流。会议人员隐私管理,如果在会议进行中,如果其中一方会议人员不想让其他会议人员听到接下来的讨论细节,仅让会议组织者听到,会议组织者可以对其他会议人员进行静音设置,停止对其他会议人员发生双向语音流。B2BUA需要对媒体会议服务器发送一个INFO消息,通知停止对其他终端发送双向的RTP语音流。这样,只有会议组织者和此会议人员可以听到会议讨论的语音内容,其他人则听不到会议内容。子会议管理,如果会议成员需要在会议的同时希望再开启一个基于此会议的之会议模式,仅有几个会议中的相关成员参加这个子会议,会议组织者可以开启此功能。会议组织者可以通过界面对B2BUA发送一个HTTP请求,然后,B2BUA再次对媒体服务器发送命令INFO,通知媒体服务器进行混音处理,会议混音进行分组。会议服务器支持会议录音录像功能。会议组织者可以通过界面HTTP请求对B2BUA发送会议录音录像的请求,B2BUA然后通过INFO要求媒体会议服务器进行录音或录像。

笔者在以上所介绍的会议功能仅是会议组织者的一些基本功能,没有涉及其他会议人员的功能。事实上,很多厂家的会议服务器支持了很多的功能,并且随着业务功能和场景越来越复杂,新的功能也不断出现。读者如果选择购买会议服务器时,建议读者查阅其功能列表和自己的应用需求来做出决定。

06

视频会议主要功能

随着互联网的不断发展,带宽不断增加,特别是5G的到来,视频会议的应用场景得到了很大提升,为了提高工作效率,越来越多的用户开始使用视频会议来作为工作沟通的工具。相对于语音会议服务,视频会议具有更高级的功能。从会议的基本功能和会议创建的流程来说,语音会议服务器的界面管理,会议类型,会议功能和视频会议基本相同。唯一不同的是在SIP消息中,视频会议的SDP包括了关于对视频的描述m=video。视频会议的语法既包括了语音的描述,同时也包括了视频的描述。

另外,读者需要注意的是,不像媒体语音会议服务器,视频会议服务器,除了需要混音以外,视频会议服务器还有进行几个相对比较复杂的额外的处理:

视频会议服务器需要对视频媒体流进行桥接处理。视频会议服务器需要根据业务逻辑的要求,对多个终端的画面进行分屏处理分屏处理时需要根据不同的终端来显示其他对应的终端图像可能各个终端的视频编码的不同(H.263/H.264),视频会议服务器需要通过MCU进行视频编码转换根据业务需求不同,如果终端仅需要语音会议的话,可以切换到语音会议功能,而不使用视频会议功能,节省视频/语音系统资源。SFU/MCU的部署方式,视频会议服务器可以支持不同的视频处理方式,或者支持智能化的混合型的处理方式。

07

会议服务器性能的相关要素讨论

无论是语音还是视频会议,服务器的执行性能是一个非常大的话题。限于篇幅和笔者对会议的研究有限,没有能力做非常深入的讨论。笔者大概介绍一下几个和会议服务器相关的要素,希望读者可以充分了解这些要素,避免部署时出现问题。几个影响服务器性能的要素包括:

语音或视频使用的编码,尽量使用同一编码,减少编码转换开销,降低MCU/SFU的负载。支持会议足够的带宽,部署时需要用户对网络带宽做一个评估,高峰期带宽值,最大并发时的带宽值。会议管理路由策略的优化,如果部署多台B2BUA或者媒体服务器,尽量考虑分布式部署方式,降低对单一服务器的依赖。会议噪音处理需要调整。会议室成员的语音增益调整到适当的阀值,如果增益太小,语音音量很低的话,会议服务器就会丢弃低于阀值的媒体流。视频会议服务器的画面质量需要调整,分屏处理,画幕尺寸等要素。如果需要考虑会议录音录像时,需要考虑录音录像的存储方式和硬件服务器的存储速度。如果占用率太高的系统负载,录音质量会非常差。

除了以上几个要素以外,服务器的部署方式和网络部署方式也是非常重要的。当前,基于云平台的部署方式已经非常灵活,也可以进行非常大的扩展,用户可以根据使用情况,不断增加系统资源。从服务器本身的部署来说,很多服务器的部署可以设置为一种动态扩展的方式,这样就需要服务器之间和业务逻辑之间增加一些控制模块。笔者提供了一篇早期的会议论文,帮助读者理解动态扩展视频会议的研究讨论。此研究人员(ZhenYang等)来自于北京邮电大学,他们对视频会议动态部署方式做了一些研究,并且经过测试后,注册用户的数量有着非常明显的区别。

如果大家有兴趣的话,可以购买此论文,对其架构进行研究。

A dynamic scalable service model for SIP-based video conference

08

基于SIP会议服务的相关技术

因为互联网的发展,语音会议和视频会议也不断增加了很多新的技术来满足更多的用户场景需求。和SIP协议结合比较紧密的是WebRTC和BFCP。很多应用场景以及实现了WebRTC的视频会议,同时结合了基于SIP的视频会议服务。关于WebRTC和SIP的使用,笔者在微信文章做有非常深入的讨论,读者可以查阅历史文档来学习。另外,读者也可以通过此论文来了解SIP协议和WebRTC集成的讨论:Integration of WebRTC with SIP – Current Trends

一些开源的融合通信和媒体服务器,包括Asterisk,FreeSWITCH和Jitsi都通过不同的方式支持了WebRTC,通过SIP模块可以实现集成。

另外,因为融合通信和协同工具的出现,IMS网络的普及,在3GPP中,BFCP是视频会议协同工具重要的协议之一。很多融合通信系统支持了文件共享,屏幕共享,白板等功能。因此,BFCP也慢慢普遍使用起来。SIP协议没有办法来控制会议现场的其他资源,BFCP可用于对会议人员的资源进行控制和权限管理工作,部署在低带宽的环境中。关于BFCP细节讨论,读者可以查阅RFC4582或者访问思科官方网站的关于BFCP的介绍。

09

未来技术应用趋势思考

任何技术的发展都是基于前人的技术积累而逐渐发展出来的。人类对通信的发展历史也是这样一个过程。随着社会的不断发展,生活工作环境也会随着时代的变化而变化。沟通是人类的第一需求,通信工具的进步也反映着时代的进步。通信工具的历史就是一个非常明显的例子,通信方式从非常原始的单一的简单文字,慢慢演化到了具有文字,语音,图像,以及高清语音和高清图像的时代。视频会议甚至于高清视频会议就出现在了很多公司的办公环境中。

因为互联网的发展和公司办公环境的改变,公司企业用户的通信方式也发生了很大的变化,也颠覆了以前的沟通方式,更多出现了移动办公的趋势。

"The modern workforce is increasingly mobile, collaborative [and] dynamic, and comprises multi-generations, all with differing communication preferences," said Stacey Epstein, CEO of Zinc.

根据Knoll Workplace Research的研究,未来办公环境的趋势是:

办公室的分布式配置,分散到多个办公场所,不是聚集在一栋办公楼办公场所之间通过社交媒体工具和协同工具来聚和技术工人的缺乏工作方式更加灵活相对放松的工作环境

因为工作模式的转变,导致了公司通信方式也不断发生变化,需要灵活,可移动的,协同能力非常强的通信工具来完成工作流程。公司通信系统的点对点呼叫或者终端之间的呼叫可能相对效率比较低,高效的会议讨论则是公司员工更能够接受的沟通方式。

以前传统的语音会议会议仍然具有一定的市场份额,但是,更多的员工或客户可能会选择会议体验更强的视频会议来作为公司沟通的主要工具。会议可能是为了公司团队之间沟通的主要手段。视频会议可以增加很多非常高效的用户体验,例如屏幕共享,文件共享修改,会议语音TTS/ASR留存,一键发送支持会议人员邮箱发送,微信发送或者短信等形式的方式。会议实时调查反馈统计。

根据eztalks的分析,未来会议服务的十大趋势是:

良好的用户体验是会议系统的关键要素手机优先的会议终端定位公司会议系统的国际化部署方式VoIP替代PSTN会议接入方式基于页面的会议系统将成为会议内容平台企业客户会根据不同的需求使用不同的会议解决方案高清会议系统和终端将受到欢迎会议内容管理是会议平台的关键融合通信平台和会议的高度集成云平台的出现,托管式的会议系统会逐渐成为主流因为会议用户的场景具有可移动性,所以要求会议终端具有非常好的设计体验,例如,降噪功能,会议室拾音功能,用户任意移动,会议语音效果不会受到干扰。

同时,除了以上的一些分析以外,笔者认为更多的会议的用户体验需要更加注意:

基于App或者微信小程序的会议PPT资料分享,实时报告基于App的,和社交媒体的无缝集成基于APP的会议沟通和通信集成基于地理位置GPS的推送助手工具,包括酒店,交通,餐厅等会议历史记录的保存和再次播放基于APP的实时现场调查和互动比赛,笔者最近参加的Genesys 呼叫中心就使用了类似的工具,演讲人可以实时看到现场互动的调查结果。个人消息推送和会议进度提醒支持实时用户定义的语言翻译

10

总结

本文章从多个方面介绍了语音会议视频会议的背景知识,同时针对会议的工作机制和创建会议进行了讨论。笔者也介绍了语音视频会议的主要功能和具体实现方式。另外,根据目前公司办公环境的变化和人力资源发展的趋势,笔者专门针对目前互联网和协同工具出现所引起的客户需求的变化也进行了深入的分析,这些需求也是未来语音视频会议的发展趋势。除了会议平台以外,特别是针对手机APP的会议应用终端有了更多的要求,会议解决方案更多侧重于用户体验和APP场景的便利性。

最后,因为篇幅关系和水平有限,我们仍然没有讨论很多和语音视频会议相关的问题,笔者仅从应用和工作场景的角度对会议解决方案在未来可能出现的应用场景做了讨论,为读者提供一个比较全面的应用方案建议。

参考资料:

杜比音效会议终端

FreeSBC/ProSBC 免费边界会话控制器, 下载ISO:

关注微信公众号:asterisk-cn,获得有价值的Asterisk行业分享

Asterisk freepbx 中文官方论坛:

Asterisk freepbx,FreeSBC/ProSBC 技术文档:

融合通信商业解决方案,协同解决方案首选产品:

Asterisk/FreePBX中国合作伙伴,官方qq技术分享群(3000人):589995817

标签: #php视频会议