龙空技术网

新科技让读书更专注!通过人工智能技术,如何提高读者的注意力?

时梦嫣 104

前言:

如今小伙伴们对“协调模块图形”大致比较看重,大家都想要剖析一些“协调模块图形”的相关内容。那么小编也在网络上汇集了一些对于“协调模块图形””的相关资讯,希望兄弟们能喜欢,看官们一起来学习一下吧!

文|时梦嫣

编辑|时梦嫣

前言

人工智能技术在人们的生活中变得越来越重要,相关专家学者展开了广泛且深入的研究。在此背景下教育行业也开始进行探索,如何通过人工智能技术,提高读者的注意力。

基于计算机的辅助工具,在帮助用户完成个人研究任务方面证明了其有效性,可以结合面部跟踪和其他图像分析技术,来了解学生对不同教学方法的反应。

最近使用眼动追踪技术评估学生的学习风格,个性化用于电子学习和远程讲课的内容,并研究了眼动追踪,在图形内容非接触式探索中的应用。

那么通过人工智能驱动的,手持设备交互式和用户感知虚拟助手,能否提高读者的注意力?如果能的话,将如何提高?

研究简介

近年来应用于语音助手、智能扬声器的增强现实和虚拟现实,以及自然语言识别等高端技术,从研究实验室转移到移动和消费电子以及工业应用领域。

从而为创新和在某些情况下,具有颠覆性的学习和培训方法提供了强大的基础,然而也发现了大量使用数字媒体的一些负面影响。

特别是年龄较小的学生,仍然需要学会将注意力集中在“常规”认知任务上,例如阅读和解决数学和几何问题。

因此除了实现创新的学习方法外,基于计算机的技术还应支持,旨在发展和提高任何年龄人类“传统”认知能力的活动。

该应用程序基于TFTH平台构建,专为平板电脑和电子书阅读器等手持设备而设计,多模态交互式教练代理利用基于人工智能的交互技术。

如人脸检测和识别,头部姿势检测,眼睛凝视跟踪,语音合成和语音识别,来估计用户对阅读的注意力程度,并提供足够的手势和口头反馈。

由于底层的TFTH平台,多模态交互式教练代理,支持广泛采用的智能扬声器的典型功能,例如自然语音理解,以及通过集成一些源自Red平台的功能模块,来连接智能家居软件和网络服务的能力。

TFTH架构

对于每个基本功能,在TFTH中有几个功能模块可用,这些功能模块在性能、内存占用、计算负载和其他特性上有所不同,每个功能可用的不同模块之间的选择,由设计约束驱动。

基本功能模块专门用于语音输入和输出,人脸检测和识别,头部方向估计和视线跟踪,自然语言理解和智能助手。

具有基本功能模块和受支持的图形字符之一的TFTH架构

后者负责连接到智能家居应用程序和设备,并提供一些基于Internet的服务,类似于最常见的智能扬声器所支持的服务。

因此添加了唤醒词检测模块,以允许用户在使用语音交互时启动与IVA的对话,图形前端基于3D动画角色,该角色显示面部表情,做出头部手势,并根据口语句子大致移动嘴巴。

这要归功于临时算法,预定义的面部表情和头部手势集是可扩展的,但从派生的现有面部表情和头部手势集,足以满足大多数应用程序的需求,字符的选择可以说会影响IVA的有效性,因此开发了几种不同的字符并可用于实验。

最后的协调模块,负责根据其他模块提供的数据做出决策,根据应用的不同,协调模块使用输入和输出模块的合适组合。

例如在这里考虑的多模态交互式教练代理应用程序的特定情况下,协调模块分析眼睛的目光和头部的位置,以确定要采取的行动。

整个TFTH架构是在假设处理用户相关数据时,仅需要本地计算的情况下开发的,也就是说与用户交互所需的所有处理,都应该在手持设备上本地运行,并且不应将任何数据传输到外部服务器或云服务。

只有当用户明确请求例外时,例如当命令谷歌或维基百科搜索时,例外才可接受。

这一假设的动机是解释的隐私和可靠性原因,因此低计算复杂度,是TFTH模块开发的主要限制因素之一。

语音合成模块基于一个软件库,该库又利用设备上可用的语音合成引擎,或者对于苹果手机设备,在本机TTS引擎的小型Python包装器上。

语音识别模块基于VOSK库,它提供了足够的识别功能,唤醒字检测模块使用相同的库。

注视跟踪是基于TFTH的移动应用程序的基本功能,特别是跟踪眼睛凝视的能力,允许多模态交互式教练代理应用程序确定用户正在看哪里,从而估计用户对阅读活动的注意力水平,然而很少有手持设备包含用于眼动追踪的专用硬件。

大多数直接支持眼动追踪的设备,都是针对残障人士的特定辅助工具,最近的一些移动设备,比如平板电脑和智能手机,确实具有可用于眼动跟踪的人脸识别和跟踪专用硬件。

但此功能尚未在最常见和更实惠的移动设备上提供,市场上的外部眼动仪,通常需要专有的驱动程序,而这些驱动程序不能为手持设备提供足够的支持,类似的问题会影响大多数商用软件解决方案。

出于这个原因,研究开发了一种用于眼睛凝视跟踪的软件解决方案,旨在同时在自然光和近红外光下工作,所提出的解决方案不依赖于特殊的硬件或头戴式设备。

在大多数情况下,注视追踪器基于传统的红外瞳孔或角膜反射,或更复杂的计算机视觉算法,进行了优化,以最好地满足移动设备用户的需求。

特别是屏幕尺寸在5到11英寸之间,方向通常是垂直的,还必须解决其他具体问题,例如输入眼睛图像的低分辨率,不均匀的照明,以及眼睛注视方向对头部和相机方向的依赖性。

研究提供了用于测试和调试的眼动仪中间结果的可视化,显示了基于Linux的上网本的7英寸显示屏,其中三个单独的窗口显示面部以及左右眼睛的方向。

一个小的蓝色圆圈,显示用户的眼睛凝视实际指向的位置,研究中眼睛图像水平翻转,因此用户大约看向屏幕右侧。

演示所采用的眼睛凝视跟踪方法

移动互动教练代理

多模态交互式教练代理的目标是通过更好,更可靠地集中注意力,帮助用户提高阅读和学习的生产力和表现,其基本原理是,能够监控用户的智能交互式图形字符,可以用作教学代理以提高学习动机。

PA的作用得到了一些认知和社会理论的支持,这些理论指出,当屏幕上的IVA显示类似人类的手势、动作、眼神交流和面部表情时,用户会更深入地学习,并结合及时的支持或指导来引导用户的注意力到任务的关键要素上。

多模态交互式教练代理与内容无关,不验证用户对所读内容的实际理解或记忆水平,进一步发展将考虑向多模态交互式教练代理通报,向用户管理的内容的可能性,以提高辅导过程的有效性。

研究显示了多模态交互式教练代理图像处理部分的结构,TFTH中可用的人脸识别模块,基于之前描述的用户识别方法,可识别用户,从而允许按用户进行设置和校准。

MICA人脸处理架构

这种方法在最近的微软操作系统中很常见,如Windows10,并且被人们广泛接受。如果有需要的话,它可以被更传统的用户识别模块所取代,例如凭据或指纹识别。

研究展示了能够估计用户面部方向的交互式虚拟代理,如何推断出他们对正在执行的活动的参与程度的粗略指示。

反过来这种指示可以触发代理的反应,旨在重新激发用户对手头活动的注意力,多模态交互式教练代理将眼睛凝视与面部方向相结合,以估计实际的参与水平和用户注意力的焦点。

在阅读时注视点应该在阅读表面上,并且平均而言应该向当前页面的末尾前进,频繁和合理的偏离这个方向,通常表明文本在理解或记忆某些东西方面,存在一些分心或显着的认知困难。

相反地对图形内容的理解,如图形、方案、表格等,通常需要不同的注视模式,为了这项研究,多模态交互式教练代理采用了与内容无关的模式。

因此通过检测分心事件,或用户视线聚焦在屏幕区域之外,并估计其持续时间的时间间隔,来测量注意力水平,为避免因扫视和短暂、错误的眼球运动而导致误报。

仅干扰事件长度超过固定的启发式阈值,实验设置为0.9s,当在阅读间隔内检测到的所有分心事件的持续时间之和,超过给定阈值时,则引发分心警告。

多模态交互式教练代理可以使用两种不同的方法管理分心警告,根据各个设置和有关向用户管理的内容的可用信息,第一种方法是向用户提供即时反馈。

要求他们重新专注于任务,采用的分心频率累积功能可确保,仅在检测到大量分心后提供反馈,从而避免过于频繁的警告可能导致分心的风险,第二种方法是仅在活动明确定义的里程碑时提供反馈。

例如在每章或每节课的末尾,这需要一些有关所管理文档结构的信息,这些信息可以在可用时自动从元数据中提取,在每个里程碑上,都会向用户提供有关对内容的关注的反馈。

如果提出了分心警告,他或她会收到修改内容某些部分的建议,以及需要修订的部分的规范。

研究还显示了一个非常简单的阅读电子书的案例,该电子书利用多模态交互式教练代理来激励用户并帮助集中他们的注意力。

一个简单的阅读应用程序

在左侧显示了查看用户时的多模态交互式教练代理字符,角色的表达是中性的,尽管头部和眼睛偶尔的一些小动作有助于角色的“生动”,在右侧角色使用语音合成和面部表情,向用户提供有关他或她在阅读时的注意力水平的反馈。

研究中左边表示代理正在观察用户,右边为代理向用户提供有关他或她,在阅读时的注意力水平的反馈。

在特定情况下例如当用户非常年轻或有一些认知障碍时,已经表明向用户提供积极的反馈,可能会提高他或她的参与度和动机,例如微笑和说出鼓励的句子。

但是只有在活动的特定阶段,才能提供此类反馈,此时有关内容的元数据可用。

三个MICA测试的角色

在某些情况下应避免正面反馈,例如成人用户,因为它可能是分心或干扰的来源,因此尽管多模态交互式教练代理可以提供积极的反馈,但这种反馈并不经常发出。

研究发现至少对某些类别的用户而言,交互式代理图形特征的选择至关重要,因此多模态交互式教练代理被设计为根据用户的喜好,呈现不同的图形字符的外观,并且在初步调查后对一组默认字符进行了个性化设置。

MICA角色支持视觉提示

在多模态交互式教练代理中角色动画与说出的语音同步,无论是合成的还是采样的,并显示类似人类的面部表情。与之前的工作相比,面部动画集中添加了提示,以促进在指导过程中与用户的交互。

多模态交互式教练代理的第一个要求是指,它能够有效地捕捉用户注意力状态的动态,换句话说多模态交互式教练代理需要运行得足够快,以跟踪用户态度的变化。

这可能会揭示他们注意力的重大变化,选择了以每秒帧数为单位的帧,处理速率来衡量处理速度,决定为了在阅读时监测用户的注意力,可以假设10FPS是可接受的最低采样速度。

为了评估所提出的方法满足第一个要求的能力,在代表各种目标设备的三种不同硬件架构上运行了多模态交互式教练代理,即两台不同的平板电脑和配备不同ARM处理器,不同RAM容量和不同相机的板。为了便于比较,将采集的视频分辨率设置为1280×720像素。。

测试设备并获得帧速率

结果

为了数据可视化的清晰性,对于每个受试者,阅读时间、分心事件的数量和累积分心时间,分别针对两个条件在六个摘录中取平均值,产生每个受试者和每个条件的平均阅读时间、平均分心事件数和平均累积分心时间。

研究结果比较了条件一和条件二下,每个受试者的平均阅读时间图,并且比较了相同两种条件下平均累积分心时间的图表。

每个主题的阅读时间(左侧)和累积分心时间(右侧)

结论

研究介绍了交互式虚拟代理的软件架构,该代理可以支持正在阅读、参加电子学习课程或接受认知康复治疗的用户。

该代理称为多模态交互式教练代理,通过目视观察用户的面部、头部方向和眼睛凝视来感知用户,并估计注意力和动机的水平,响应估计状态,代理使用语音、面部表情、头部手势和视觉提示,为用户提供特定的多模态刺激。

多模态交互式教练代理,已经在20个不同的用户和超过50小时的阅读会话中,进行了测试,产生了大量数据。

实验结果分析表明,多模态交互式教练代理在用户对阅读任务的视觉注意力方面,引入了重要的改进,从而证明了所提方法的有效性。

研究提出了未来的改进方向,即将最近的深度学习计算机视觉方法,应用于眼睛凝视跟踪,并采用更详细和可靠的视觉注意模型。

如果你也喜欢我的文章,不妨点个“关注”吧!小生在此谢过了!

END

标签: #协调模块图形