龙空技术网

第二届中国“AI+”创新创业大赛 -- AI+金融—联邦对抗技术大赛

中国人工智能学会 796

前言:

今天小伙伴们对“语音生成模型联邦训练”可能比较着重,各位老铁们都想要剖析一些“语音生成模型联邦训练”的相关资讯。那么小编同时在网上搜集了一些对于“语音生成模型联邦训练””的相关知识,希望小伙伴们能喜欢,大家一起来学习一下吧!

各相关单位:

为了促进人工智能产业发展,2019第二届中国“AI+”创新创业大赛-- AI+金融—联邦对抗技术大赛(以下简称“大赛”)将于2019年8月至11月举行。现将大赛的有关事项通知如下:

一、大赛机构

1. 主办单位

中国人工智能学会

2. 承办单位

前海微众银行股份有限公司

二、参赛办法

1. 参赛对象

本次竞赛面向全社会开放,不限年龄、身份、国籍,相关领域的个人、高等院校、科研机构、企业单位、初创团队等人员均可报名参赛。

2. 参赛组队形式

支持以个人或团队(线下自由组队)的形式参赛,每支参赛队伍的人数不超过5人,允许跨单位自由组队,每人只能参加一支队伍。参赛选手报名须保证所提供的个人信息真实、准确、有效。

3. 报名方式

2019年8月15日至8月30日,登录比赛官网()在线报名。

三、 参赛选题

1. 赛事背景

互联网金融和科技金融的发展对人工智能技术提出了新的挑战,同时也带来了新的机遇。为了能7*24无缝高效的给用户和小微企业提供服务,语音对话和人脸识别等机器人发挥了重要的作用。鉴于金融场景的如下特点:

1) 金融产品众多,并且金融的重要属性之一是连接不同场景,因此对于人工智能技术领域迁移和反馈的需求旺盛。

2) 金融对于数据安全和隐私保护的要求极高,并且因为利益驱动经常遭到攻击,因此对于人工智能技术安全和防攻击的需求旺盛。

我们提出了两个赛题,分别是语音的赛题和图像的赛题。旨在满足如上需求。

2. 赛题描述

参赛者可以从如下两个赛题中选择至少一个。

1) 语音赛题:基于联邦学习场景的语音识别系统声学模型优化

赛题描述:语音识别系统主要由声学模型和语言模型构成。其中,声学模型在多种场景下的鲁棒性对语音识别系统至关重要。然而,由于金融相关的音频数据固有的隐私属性,语音识别系统的开发者通常难以获取到大量且场景丰富的金融相关的音频数据,这极大地限制了声学模型在金融场景的应用效果。如上图所示,我们设定一个联邦学习的场景来解决上述问题:多个语音识别系统的应用方从开发者那里获取一个语音识别系统,进而在他们的自有数据上对该系统的声学模型进行优化,优化后的声学模型回馈给开发者。

在本赛题中,我们聚焦在开发者如何整合从应用方获取的多个声学模型来提升其语音识别系统的效果, 即针对上图中的“?”组件(绿色)设计其底层算法,该算法以多个场景下的声学模型为输入,以一个新的声学模型为输出,目标为该声学模型替换掉原有的声学模型后会给开发者的ASR带来更好的识别效果。

在本赛题中,我们提供数十个在不同场景下优化后的声学模型以及声学模型的评估环境,参赛者可以使用任意的算法基于这些模型整合出一个新的声学模型,新生成的声学模型提交后评估环境会计算出其在验证集上语音识别效果(以词错误率WER为标准), 参赛者可以以此为标准迭代优化其算法。

模型介绍:我们提供Kaldi mdl格式的30个声学模型,这些声学模型具有同构的特点。每个声学模型可以看做一个28个component组成、包含约1200万参数的神经网络。参赛者可以通过我们提供的工具分别实现mdl格式和txt格式的转换。

评估方式: 评估过程涉及验证集和测试集。验证集和测试集分别由从多个应用场景中随机抽样得到的一千个音频片段及其对应的文本构成。在比赛过程中,参赛者可以通过提交模型获得该模型在验证集上的WER,并在榜单中看到自己的排名。比赛结束后,我们会以测试集评测参赛者提交的模型并确定最终的排名。每队每天限定提交10次模型。

评估标准: 评估测试集上语音识别效果(以词错误率WER为标准)

2) 图像赛题:图像生成对抗样本

赛题描述:人脸核身的准确性和安全性,对于金融业务来说至关重要。基于利益驱动,核身业务经常会遭受到恶意攻击,攻击的方式多种多样,在深度学习领域,有一类攻击技术,称之为对抗样本,它通过对输入样本故意添加一些人无法察觉的细微干扰,从而导致模型以高置信度输出错误的结果。举个例子:在核身业务中,攻击者通过伪造攻击样本,使得模型对两个不同人的照片,识别成同一个人。因此我们开展这个研究课题,即金融场景人脸识别中的对抗样本生成。以帮助我们的人脸识别服务具备更高的鲁棒性和安全性。

人脸比对,是对两张图片,识别是不是同一个人。在金融场景中存在这样一种攻击方式,将某人伪造成特定人,欺骗系统的人脸识别系统,从而获取非法利益。因此,我们设置了这样一个比赛,提供一份数据,包含若干路人的照片,以及一个明星的名字(如刘德华),要求参赛者通过生成对抗样本的相关技术,生成路人的对抗样本,使得模型将该明星和对抗样本识别成同一个人。用于比对的明星照片参赛者无法获取,该照片会存在服务器。参数者只能获取明星的名字,根据明星的名字去抓取明星照片作为训练集。本次比赛采用黑盒模型,即参赛者无法获取模型的详细信息,包括参数,梯度等。只能通过特定的服务访问模型,得到模型的对应输出。每队每天限定次数访问。

评估方式:最终评估将在测试集上进行评估,该测试集存有另外1000个不同的路人。要求参赛者提交docker环境、模型和预测代码,我们将在该测试集上运行参赛者的模型,验证模型的有效性及泛化能力。

评估标准:从两个维度进行评测,一是攻击成功的比例。二是对原始样本的修改程度,修改越少,得分越高。

四、竞赛时间安排

2019年8月15日 启动报名

2019年8月15日 开放数据和可用模型

2019年8月30日 截止报名

2019年9月15日 开放测试集数据,选手可提交结果

2019年10月15日 截止提交结果

2019年10月30日 排行榜前20名队伍截止提交材料

2019年11月15日 公布最终排名前三名获奖队伍名单

2019年11月下旬或12月上旬 全国路演、颁奖

*微众银行对本次比赛规程拥有最终解释权

五、竞赛赛制

1. 比赛整体流程

本次大赛不分初赛、复赛,最终榜单前三的队伍有机会参加由中国人工智能学会举办的全国路演活动。在各阶段,参赛队伍须按照要求按时、合规地提交参赛作品。

2. 作品评审规则

(1) 自动评审

每支队伍每天参与评测的提交次数不超过5次,排行榜将按照评测分数从高到低排序,并且实时更新。排行榜上只显示每支队伍成绩最好的一次提交结果。各支队伍可在提交结果页面的个人成绩中查看历史提交记录。

(3)材料复审

榜单排名前20的参赛队伍需要在2019年10月30日24点前将以下材料上传:

可复现的算法代码方法原理介绍文档

··

竞赛评审委员将对提交的材料逐一审核,确认无作弊和材料齐全的队伍将获得成绩,否则将取消评奖资格。审核结束后,将于2019年11月15日24点前公布最终排名前十名队伍的名单。参赛队伍提交的所有参赛资料的知识产权归参赛队伍所有,参赛资料仅用于本次大赛评奖。

全国路演的具体安排、时间另行通知。

六、奖项设置

本赛事总奖金20万元,语音和图像赛题各10万元;每个赛题都将评出榜单前3支队伍,奖金如下:

第1名 奖金¥50,000/队

第2名 奖金¥30,000/队

第3名 奖金¥20,000/队

需特别注意:

以上所有提及金额均为税前金额。

获奖评定需选手按要求提供材料及团队成员名单。

六、竞赛管理

1. 报名费用

本次竞赛不收取任何报名费用

2. 餐饮住宿

受邀参加全国路演的选手期间食宿由微众银行竞赛组委会安排,往返交通费由微众银行竞赛组委会报销,其他费用自理。

3. 竞赛秘书处联系方式

报名网站:

报名、赛务联系人:周女士

邮箱:guyuezhou@webank.com

电话:(0755) 21813556-5556

2019第二届中国“AI+”创新创业大赛

-- AI+金融—联邦对抗技术大赛组委会

中国人工智能学会

2019年7月16日

标签: #语音生成模型联邦训练