龙空技术网

让AI入门者也能“克隆”今日头条算法,一款产品如何实现 AI For Everyone?

钛媒体APP 3304

前言:

此刻同学们对“今日头条开源算法”可能比较关怀,各位老铁们都想要学习一些“今日头条开源算法”的相关知识。那么小编在网上网罗了一些关于“今日头条开源算法””的相关内容,希望我们能喜欢,朋友们快快来学习一下吧!

人工智能的商业化元年,一个问题摆在从业者面前:AI如何进入企业?在业务执行层面能给企业们带来哪些改变?

不论是百度在整个2017年对无人驾驶系统与语音分析入口的全力押注,还是腾讯在成立 AI Lab 后与多款硬件结合“秀肌肉”的表现,自身具备技术能力的 BAT 无一不在结合自身业务和应用场景“ All in AI”。

除了内容推荐之外,今日头条也将其强大的算法能力向商业领域——诸如广告分发业务上拓展,AI能够使消费者触达环节变得更加精准。今日头条创始人兼CEO 张一鸣就曾直言:“只要把 AI 更新一个模型,就可能会带来几个点的利润。”

AI 对产业效率的提升、未来 AI 将成为如水电煤这样的基础设施,已经是业界共识。而相较于云服务、大数据,AI 与业务、与产品、与消费者的关联将更加多元。

这也提出了另一个行业议题:如果说 AI 真的能像水电煤一样让消费者触手可得,如何降低 AI 的门槛,让更多人了解 AI 甚至能够自行使用 AI ,同样成为行业需要关注的问题。

“AI技术一定会快速普及,以后高中生就可以做AI。所以大家现在都在谈 All in AI,本质上就是门槛低了。”在钛媒体记者在乌镇对猎豹移动 CEO 傅盛进行的采访中,傅盛曾这样表示。

第四范式创始人及CEO戴文渊

同样是在乌镇大会上,定位于帮企业搭建商用人工智能平台的“第四范式”发布了其人工智能产品“先知”的最新版本——3.0系统。

用第四范式创始人及CEO戴文渊的话来说,“先知 3.0 ”可以让公司里完全没有技术背景的行政、前台等员工,也能在一周之内经过培训后,掌握基本的 AI 技术,甚至可以自行搭建一个根据喜好分发内容的推荐系统。

在戴文渊看来,AI 的应用推广不能只依赖数据科学家这一小部分人群。“这就好比汽车的普及,现在考驾照也不难了,未来 AI 的应用也一定会朝大众化的方向发展。”戴文渊告诉钛媒体记者。

打造 AI 入门者可以构建今日头条

两年前的“第四范式”,还很孤独。

2014年,戴文渊任职于百度营销系统“凤巢”。彼时他是百度最年轻的高级科学家,身背ACM世界冠军等光环。在百度任期之内,戴文渊通过优化广告投放规则,帮助百度将广告收入提升了40%,而在这一过程中,戴文渊也更深地感触到机器学习对于公司业务的有效提升。

因为不甘于只将 AI 应用在广告业务,戴文渊在2015年创建“第四范式”。在戴文渊看来,百度曾经搭建一个 AI 系统动辄需要200-300人的科学家团队,这对于大多数企业是无法承受的成本,当中还不算百度已经积累的计算资源与技术投入。因此,戴文渊希望能将当时稀缺的 AI 技术封装到一个产品中,以商业套件的形式提供给企业。

不过,尽管这一定位从未改变,但诞生于2015年、身处眼下最为热门的 AI 领域的创业公司,在彼时并没有因为所谓的“人工智能”而受到关注——那一年创投风口还被 O2O 所占据;直到如今,随着 BAT 对 AI 的空前重视,以及AI 落地场景的不断涌现,“第四范式”提出的“AI For Everyone”才逐渐被外界了解。

那么,让“小白用户”借助第四范式的系统入门 AI ,是如何实现的?

在第四范式的总结中,企业 AI 系统需要具备三种核心能力:数据、算法、以及生产能力。因此,在第四范式最新发布的“先知3.0”中,就打通了从数据到业务的闭环,将机器学习产生智能的能力,与业务环节连接,形成了一个“机器学习圈”。

以今日头条等个性化内容推荐应用为例,使用“先知3.0”构建这样一个“千人千面”的智能系统大致需要四步:

1、行动。先让系统推荐给用户一些文章,或者根据用户初始登陆时自行选择的兴趣标签推荐一部分内容。

2、反馈。系统推荐得文章用户是否浏览?浏览时间多长?是否连续浏览相同主题文章?这类用户行为会演变为数据反馈给系统。

3、反思。通过以上的用户行为数据,机器开始学习并总结用户的阅读喜好。

4、理论。针对用户行为的反思结果生成一套通用理论,使应用的推荐更加精准,最终回归到行动,并以此周而复始,不断迭代。

以推荐系统为例,“先知3.0”通过构建机器学习圈的闭环,能够让普通员工掌握 AI 能力。

对于戴文渊来说,先知产品从1.0到3.0,同样经历了一个进化的过程。“2.0的时候,我们只能通过企业自行收集数据生成 AI 模型,这就让’先知’高度依赖企业收集数据的准确性。”戴文渊说到。

由于大多企业收集数据会存在误差——比如很多传统企业只关注结果数据,不采集结果数据,这就好比机器只能了解员工一年工作的年末评定,却不清楚员工每天做了什么,这就导致机器学习无法对未来的行为提供建设性建议。

因此,在先知3.0中,戴文渊带领团队设置了标准反馈数据的采集工具,同时对金融、医疗等行业设置了精细化的数据采集标准,确保企业能够采集到 AI 所需要的数据。

数据科学家的两条路径

对于大众来说,降低 AI 的认知门槛自然有一定意义,但是否有必要让入门者——或者说公司的每个员工——都成为 AI 专家?

戴文渊向钛媒体描绘了一个办公室前台都能使用的场景,“拿最近流行的人脸识别签到系统来说,公司前台只要收集全公司的人员照片,输入到’先知’系统中,就可以生成一个人脸识别模型,再结合硬件设备,即可让员工通过人脸签到打卡。”

类似的案例还有很多。在第四范式目前合作最多的银行客户中,不少银行内部员工就可以利用“先知”系统在超过20个日常业务中提升运营效率,为此,第三范式还特别成立了“范式大学”,针对企业内部普通员工,教会他们利用“先知”平台,在四天内成长为一个初级的数据科学家。

那么,这是否能意味着数据科学家会就此失业?

在戴文渊看来,数据科学家的角色未来应朝两个方向去发展。“一个更关注解决业务问题,比如解决一个反电信诈骗的问题,或者成为一个信息审核的专家。另一个就是往非常精深的底层技术发展,成为平台背后关键技术的支撑点。”

这样的角色差别事实上也反映出第四范式对 AI 产品及应用的定位。在人工智能科学领域,有一个问题也曾引发不少争论:

好的 AI 模型,是应该给技术专家配一个业务顾问,还是给业务高手配一个技术工具?

对此,第四范式选择了后者。“我们的数据科学家不仅要理解算法,更重要的是要求他们有对业务的理解能力和沟通能力,对业务有敏感度。”第四范式联合创始人、首席架构师胡时伟说到。

在胡时伟看来,传统意义上的数据科学家,需要编程/算法的经验、数学理论的支持以及业务知识,但随着市面上 Tensorflow(谷歌发布的深度学习开源框架)等算法开源以及“先知”这类产品的普及,编程、算法、理论都可以被封装进产品中提供给大众,掌握实际业务的重要性不言而喻。

目前,第四范式团队已在消费金融、个性化推荐等领域拥有包括招商银行、光大银行、今日头条等大量客户,另外,第四范式还强调通过“迁移学习”的方式,将通用模型迁移到小数据上,使其个性化,从而在新的领域也能产生效果,以此在金融、电信、互联网等更多行业打造百余个人工智能应用。

而对于 AI 应用的未来,戴文渊认为,AI 在应用场景上还有大量需求被压抑着,企业不是不想做,而是限于技术门槛与人力成本,无法投入更多地资源去做,因此,戴文渊也着重强调在第四范式的公司定位中,除了人工智能领域公司以外,企业服务厂商的角色同样重要。

“为企业提供系统的核心出发点是:必须时刻去想怎么帮助企业解决问题,而不是一味去考虑推一个什么形态的平台。”戴文渊对钛媒体记者说到。因此,第四范式对于 AI 系统的追求并不在于提供多么艰深的算法——那是学界研究的方向,第四范式对于算法的研究标准是“在同等水平的技术维度中,考虑能被更多人接受的产品模式”。(本文首发钛媒体,作者/苏建勋)

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

标签: #今日头条开源算法