龙空技术网

图机器学习算法、应用的现状与趋势

DataFunTalk 564

前言:

此刻同学们对“算法领域的现状分析”大概比较关切,小伙伴们都想要分析一些“算法领域的现状分析”的相关文章。那么小编也在网上汇集了一些关于“算法领域的现状分析””的相关文章,希望朋友们能喜欢,各位老铁们快快来了解一下吧!

引言

本文是DataFun对华为诺亚方舟实验室高级研究员周敏的访谈,探讨了图机器学习在学界和业界的研究落地现状挑战与趋势,以及各自不同的关注点。

​DataFun社区|出品

数据智能专家访谈 第09期|来源

01.

算法

图的算法涉及图数据、图模型、图学习范式、图的AI基础任务等层面。

图数据类型包括同质图、异质图、动态图等。异质图在工业场景中例如推荐搜索很常见,代表性的成果是 HIN 模型,动态图场景则在社交网络中很常见。

在图模型的落地应用中,直推式(例如图卷积网络)以及归纳式(例如图注意力网络)的应用效果优劣不是绝对的的,人们一般会做综合性的对比和尝试。另一方面,归纳式模型本身在可扩展性上有较大的优势,因此人们更倾向于使用它。

前沿的图模型研究包括Graph Transformer、等变图神经网络等,Graph Transformer具有局域注意力机制和位置编码能力,等变图神经网络可以编码图数据的许多自然特征,比如蛋白质的空间信息,从而提升了模型的表达能力。

图学习范式中学界比较关注对比学习等无监督的方式,尤其是在大模型盛行的当下,人们会特别关注图预训练大模型的潜力。

图的AI基础任务包括模型压缩、因果推断、可解释性、鲁棒性、隐私保护、算法纠偏等。图算法的模型压缩目前关注度一般;因果推断方面,目前主要是把因果学习和图学习结合来提高图算法的准确性;可解释性的相关工作比较零散,一般只在特定场景中探索;鲁棒性、算法纠偏、隐私保护等可信机器学习方面近两年关注度比较高,特别是OOD泛化、图联邦学习等。

02.

应用

图机器学习的应用涉及图基础任务、业务场景、AI工程等层面。

图基础任务包括节点分类、链接预测、图分类、图聚类、图信息补全等,其中,目前应用以及关注度最多的是节点分类、链接预测和图分类。社交网络、知识图谱等更高阶任务一般也都是这些基础任务的组合。

业务场景方面,图在推荐搜索中一般会遇到线上-线下效果不一致、可扩展性等问题,搜索推荐的建模会分为线上和线下场景,适用于线下场景的模型在线上场景的效果并不一定好,从而导致无法在线上部署;在风控中一般会遇到特征工程、异常样本均衡等问题,因为特征工程需要结合大量的领域知识。前沿的应用场景则包括生命科学、物理仿真等。另外,学界的研究对象通常规模不会很大,但业界的落地场景涉及很大的数据规模,比如社交网络、商品网络等,这时就会遇到可扩展性和计算复杂度的问题。

工程方面图机器学习的研究和落地一般会采用框架的支持。业界比较通用的图机器学习框架是AWS的DGL,学界比较知名的是PyTorch Geometric。但学界也会研发很多专用领域的图机器学习框架,比如面向蛋白质、分子、风控、异质图等垂直场景的框架。

对大规模图的处理,是学界和业界都关注的重要问题,特别是在业界的应用场景中,通常会涉及几十亿节点的规模。当图网络的规模很大的时候,会出现大量的通讯时间开销等成本消耗。其它核心挑战还包括计算的加速、预测准确率、分布式处理等。当然,不同的任务,比如节点分类、链接预测等,还有特定的性能指标。

图神经网络的理论表达能力有上限。GIN将GNN与图同构检测的经典启发式算法Weisfeiler Lehman(WL)建立了联系,从理论角度证明了GNN的表达能力上限值为1-WL。但这并不会导致其在工程应用上有绝对的边界,业界会采用很多工程技巧来做优化。学界一般考虑不同解决方案的通用性,因此算法或模型的假设都是简单的,而业界则需要针对场景做极致的性能优化,并与资源消耗进行权衡。

总体而言,图机器学习最大的挑战还是在于图数据和场景的多样性上。对于不同的场景,相对变化性很大,很难用同一套工程或同一套算法来解决。这一点和计算机视觉有很大差别,毕竟图像的属性很统一,就是欧式空间阵列中的像素值。而图的属性在不同行业,甚至相同行业的不同场景都是很不一样的。这主要源于图的构造方式,图的构造方式包含两个部分,即边的信息和节点属性的信息,而节点属性的构造是非常复杂和困难的,一般需要将其转换成特征向量进行研究。解决路径上,实际工业应用更关注数据、样本或者特征的构建和处理,但是学界更多关注的是模型结构的创新。

在未来,行业希望能够做到在推荐风控生物计算等场景中抽取更加通用的特征信息,以达到知识的复用。

▌专家介绍

‍♀️ 周敏|华为诺亚方舟实验室 高级研究员

本科毕业于中国科学技术大学自动化系,博士毕业于新加坡国立大学工业系统工程与管理系。主要研究方向为序列数据、图数据挖掘与分析。研究和应用成果申请专利多项,并在KDD, ICDE, Automatica等会议和期刊发表论文多篇。

▌数据智能专家访谈

“数据智能专家访谈”是 DataFun 新推出的内容系列,本系列旨在访谈不同公司的核心技术人员,得到专家在不同领域的洞察,包括但不限于行业重点、热点、难点,增加读者对行业技术的了解。

▌大话数智

大话数智,是DataFun策划的智库类公众号,包括但不限于知识地图、深度访谈、直播、课程等学习资料,旨在为广大数据智能从业者、数据智能团队提供一个日常学习成长的平台,促进先进的数据智能技术的传播与广泛落地。

标签: #算法领域的现状分析