龙空技术网

多维时间序列预测的贝叶斯时间因子分解

人工智能学术前沿 1285

前言:

目前姐妹们对“素因子分解快速算法”都比较关心,大家都需要学习一些“素因子分解快速算法”的相关文章。那么小编在网上汇集了一些关于“素因子分解快速算法””的相关知识,希望兄弟们能喜欢,大家快快来了解一下吧!

多维时间序列预测的贝叶斯时间因子分解

题目:

Bayesian Temporal Factorization for Multidimensional Time Series Prediction

作者:

Lijun Sun, Xinyu Chen

来源:

Machine Learning

Submitted on 14 Oct 2019

文档链接:

代码链接:

摘要

大尺度多维时空数据集在城市交通、空气质量监测等实际应用中越来越普遍。对这些时间序列进行预测已经成为一个关键的挑战,因为不仅是大规模和高维的性质,而且还有相当数量的数据丢失。在这篇论文中,我们提出了一个贝叶斯时间因子分解(BTF)框架来建模多维时间序列——特别是时空数据——在缺失值存在的情况下。通过将低秩矩阵/张量分解和向量自回归(VAR)过程集成到一个概率图形模型中,该框架可以描述大规模时间序列数据的全局一致性和局部一致性。图形模型允许我们有效地执行概率预测并产生不确定性估计,而不需要输入那些缺失的值。我们开发了有效的Gibbs sampling算法用于模型推断,并在几个真实世界的时空数据集上测试所提出的BTF框架,用于缺失数据的归集和短期/长期滚动预测任务。数值实验证明了所提出的BTF方法相对于许多先进技术的优越性。

英文原文

Large-scale and multidimensional spatiotemporal data sets are becoming ubiquitous in many real-world applications such as monitoring urban traffic and air quality. Making predictions on these time series has become a critical challenge due to not only the large-scale and high-dimensional nature but also the considerable amount of missing data. In this paper, we propose a Bayesian temporal factorization (BTF) framework for modeling multidimensional time series---in particular spatiotemporal data---in the presence of missing values. By integrating low-rank matrix/tensor factorization and vector autoregressive (VAR) process into a single probabilistic graphical model, this framework can characterize both global and local consistencies in large-scale time series data. The graphical model allows us to effectively perform probabilistic predictions and produce uncertainty estimates without imputing those missing values. We develop efficient Gibbs sampling algorithms for model inference and test the proposed BTF framework on several real-world spatiotemporal data sets for both missing data imputation and short-term/long-term rolling prediction tasks. The numerical experiments demonstrate the superiority of the proposed BTF approaches over many state-of-the-art techniques.

N-BEATS结构

本文提出了一种新的贝叶斯时间因子分解框架,它能有效地处理现代时空数据中的缺失问题和高维特性。我们的基本假设是,这些时间序列与共有的潜在因素高度相关。该框架受最近时间正则化[19]和贝叶斯因子分解[12]研究的启发,将低秩矩阵/张量因子分解应用于多变量和多维时空数据模型,并采用向量自回归(VAR)过程对时间因子矩阵进行建模。这两个部分被集成到一个单一的概率图形模型中,我们可以在这个模型上设计一个完整的贝叶斯处理。通过将共轭先验置于所有参数和超参数之上,我们可以进一步开发用于模型推理的高效马尔可夫链蒙特卡罗(MCMC)算法。

这个框架的总体贡献有三方面:

我们将VAR和矩阵/张量因子分解集成到一个单一的概率框架中,以高效地对大规模和多维(时空)时间序列进行建模。该模型可以同时估算缺失值和预测未来值,而不引入潜在偏差。该框架是完全贝叶斯的,不需要调整正则化参数,因此它提供了一个灵活的解决方案,以确保模型的准确性和避免过拟合。利用共轭先验,我们可以推导出用于模型推理的高效MCMC抽样算法。贝叶斯框架允许我们用不确定性估计进行概率预测。在真实世界的时空数据集上进行了大量的实验,以证明它对最先进的模型的有效性。

如前所述,对不完全时间序列进行准确的预测是非常具有挑战性的,而在实际应用中丢失数据的问题几乎是不可避免的。图1展示了不完整时间序列数据的预测问题。

图1所示。高阶时间序列和缺失值预测问题的说明(绿色:观测数据;白:缺失的数据;红色:预测)。

图2所示。使用时间矩阵分解的滚动预测方案的图形说明(绿色:观测数据;白:缺失的数据;红色:预测)。

图3显示了BTMF的总体图形表示。

算法1 BTMF-Gibbs抽样归算

算法2 BTTF-Gibbs抽样归算

实验结果

数据集

1.数据集(G):广州市城市交通速度

2.数据集(B):伯明翰停车场

3.数据集(H):杭州地铁客流

4.数据集(S):西雅图高速公路交通速度

1.

2.

3.

4.

基线方法

1)TRMF [19]

2)其完全贝叶斯对应的BayesTRMF作为主要基准模型。我们还考虑了基于张量的模型,用于缺失数据的插补,包括:

3)贝叶斯高斯CP分解(BGCP)[37],这是BPMF的高阶扩展[30];

4)贝叶斯增强张量因式分解(BATF)[32];

5)HaLRTC:高精度LowRank张量完成[38];

6)TF-ALS:使用交替最小二乘(ALS)的标准张量分解。

我们将BTMF和BTTF应用于几个真实世界的时空数据集,用于估算和预测任务,并评估这两个模型相对于最新的最先进方法的有效性。我们使用平均绝对百分误差(MAPE)和均方根误差(RMSE)作为评价指标:

实验结果分析

表1。对于数据集(G)、(B)、(H)和(S)上的输入任务,RM和NM的性能比较。

表2。RM和NM在数据集(G)、(B)、(H)和(S)上的预测任务的性能比较。

如图5所示,我们提议BTMF达到准确的时间序列预测结果在杭州地铁客流数据集,这样可以保证即使准确的结果很大一部分输入序列的丢失(例如,看到(c), (d), (f)和(h)图5),伯明翰和杭州数据。

图6给出了BTMF对不完整伯明翰停车数据的预测结果的可视化。

表3:纽约市出租车数据集的性能比较(N)。

结论

在本文中,我们提出了一个贝叶斯时间因式分解(BTF)框架,在传统的贝叶斯概率MF/TF算法中加入一个VAR层。这种集成使我们能够更好地对多维时间序列数据的潜在维度上的复杂时间动力学和协方差结构进行建模。

因此,BTF提供了一个强大的工具来处理不完整的/损坏的时间序列数据,用于估算和预测任务。贝叶斯方案允许我们估计目标变量的后验分布,这对于风险敏感的应用是至关重要的。

对于模型推理,我们通过引入共轭先验推导出一个高效的、可扩展的Gibbs抽样算法。完整的贝叶斯处理在参数调优方面提供了额外的灵活性,并避免了过度拟合问题。

我们在几个真实世界的时间序列矩阵/张量上研究了该框架,并且BTF框架已经证明了其优于其他基线模型的性能。虽然我们在时空背景下引入了BTF,但该模型可以应用于一般的多维时间序列数据。

标签: #素因子分解快速算法