论文部分内容阅读
时序预测是深度学习应用领域研究中的热点问题。捕捉时序数据间复杂的关联特性是实现精准预测的关键。目前研究未能针对性给出以下问题的解决方法。具体的,如何处理数据集上多个非预测时间序列在不同时间阶段对目标序列产生的不同程度的影响;时序数据中蕴含的突变现象会显著的影响标签序列的变化规律,如何通过预测方法学习到历史数据中的这些信息。在先前多数研究中,通常仅从神经网络模型角度设计预测方法,而目标函数和优化算法中完全忽略了随时间变化的信息。
本文从时序预测的目标函数、神经网络模型和帮助模型在迭代训练中收敛的优化算法这三个角度展开针对时序数据关联特性的预测方法的研究。本文核心的贡献如下:
(1)在目标函数方面,本文设计了新的针对于时序关联特性的时序预测评估机制。具体的,本文提出在目标函数中包含平均绝对误差(Mean absolute errors, MAE)和均方根误差(Root Mean Squared Errors, RMSE)损失来评估不同的时序变化幅度误差。同时,在目标函数的惩罚项中使用了二阶差分技术来自适应地捕获每个序列的突变和缓慢变化信息对标签序列产生的影响信息。
(2)在神经网络模型方面,本文设计了捕捉短期突变依赖关系、复杂时序变化规律的一系列预测模型。具体的,本文首先设计了一种长短期记忆(Long Short Term Memory, LSTM)网络的变体,引入基于双曲正切函数变形的转换门控将时序信息流映射到变化最明显的区间来更好的捕捉短期时序变化信息。随后,为了捕获不同的非预测性时间序列对标签序列的不同影响信息,本文设计了一个新的由影响力注意机制和时序注意机制组成的多阶段注意力网络。在影响力注意力机制中,使用相同和不同的时间阶段注意机制来捕获这些影响信息。此外,该模型中还设计了注意力得分重新调整机制来全面的捕捉多个非预测序列的影响力权重。针对捕获历史观测数据中的突变信息的问题,本文提出了一种新的深度学习模型来解决。在编码器的注意力机制中设计了新的函数映射机制来融合历史隐藏状态和细胞状态信息。同时,在编码器中使用具有转换机制的LSTM来抓取输入信息流中存在的突变信息。此外,还设计了一种自适应的自步课程学习机制来获取小批量样本间可能被忽略的突变信息。
(3)在优化算法方面,本文设计了两种考虑梯度误差流中时序关联信息的自适应随机优化算法。具体的,本文提出了一种基于主流自适应学习率优化算法框架的针对时序数据关联特性的优化算法(称为AdaptiveHybridMultidimensionalGradient,AdaHMG)。该算法对二阶矩估计历史和当前信息使用混合高次多维度的更新策略来处理误差梯度流中的时序依赖信息。随后,为解决AdaHMG算法引入过多超参数增大调参难度的问题,本文提出新的优化算法(称为AdaptiveMomentForgetGradient,AdaMFG)来自适应地记忆和遗忘一阶和二阶矩估计信息,使得所提出的优化算法大幅提高了对误差梯度流中时序变化信息的捕获能力。
最后,本文在多个不同数据规模、不同应用领域的开源时序数据集上进行了全面和深入的实验研究。实验不仅验证了本文所提方法比最先进的(state-of-the-art, SOTA)模型更有效和更先进的特点,而且还通过消融实验来明确每一个组件在解决方案中所起的作用。
本文从时序预测的目标函数、神经网络模型和帮助模型在迭代训练中收敛的优化算法这三个角度展开针对时序数据关联特性的预测方法的研究。本文核心的贡献如下:
(1)在目标函数方面,本文设计了新的针对于时序关联特性的时序预测评估机制。具体的,本文提出在目标函数中包含平均绝对误差(Mean absolute errors, MAE)和均方根误差(Root Mean Squared Errors, RMSE)损失来评估不同的时序变化幅度误差。同时,在目标函数的惩罚项中使用了二阶差分技术来自适应地捕获每个序列的突变和缓慢变化信息对标签序列产生的影响信息。
(2)在神经网络模型方面,本文设计了捕捉短期突变依赖关系、复杂时序变化规律的一系列预测模型。具体的,本文首先设计了一种长短期记忆(Long Short Term Memory, LSTM)网络的变体,引入基于双曲正切函数变形的转换门控将时序信息流映射到变化最明显的区间来更好的捕捉短期时序变化信息。随后,为了捕获不同的非预测性时间序列对标签序列的不同影响信息,本文设计了一个新的由影响力注意机制和时序注意机制组成的多阶段注意力网络。在影响力注意力机制中,使用相同和不同的时间阶段注意机制来捕获这些影响信息。此外,该模型中还设计了注意力得分重新调整机制来全面的捕捉多个非预测序列的影响力权重。针对捕获历史观测数据中的突变信息的问题,本文提出了一种新的深度学习模型来解决。在编码器的注意力机制中设计了新的函数映射机制来融合历史隐藏状态和细胞状态信息。同时,在编码器中使用具有转换机制的LSTM来抓取输入信息流中存在的突变信息。此外,还设计了一种自适应的自步课程学习机制来获取小批量样本间可能被忽略的突变信息。
(3)在优化算法方面,本文设计了两种考虑梯度误差流中时序关联信息的自适应随机优化算法。具体的,本文提出了一种基于主流自适应学习率优化算法框架的针对时序数据关联特性的优化算法(称为AdaptiveHybridMultidimensionalGradient,AdaHMG)。该算法对二阶矩估计历史和当前信息使用混合高次多维度的更新策略来处理误差梯度流中的时序依赖信息。随后,为解决AdaHMG算法引入过多超参数增大调参难度的问题,本文提出新的优化算法(称为AdaptiveMomentForgetGradient,AdaMFG)来自适应地记忆和遗忘一阶和二阶矩估计信息,使得所提出的优化算法大幅提高了对误差梯度流中时序变化信息的捕获能力。
最后,本文在多个不同数据规模、不同应用领域的开源时序数据集上进行了全面和深入的实验研究。实验不仅验证了本文所提方法比最先进的(state-of-the-art, SOTA)模型更有效和更先进的特点,而且还通过消融实验来明确每一个组件在解决方案中所起的作用。