华为提出基于强化学习的因果发现算法

12月30日消息，华为诺亚方舟实验室被ICLR 2020接收的一篇满分论文《CAUSAL DISCOVERY WITH REINFORCEMENT LEARNING》介绍：华为诺亚方舟实验室因果研究团队将强化学习应用到打分法的因果发现算法中，通过基于自注意力机制的encoder-decoder神经网络模型探索数据之间的关系，结合因果结构的条件，并使用策略梯度的强化学习算法对神经网络参数进行训练，最终得到因果图结构。

在学术界常用的一些数据模型中，该方法在中等规模的图上的表现优于其他方法，包括传统的因果发现算法和近期的基于梯度的算法。同时该方法非常灵活，可以和任意的打分函数结合使用。