服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

面向因果规律的表示学习新方法——因果表征学习最新攻略

日期: 来源:集智俱乐部收集编辑:​张坤团队


导语


我们的生活中无时无刻不在对接受到的信息进行思考和逻辑推理,从而获得可被复现的模块化知识。近年来深度学习AI在预测识别方面取得巨大进展。要如何进一步,使AI具有与人类相似的推理能力呢?因果表征学习或许提供了一条路径。这篇文章概括了 Carnegie Mellon University 副教授张坤老师研究组在因果表征学习方面的最新工作(张坤目前学术休假,在MBZUAI工作)。张坤团队致力于打通因果关系和人工智能的关系:一方面,他们开发机器学习方法来从观测数据中进行因果结构以及因果表征学习。另一方面,他们从因果关系的角度考虑人工智能中的各种学习问题,包括迁移学习、强化学习、推荐系统、自然语言处理,并希望对因果关系的认知和使用能把人工智能带到一个新的高度。


本文主要包含四个部分。第一部分是对因果发现传统工作的简介并且引入因果表征:何为因果表征学习,其与因果发现关系何在,以及为何需要新方法实现因果表征学习。第二部分着重于介绍因果表征学习的最新研究进展和方法, 包括在独立同分布情形、时间序列、分布迁移情形的情况下如何寻找因果隐变量和它们之间的因果关系。第三部分介绍了在迁移学习和适应性强化学习下的应用。因果表征学习为机器学习提供了更有解释性和更有效的方法。在第四部分,我们介绍了目前的分析工具causal-learn以及对未来研究工作和应用场景的展望。


研究领域:因果表征学习,机器学习,因果发现

张坤团队(黄碧薇、姚巍然、谢峰、郑雨嘉、张坤) | 作者

邓一雪 | 编辑



目录

1. 简介
2. 寻找因果隐变量和它们的关系
2.1 独立同分布情形

(1) 基于Low-rank的方法

(2) 基于GIN的方法

(3) 层级结构学习的方法

(4) 小结

2.2 时间序列
(1) 传统因果发现
(2) 从静态时间序列中寻找因果隐变量和它们的关系
(3) 数据分布变化为时间序列因果表征学习带来的好处
2.3 分布迁移情形

3. 应用

3.1 迁移学习
3.2 适应性强化学习

4. 目前的分析工具以及对未来的展望

4.1 Causal-learn
(1) 平台介绍
(2) 简单上手
4.2 目前的难点和将来的重点





1. 简介




因果表征学习(causal representation learning)是连接因果科学与深度学习的桥梁。近十年来,深度学习(deep learning)成为了计算机视觉(CV)、自然语言处理(NLP)等人工智能(AI)基础领域的核心技术,同时为机器人,无人驾驶,人机交互系统,虚拟现实、生物制药、智慧城市等行业应用进行智慧赋能。深度学习是一种使用神经网络模型,通过梯度反传的信号反馈将非结构化数据,如图片、语言文字等,转化为可被机器处理的表征(representation),并使用这些表征解决识别、理解等下游任务的计算方法。2015年,在由Geoffrey Hinton, Yann LeCun and Yoshua Bengio(图灵奖获得者,深度学习著名人物)共同署名的Nature论文《Deep Learning》中,表征学习 (representation learning)被归为深度学习和现代AI技术取得巨大成功的主要原因。表征学习的目标是将高维的原始数据降维成低维特征,在保留信息的同时过滤掉原始数据中的噪声。


然而,通过扩大数据和模型的规模学得的表征往往只能对数据进行编码、压缩或记忆。这些表征不具有可供机器进行逻辑推理和规划的高阶语义因子(semantic concept),也不具备像人类一样在新环境下灵活解决问题的变通能力和鲁棒性。因此,如何使深度学习能像人类一样进行有意识的推理、思考与判断是下一代AI急需解决的问题。另一方面,因果(causal)模型,提供了一套系统性的、基于统计的因果推理和思考的计算方法。然而,因果模型往往只能处理结构化的数据,并不能处理生活中常见的高维的原始数据,比如图像。于是,将表征学习和因果模型进行融合,将图像这样的原始数据转化为可用于因果模型的结构化变量,赋予AI如同人类一样有意识的推理和思考的能力,成为了因果表征学习这一新兴学科的主要目标。如果我们能解决这个问题,我们就可以很好地将因果推断与机器学习结合起来,构建下一代灵活,可信的AI。


在因果表征学习中,我们通常假设数据是由因果相关的、满足一定条件的结构因果模型(Structural Causal Model,SCM)的因果隐变量,通过非线性的映射来产生。如果因果隐变量和它们之间的SCM能从原始数据中学习,我们就可以估计在干预了这些变量后的数据分布,或推断指定数据点的反事实结果,比如重新组合因果隐变量生成事实中不存在的数据,或者回答Why,What if等需要显式推理的问题。值得注意的是,因果表征学习与因果发现(Causal Discovery)有密不可分的关系。一方面,因果表征学习是在有很多混淆因子(confounder)下的因果发现问题的一个特例。另一方面,在没有领域知识的情况下,学习整个隐变量空间中的结构因果模型是极其困难的。因此,因果发现中常用的假设,比如Sparsity、Minimal Change Principle和Independent Causal Mechansim,通常可以成为因果表征学习的领域知识和使用的归纳偏置(Inductive Bias)[Schölkopf et al., 2021]。


因果发现传统工作简介


寻找因果关系的传统方法是通过随机对照实验。然而,随机对照实验通常需要耗费大量的时间和资源,有时甚至可能涉及伦理问题。例如,基因敲入是一种广泛用于创建疾病模型的技术。通常导致疾病的不是单个基因,而是由多个基因组成的网络。要找到这个网络可能需要太多的实验才能可行。因此,必须寻求替代方法——从观测数据中发现因果关系,称为因果发现(causal discovery),因为观测数据更容易获得。


经典的因果发现方法通常是寻找观测变量之间的因果关系,其大致分为两类。在 1980 年代末和 1990 年代初,人们注意到,在适当的假设下,可以根据变量之间的条件独立性关系恢复潜在因果结构的马尔可夫等价类 [Spirtes et al., 1993]。这产生了基于约束的方法(constraint-based method),该方法利用条件独立性测试(conditional independence tests)和离散搜索(discrete search)来进行因果发现。由此产生的等价类可能包含多个 有向无环图(DAG,或其他表示因果结构的图对象),这些DAG共享相同的条件独立性关系。所需的假设包括因果马尔可夫条件(causal Markov condition)和忠实度假设(faithfulness assumption),这两个假设建立了因果图中的d-分离属性与数据中的统计独立性属性之间的对应关系。相反,基于分数的方法 [Chickering, 2003, Heckerman et al., 1995] 不是使用统计测试,而是搜索在某些评分标准下给出最高分数的等价类,例如采用贝叶斯信息标准 [BIC, Schwartz, 1978]、给定数据的图的后验 [Heckerman et al., 1997] 和广义评分函数 [generalized score, Huang et al., 2018]。


另一组方法是基于函数因果模型(functional causal model, FCM),将效果表示为直接原因 (direct cause) 的函数以及独立的噪声项。研究表明,通过适当地约束模型类,因果方向是可识别的。具体来说,当在正确的因果方向上估计 FCM 时,估计的噪声项与假设原因独立,但在想反的方向上不成立。可识别的因果模型包括线性非高斯无环模型 [LiNGAM, Shimizu et al., 2006]、非线性加性噪声模型 [additive noise causal model, Hoyer et al., 2009, Zhang and Hyvärinen, 2009a] 和后非线性模型 [post-nonlinear causal model, Zhang and Chan, 2006, Zhang and Hyvärinen, 2009b]。但是需要注意的是,如果函数因果模型的函数空间没有约束,则无法识别因果方向,因为总是可以在反向上找到独立于预测变量的噪声项 [Zhang et al, 2015]。


上面介绍的方法已被扩展到更一般的场景。比如说LiNGAM已被扩展到有环的因果图 [Lacerda et al., 2008] 和存在潜在混杂因素的情况 [Hoyer et al., 2008] 。基于LiNGAM拓展的Specific and Shared Causal Relation Modeling [SSCM, Huang et al., 2019] 不仅可以提供整体的因果关系,还可以提供针对个体的个性化的因果知识, 以及基于因果关系来做聚类。同时,研究表明即使存在选择偏差的情况下,因果模型(包括因果方向)也是可能识别的 [Zhang et al., 2016]。


目前的因果发现方法集中在寻找观测变量之间的因果关系, 但是在现实世界的问题中,很多相关的特征可能没有被观察到,并且一些观测变量可能不是潜在的因果变量。例如,我们不能直接将图像像素视为因果变量。因此,正如在第一部分中所说的,我们想从测量的高维变量中学习潜在的因果表征(causal representation),以及它们之间的因果关系,它在通用人工智能和科学领域都是必不可少的。例如,在 AI 中,我们希望从高维视频序列中自动提取底层的低维因果变量或概念,这些变量或概念对于视频理解至关重要,从而促进下游预测或决策任务。在神经科学中,从 fMRI 记录中测量出数以万计的体素,一个关键问题是如何识别和分层聚类潜在的大脑功能区域并发现信息流。


在本篇推送中,我们将结合传统因果发现,从方法,应用和工具角度,详细探讨如何在独立同分布情形、时间序列和分布迁移情形下进行因果表征学习,寻找因果隐变量和它们之间的关系。我们总结了因果表征学习在迁移学习,适应性强化学习的应用。最后,我们对目前的可直接使用的分析工具做简要介绍和并对未来的研究和应用方向进行展望。


References

LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." nature 521.7553 (2015): 436-444.

Schölkopf, B., Locatello, F., Bauer, S., Ke, N. R., Kalchbrenner, N., Goyal, A., & Bengio, Y. (2021). Toward causal representation learning. Proceedings of the IEEE, 109(5), 612-634.

P. Spirtes, C. Glymour, and R. Scheines. Causation, Prediction, and Search. Spring-Verlag Lectures in Statistics, 1993.

D. M. Chickering. Optimal structure identification with greedy search. Journal of Machine Learning Research, 3:507–554, 2003.

D. Heckerman, D. Geiger, and D. M. Chickering. Learning bayesian networks: The combination of knowledge and statistical data. Machine Learning, 20:197–243, 1995.

G. Schwartz. Estimating the dimension of a model. The Annals of Statistics, 5:461–464, 1978.

D. Heckerman, C. Meek, and G. Cooper. Interventions and causal inference. In Innovations in Machine Learning, pages 1–28, 1997.

B. Huang, K. Zhang, Y. Lin, B. Schölkopf, and C. Glymour. Generalized score functions for causal discovery. In KDD, pages 1551–1560, 2018.

S. Shimizu, P.O. Hoyer, A. Hyvärinen, and A.J. Kerminen. A linear non-Gaussian acyclic model for causal discovery. Journal of Machine Learning Research, 7:2003–2030, 2006.

P. O. Hoyer, D. Janzing, J. Mooji, J. Peters, and B. Schölkopf. Nonlinear causal discovery with additive noise models. In Advances in Neural Information Processing Systems 21, Vancouver, B.C., Canada, 2009.

K. Zhang and A. Hyvärinen. Acyclic causality discovery with additive noise: An information- theoretical perspective. In Proc. European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD) 2009, Bled, Slovenia, 2009a.

K. Zhang and L. Chan. Extensions of ICA for causality discovery in the hong kong stock market. In Proc. 13th International Conference on Neural Information Processing (ICONIP 2006), 2006.

K. Zhang and A. Hyvärinen. On the identifiability of the post-nonlinear causal model. In Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence, Montreal, Canada, 2009b.

K. Zhang, Z. Wang, J. Zhang and B. Schölkopf. On estimation of functional causal models: general results and application to the post-nonlinear causal model. ACM Transactions on Intelligent Systems and Technology (TIST), 7(2), 1-22.

G. Lacerda, P. Spirtes, J. Ramsey, and P. O. Hoyer. Discovering cyclic causal models by independent components analysis. In Proceedings of the 24th Conference on Uncertainty in Artificial Intelligence (UAI2008), Helsinki, Finland, 2008.

P. O. Hoyer, S. Shimizu, A. J. Kerminen, and M. Palviainen. Estimation of causal effects using linear non-gaussian causal models with hidden variables. International Journal of Approximate Reasoning, 49:362–378, 2008.

B. Huang, K. Zhang, P. Xie, M. Gong, E. Xing, and C. Glymour. Specific and shared causal relation modeling and mechanism-based clustering. In Advances in Neural Information Processing Systems (NeurIPS), 2019.

K. Zhang, J. Zhang, B. Huang, B. Schölkopf, and C. Glymour. On the identifiability and estimation of functional causal models in the presence of outcome-dependent selection. UAI, 2016.

(参考文献可上下滑动查看)




2. 寻找因果隐变量和它们的关系




按所使用数据的不同性质,下面我们将把近几年提出的因果表征学习的方法分成三类进行讨论,它们分别适用于独立同分布数据、时间序列,以及有分布迁移性质的数据(比如非平稳或异构数据)。

2.1 独立同分布情形


解决含有隐变量 (隐混淆因子) 的一个经典方式是基于条件独立性测试,如FCI (Fast Causal Inference) 算法[Spirtes et al., 1995]。该方法首先借助d-分离准则学习变量间的因果骨架图,然后通过 V-结构和一些定位准则进一步推断变量间的因果方向,最终得到因果祖先图。尽管这类方法在许多领域的到了应用,然而这类方法的输出是观测变量间的因果关系,而忽略了隐变量间的因果关系。近期,研究学者利用适用于隐变量下新的“d-分离准则”,包括Low-rank条件,Generalized Independent Noise  (GIN) 条件等,给出了线性系统下隐变量间因果结构的识别性条件和学习方法,接下来会在本节逐一介绍。

(1) 基于Low-rank的方法


因子分析是解决隐变量间因果结构的经典方法,然而该方法输出的隐变量结构不能够保证是背后真实发生因果机制的结构[Spirtes et al., 2000; Silva et al., 2006]。Silva等人[Silva et al., 2006]开创性地利用Tetrad条件[Spearman,1928],提出了一种两阶段学习隐变量结构的框架,即BPC(BulidPureClusters)算法+MIMBulid算法。具体来讲:以图1中上的子图为例。第一阶段利用Tetrad条件设计了三种判断测量变量间是否共享同一个父节点的规则从而去学习纯的测量模型(Pure Measurement Model,包含隐变量以及隐变量与测量变量之间的关系),即子图 (a);第二阶段把每个隐变量所对应的测量变量为代理变量,进一步学习隐变量间的因果结构 (Structural Model,包含隐变量及其因果关系),即子图 (b)。

图1:两阶段学习隐变量间因果结构示例图。最上面为真实因果图;子图(a)第一阶段所学模型,即测量模型;子图(b)子图(a)第二阶段所学模型,即结构模型。


该研究证明了如果每一个隐变量至少有三个及其以上纯的测量变量(该变量有且只有一个隐变量作为其父节点),那么隐变量间的因果结构可通过测量变量去识别,输出结果达到Markov等价类。之后,为了高效地学习隐变量间的因果结构,Kummerfeld等人[Kummerfeld et al., 2016]基于更加宽泛的低秩条件[Sullivant et al., 2010],提出了FOFC(FindOneFactorClusters)算法去估计隐变量间的因果结构。

(2) 基于GIN的方法


上一节中方法利用的是变量的协方差矩阵的秩的约束(second-order statistics),忽略了变量中隐含的非高斯性 (High-order statistics),导致部分因果信息被丢失。例如图2中的因果结构,包含4个隐变量和8个观察变量,上述的方法无法从这8个观察变量中去恢复隐变量间的因果结构。对于变量的非高斯而言,首先我们注意到非高斯性是可以根据观察数据轻松地检验此假设。此外,正如Cramér [1962]所述的Cramér分解定理,与高斯变量不同,非高斯分布的变量预计将无处不在,Spirtes和Zhang也同样在文献[Spirtes and Zhang 2016]中指出非高斯数据的普遍性。

图2:涉及4个隐变量的因果结构,其中Xi,i=1,…,8为观察变量。

为此,Xie等人[Xie et al., 2020 & Cai et al., 2019]根据观察数据的高阶统计量,设计了GIN (Generalized Independent Noise condition) 条件,以刻画潜在隐变量间的分离准则。直观上来说:泛化独立噪声(GIN) 条件是关于刻画观察变量的组合之间是否独立的性质,所以它可以被认为是经典的独立噪声 (independent noise (IN)) 条件的一种扩展。我们发现,通过检验一些GIN条件是否成立,能够帮助找出因果隐变量是否存在,所在位置,以及这些隐变量之间的因果关系。基于此,我们提出了一种两阶段的GIN发现算法,首先去定位隐变量及其个数,其次学习隐变量间的因果关系。

举例来说,如考虑图2中,GIN算法在第一阶段中定位到背后存在三组隐变量{L1, L2},L3和L4,其中隐变量{L1, L2}包含的子节点(X1, ..., X4)都相同。之后在第二阶段中学习{L1, L2},L3和L4之间的因果关系。

与上一节方法相比,该方法明显的优势是:每一个隐变量所需的纯的测量变量更少,且隐变量间的因果方向都是可识别的。最近Chen等人[Chen et al., 2022],考虑噪声是任意分布情况下,分析并给出了第二步中变量间因果方向识别的充分必要条件。

(3) 层级结构学习的方法(latent hierarchical structure)


本小节继续考虑发现隐藏的因果变量及其它们之间的因果关系问题。相较于上述两个小节的模型,这里考虑更加宽泛的一种模型设定,允许一些隐藏的变量没有直接观察的变量作为其子节点,如图3中的隐变量L1。为解决该问题,最近Xie等人[Xie et al., 2022]提出了一种最小层级结构的充分条件,并证明了在该条件下,线性非高斯的隐变量层级结构是可以通过部分观察变量完全识别的,包括隐变量的个数及其因果结构关系。

图3:一个涉及9个隐变量(Li, i=1,…,9)和15个观察变量(Xi, i=1,…,15)的层级因果结构。


具体来讲,该研究首先定义了一种充分的最小隐变量层级结构条件(minimal latent hierarchical structure condition):(1) 每一个隐变量至少有三个邻居节点;(2) 每一个隐变量至少有两个纯的子节点(该节点可以是隐的也可以是观察的)。研究证明:在线性非高斯系统下,如果最小隐变量层级结构条件成立,那么系统背后所有的隐变量及其因果关系可以仅有的观察变量去恢复。研究提出的LaHME算法包含以下两个步骤:步骤一:迭代地定位所有潜在隐变量的过程,包括(i) 从当前活动变量集中识别因果类 (共享共同父节点的集合);(ii) 确定需要为这些因果类引入的新潜在变量的数量;(iii) 更新活动变量集三个子过程。步骤二:推断已识别潜在变量之间的因果结构,包括识别潜在变量之间的因果顺序和去除多余的边两个子过程。如考虑图3,在LaHME算法步骤一中,第一次迭代我们会发现结构中最下面一层的6个隐变量,即L4, ..., L9。之后我们迭代地找出剩余的隐变量。LaHME算法的步骤二中,我们需要进一步确定隐变量间的因果关系,如L2与L5,L3与L8的关系。值得注意的是:如果背后的因果结构是一种经典的Tree-based结构,那么利用LaHME算法中的步骤一,我们就可以完全恢复背后的因果图,不需要进行步骤二的操作。

需要注意的是,本研究不需要提前已知系统背后隐变量的个数及其层级结构的层数。如果我们提前已知背后隐变量的个数,那么根据Adams等人[Adams et al., 2021]给出的充分的必要可识别性条件,我们可以通过部分观察变量,利用完备的ICA算法恢复其背后的隐变量层级结构。最近Huang等人[Huang et al., 2022]利用数据协方差矩阵的rank约束(二阶统计量),证明了在一些图结构的限制下,所提出的算法可以渐近地找到隐层级结构所对应的马尔可夫等价类。相较于上述GIN-based方法,该方法允许系统含有multi-factor的情形,即多个节点共享两个或者以上的隐节点。

我们知道因果关系对扰动具有鲁棒性,具有编码系统中的不变性,从而能够有效地推理其行为在环境中的影响。该研究对一些机器学习的任务,如图片识别问题,有重要的影响意义。这是因为往往产生因果关系的变量是一些的高级的隐的因果特征,而非直接观察的变量,如像素。因此问题就变成了找到背后真正发生因果关系的因果特征,从而推断这些特征间的因果关系,学习隐变量层级结构的问题。

(4) 小结


这一章节给出了如何从少量的观察数据中学习线性系统下的隐变量因果结构问题,给出了其结构可识别性的条件和估计算法。然而目前的研究仍然存在一些不足,如需要假定所有的观察变量不能够影响隐变量,即测量假设。第二个不足是结论是仅限于线性系统下的隐变量结构学习,如何估计非线性因果模型下的潜在隐结构并未给出。一个可行的方法是借鉴经典的非线性模型框架,如后非线性模型 [Zhang & Hyvärinen, 2009]去探索解决。

2.2 时间序列


(1) 传统因果发现: Granger causality


格兰杰因果关系检验(Granger causality test)是一种在无干扰因素的情况下,用来寻找时序变量之间的因果关系的方法。Granger causality test由2003年诺贝尔经济学奖得主Clive W. J. Granger所开创,常可用于分析经济变量之间的因果关系。格兰杰因果关系检验的基本观念在于:(1) 未来的事件不会对目前与过去产生因果影响,而过去的事件才可能对现在及未来产生影响。也就是说,如果我们试图探讨变量X是否对变量Y有因果影响,那么只需要估计x的落后期是否会影响y的现在值和(2)cause variable需要包含effect variable里独特非冗余的信息。假如在控制了Y变量的过去值以后,x 变量的过去值仍能对Y 变量有显著的解释能力,我们就可以称X能“Granger 影响”(Granger-cause) y。


在算法实现上,我们可通过非参数估计(Nonparametric)的方式,比如在PC algorithm上加上时序限制,即只允许因果方向从过去指向未来并在做独立检验时去除未来信息的方式来添加Granger temporal constraints。我们通常用线性自回归模型Vector autoregessive model进行简化。

值得注意的是,在使用Granger causality test寻找因果关系时,我们必须使用结构化数据,即数据中直接含有所有因果变量(causal variable)。当观测数据中的变量不存在直接因果关系,而是由因果隐变量或者干扰因素(counfounder)产成的,如视频数据,Granger causality test不能直接使用。

(2) 从静态时间序列中寻找因果隐变量和它们的关系


在上一章节,我们讨论了传统因果发现的方法的适用场景。然而,如果我们想从大多数实际时序信号数据,如视频数据,中寻找因果关系,Granger causality是不能直接使用的。在这种情形下,我们观测到的时序变量,即视频中每帧的像素,它们之间并不存在直接的因果关系。这些时序变量(像素)往往是由具有时序因果关系的因果隐变量或干扰因素生成的。在这种情型下,我们需要做因果表征学习,从时间序列中寻找因果隐变量,并且识别它们之间的时序因果关系。在一般情况下,我们可以通过表征学习学得低维的数据表征,但我们无法保证能恢复真正的因果隐变量。在本章节中,我们将探讨在[Yao et al., 2021 & 2022]中提出的两种从静态时间序列中寻找因果隐变量和因果关系的方法。


Linear Latent Causal Processes with Generalized Laplacian Noise


在传统因果发现中,Linear Non-Gaussian模型通常是我们期望的模型假设。在这种假设下,我们通常可以实现可识别,有保障的因果发现。我们首先将这种Inductive Bias加在Latent空间 [Yao et al., 2021],假设实际的隐变量与其落后期之间满足线性假设(LNM)。观测到的数据Xt则是隐变量Zt的非线性(但可逆)的映射。另外,只要我们假设因果过程中的噪声(Process Noise)之间互相独立,且满足Genenralized Laplacian分布(一种Non-Gaussian模型假设)。通过理论推导,我们发现只要将这些假设转换为Variational Autoencoder (VAE)的参数化的方式,我们就可以有保证地恢复因果隐变量和它们之间的因果关系。

Linear Latent Causal Processes with Generalized Laplacian Noise模型假设


我们首先在KiTTiMask数据上验证我们的理论的模型。KiTTiMask是一个记录行人步行的视频数据集,其包含的三个因果隐变量,即行人在视频中的横向位置,纵向位置和行人在视频中的大小,它们之间满足独立线性时序关系并且噪声可近似成Laplacian Noise。下图中,实验结果验证了我们的模型能在独立线性时序关系的时序数据中恢复出因果隐变量。

KiTTiMask实验结果:(a)恢复的隐变量和真实因果隐变量之间的相关系数;(b)恢复的因变量和真实因果隐变量之间的散点图;(c)恢复出来的因果关系矩阵;(d)Latent traveral展示因果隐变量如何影响图像内容。


下一步,我们在二维质量弹簧系统视频数据上验证我们的理论和模型。质量弹簧系统满足线性假设。我们人为的在数据生成过程中在横向和纵向上加上独立的Laplacian Noise,使生成的数据满足我们的条件。下图中,实验结果验证了我们的模型能在线性时序关系的时序数据中恢复出因果隐变量和它们之间的因果关系。

质量弹簧系统视频数据实验结果:(a)恢复的隐变量和真实因果隐变量之间的相关系数;(b)恢复出来的因果关系矩阵。




Nonparametric Latent Causal Processes


在上小节中,我们探讨了在时序因果隐变量和其落后期之间满足线性关系时,如何通过模型假设和添加归纳偏置的方式恢复因果隐变量和它们之间的关系。然而,线性假设是一种很强的函数形式假设,许多时序数据并不满足隐变量之间的线性假设。在这个小节,我们继续讨论在因果隐变量之间满足非线性,甚至非参数化(Nonparametric)的形式下,如何实现因果表征学习 。

Nonparametric Latent Causal Processes模型假设

与上小节相同,我们仍假设数据Xt则是隐变量Zt的非线性(但可逆)的映射。不同的是,我们不再对时序因果隐变量之间的关系或噪声分布形式做任何参数化假设。然而,天下没有免费的午餐。非参数化(Nonparametric)的假设必然需要别的代价和条件来补偿。通过理论推导 [Yao et al., 2022],我们发现在引入了因果关系指数导数之间的线性独立条件(Linear Independence Condition)后,除了Linear Gaussian Model之外的Latent Process,都有极大可能满足该线性独立条件。该条件可广泛使用于时序因果表征学习,在非参情况下寻找因果隐变量和它们的关系。

(3) 数据分布变化为时间序列因果表征学习带来的好处


在上一章节中,我们讨论了在静态时序环境下的因果表征学习。下一步,我们将继续探讨在数据分布发生变化的情况下,我们该如何恢复因果隐变量和它们的关系。值得注意的是,我们的分析是在能探测到分布变化的假设下进行的。即在恢复隐变量过程前,我们已知何时数据发生分布变化和哪种类别(class)的变化,比如域索引(domain Index)是已知的。我们的研究重是如何有效利用这些分布变化实现有效的因果表征学习,而不是检测分布变化。在LCD-NM [Yao er al., 2022]中,为了更简洁地描述不同domain之间分布的区别,我们分别引入在transition和observation function上的低维causal change factor

相关阅读

  • 新加坡南洋理工大学材料学院徐梽川课题组招博士后

  • 招聘岗位新加坡南洋理工大学材料学院徐梽川课题组招博士后1名应聘要求(1)取得国内外高校博士学位或已通过博士学位答辩者;(2)专业:电催化,CO2还原,热催化,化学,材料专业;(3)有一定电化学
  • George Ellis 经典论文:自上而下的因果与涌现

  • 导语这篇论文主要从机制层面讨论了自然界中的自上而下的因果和涌现,并提出了五种主要的自上而下的因果机制,即基于算法的、非自适应信息控制的、自适应选择的、自适应信息控制
  • 固氮位点,Nature Chemistry!

  • ▲第一作者:Edward D. Badding通讯作者:Daniel L. M. Suess通讯单位:美国麻省理工学院论文doi:https://doi.org/10.1038/s41557-023-01154-901背景介绍理解Mo固氮酶(铁钼辅基)催

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章