大数据深刻改变因果推断格局,曾有学者主张“只要相关,不要因果”,认为大数据重预测、轻因果机制探究,此观点源于大数据时代初期认知局限。从学界看,传统因果推断方法主要适配小数据,而大数据的规模性、快速性、多样性等特征,使得通过传统方法探寻因果关系较为困难,数据相关性等描述性统计技术是数据使用首先需要解决的问题。从业界看,企业借助大数据相关性高效预测市场、提升竞争力,如互联网公司推荐系统、金融机构机器学习模型,皆聚焦挖掘相关性而非因果性以实现商业价值。历经十数年发展,大数据多模态、动态性凸显,催生生成式人工智能等新技术,这一新趋势既对现有因果推断研究方法提出了挑战,也带来了新机遇。
大数据生成的独特性
导致因果推断困局
多模态大数据独特的生成与获取方式犹如一把双刃剑,在为研究提供丰富资源的同时,也使因果推断面临诸多难题。
多模态大数据常为全样本数据。传统统计学因数据收集处理能力有限,靠随机抽样推断总体特征,发展出相应技术。大数据时代,人们能够获取包含文本、音频、视频、传感器等多种形式的多模态全样本数据,信息全面,但处理难度大,需高效算法和分析方法,如并行计算、分布式算法等。不过,虽数据样本“全”,但生成过程却有“偏”,有时无法代表整体人群。如互联网平台数据涵盖所有用户,可平台用户本身就具有一定自选择性,这会导致相应估计结果的外部效度需要仔细讨论。而现有数据插补方法,如生成对抗网络或自编码器等无法解决数据生成过程造成的样本缺失、偏差问题。
此外,多模态数据多为二手、非实验性数据,源自人类社会自然生产、生活,生成过程不受控,数据获取易受人为干预和技术限制,难以进行反事实因果推断。如社交媒体数据受用户行为、平台算法影响,交通数据因区域经济、天气条件存在差异,导致某些模态数据的分布出现严重偏倚,使得因果推断中混杂变量的问题更加复杂。数据有偏性不仅会影响单一模态内变量间的因果关系,还可能在多模态数据整合过程中引发更复杂的效应。例如,在医疗领域,病人的核磁图像与电子病历结合使用时,如果不同模态数据的采集时间或设备条件不一致,可能导致因果推断中的数据失配问题,从而影响诊断结果的准确性和可信性。
大数据的复杂结构
使传统因果推断方法失效
传统因果推断方法基于单一模态小数据,要求数据结构清晰、变量关系简单、因果路径直接。多模态大数据的结构特性有别于传统小数据,迫切需要发展新的因果推断方法。
首先,数据量剧增使已有方法前提条件失效。例如,在社会网络研究中,传统方法多采用随机抽样收集关系数据,被访者之间彼此独立。但大数据技术能够获取整体网数据,相互联系的节点违反了样本独立同分布假设,回归结果会有偏。但基于网络依赖关系发展出来的新方法,如指数随机图模型,主要基于网络结构参数以模拟的方法构建样本空间,在对网络形成、效果进行因果推断方面有所不足。大数据导致现有方法在考虑网络节点依赖性和有效因果推断方面无法有效兼顾。
其次,数据多模态异质性会加剧因果推断的复杂性。因果关系可能发生在数据结构迥异的不同模态数据间,数据整合时会面临分布不一致等问题。例如,视频数据是时序的,而文本数据通常是离散的;传感器数据可能是高频采样,而图像数据却是低频采集。因此,需设计能学习不同模态间潜在表示的模型,利用互补性增强因果推断准确性。然而,现有研究方法较难对不同模态的数据进行联合表示。学者们尝试利用深度学习中的多模态嵌入技术、跨模态对齐等方法设计统一的特征表示空间,对不同模态数据的相似性进行学习,降低数据不一致性和异质性。不过,虽然机器学习能发现模式,但其“黑箱”特性使得明确的因果解释依然存在困难。
最后,多模态大数据的动态性使得研究者可以实时进行干预。小数据研究主要基于静态历史数据,干预方案事前设计。但现实社会处于不断动态变化中(如金融市场),多模态大数据常以数据流的形式实时生成,需要动态更新因果关系模型。大数据的实时处理能力使得研究人员可以在数据生成、收集和干预过程中及时调整研究设计,通过数据实时采集(如社交媒体流等),结合动态因果模型(如动态贝叶斯网络),快速捕捉变量之间因果关系的动态变化。
多模态大数据驱动混合研究范式重构
多模态大数据的兴起为弥合长期以来定性与定量研究的分野提供了前所未有的可能性。定量和定性研究方法由于数据结构、分析工具等的差异,常常被割裂开来,难以实现真正的融合。多模态大数据因为样本全面性、多样性和跨模态的整合能力,为混合研究方法的充分应用提供了坚实基础,能够更有效地解释复杂的社会事实。
首先,多模态大数据在数据形态方面天然具有融合定量与定性数据的能力。多模态意味着定量数字、定性文本等数据可以共同进入分析框架,有利于混合研究方法设计。一是同步对不同模态材料进行分析。例如,将大数据与定性材料结合,可以克服数据驱动因果研究的局限性,更深入地理解相关性背后的因果机制。二是使用某一模态数据对其他模态数据的估计结果进行补充或拓展。三是使用不同模态数据对量化估计结果进行矫正,更好地保证外部效度。
其次,多模态大数据为因果推断注入了语境化视角,将因果推断从传统的统计关联扩展到深层的语境关联。定性材料提供了丰富的语境信息,而定量数据则具有较强的普适性与概括性,二者通过多模态数据能够实现有机融合。例如,在社会不平等研究中,定量分析可能只能揭示某些结构性变量(如职业和收入)的关联,但无法充分探索多重因果路径。而多模态数据则可以通过计算机视觉方法提取视频与图像数据中的职业向量维度,通过自然语言处理技术对招聘文本大数据进行语义分析,结合调查数据、定性材料,构建更加复杂的因果模型,不仅可以识别出社会不平等的结构性根源,还能揭示其在个体生活中的具体表现和形成过程。
因果推断是社会科学追求真理的立足点,20世纪90年代开始的因果革命远未结束,多模态大数据对已有研究范式提出挑战,也带来了社会科学研究的新机遇,为因果分析提供了前所未有的丰富资源和新范式可能。一方面,其要求开发更先进的因果推断方法,以处理海量数据的异质性、动态性等问题;另一方面,打破了单一模态数据的限制,能够有效整合定性和定量研究,也促进了更广泛的跨学科合作,使社会科学、计算机科学和数据科学能够联手发展新理论和新方法。
(本文系国家自然科学基金面上项目“正负网络嵌入性对企业技术创新的影响机制研究:基于海量多源异构合作和诉讼数据”(72372127)阶段性成果)
(作者系西安交通大学人文社会科学学院教授)