处理效应异质性分析 机器学习方法带来的机遇与挑战.docx
《处理效应异质性分析 机器学习方法带来的机遇与挑战.docx》由会员分享,可在线阅读,更多相关《处理效应异质性分析 机器学习方法带来的机遇与挑战.docx(17页珍藏版)》请在优知文库上搜索。
1、处理效应异质性是定量社会科学关注的或点。本文以因果随机森林与贝叶斯段加回归树为例,指出以算法为导向的新兴分析手段可以克服模型形式和变量选择的限制,并号虑变量间各种交互关系。因果陵机森林与贝叶斯叠加回归树分别体现r“匹配”和“模拟”的分析逻辑,以帮助研究者勾勒出异侦性处理效应的经验分布并探索该异质性的决定因素。然而,参数设定差异和算法差异都会损害处理效应异质性分析结果的稳健性。、问题的提出社会科学经验研究往往围绕变量之间的关系展开。随着因果推论方法在社会科学领域内的逐渐普及,定量社会科学研窕逐渐从强调相关关系转向强调因果关系(胡安宁,2012;Morgan&Winship,2015).除了常规的
2、平均因果效应之外,越来越多的学芥开始关注处理效应的异版性(谢宇,2(X)8)。这种对于异质性的考察有其社公学基的.一方面,大知的社会学中乂理论都是围绕特定人群的细分展开的,凸显了个体间的异质性。这也就不难理解,在验证和推进这些理论的时候,社会学研究者需要关注处理效应的差异。另一方面,从实践的角度出发,大全的以政策分析为导向的研究关注特定人群之间有差异的处理效应(例如:Heckman&Vyi1.acih2(X)1;Heckman&Garcfa,2017).这与医学研究中日渐兴起的针对特定类型患者的“精准医疗”存在异曲同工的分析逻辑。显然,这类实践导向的分析要求研究者重视处理效应在不同人群之间呈现
3、出的异质性。传统的回归模型通过交互项来分析处理效应异质性(Aikeneta1.,1991).之后方法论的发展则日渐依托了倾向值(propensityscore)的估算,将处理效应异质性问题转为考察处理效应如何随若个体倾向值的变化而变化(XiC&Wu.2005;Xiccta1.,2012:Canicirocta1.,2010:吴晓刚,2008).这些分析方法虽然展示了处理效应异域性估计的多种策略,但各有其不足之处。随着机器学习方法与社会科学因果推断分析的日渐结合,一个前沿的方法论发展方向是使用基T兑法的技术手段来考察处理效应异质性。在此背景卜.,本文希望能够通过系统的梳理,展示社会科学研究在考察
4、处理效应异J贞性时从传统的线性模型到新近的机器学习算法的方法论发展脉络,特别关注不同方法之间的优缺点。在此基础上,本文选取/因果随机森林Ccausa1.randomforests)和贝叶斯强加回归树(Baycsianadditiveregressiontrees)两个以非参数树模型”算法为基础的分析技术,具体介绍其算法原理以及如何克服传统处理效应异域性分析的诸多限制。与此同时,本文也反思了以算法为基础的新兴分析技术可能带来的潜在问题,如因参数设定差异和算法差异而损害处理效应异质性分析结果的稳健性。这种分析异质性处理效应时出现的和健性缺失也可以被称为“异质性的异质性问题。最后,我们以分析中国精英
5、大学教育回报的异质性模型为例,来展示这些方法论的优势和不足。二、处理效应异质性的传统分析:方法概观(一)传统回归模型的交互项分析对于处理效应异质性的探索,传统的分析手段是在某个回归模型中增加交项(Aikene1.a1.,1991)。如果用Y表示因变量,T表示处理变量,C表示某个可能带来处理效应异历性的变量,则交互项模型如模型(1)所示,其中我们关心的系数是03。交互项模型虽然使用广泛,但是相关的方法论研究时其是否能够准确呈现处理效应异质性一直有所质疑(HainmUd1.CreI让,2019)。疑问主要来自两个方面:其一,能够带来处理效应异质性的因素C可能有很多,但是在给定数据的情况下,我们不可
6、能无限制地在模型中添加大盘的交互项。因此,对于交互项的设置便具有一定的主观性甚至随意性.其二,交互项的具体形式(变量C的二次方、三次方项,或者三个甚至更多变量交互的情况)往往也是研究者主观设定的,而这种设定并不必然符合数据生成过程的基本特征。交互关系的更杂性通常不会在常规的双变量交互项分析中涉及。(二)以倾向值为导向的处理效应异质性当倾向值方法逐渐引入定量社会科学研究以后,对于处理效应异质性的考察便逐渐以倾向值为导向展开(Xie&Wu,25:Xiccta1.,2012).所谓倾向值,是指个体接受处理变量某个取值水平影响的概率。假设所有的混渤变量(confoundingvariab1.es)构成
7、矩阵C,那么,倾向值的估计值就是其中y为矩阵C的系数向量。基于帧向值的此种定义,所谓以顺向值为导向的处理效应异质性分析,就是看处理效应如何随着倾向值取值的变化而发生变化。以倾向值为导向的处理效应异质性分析有其独特的优点。例如,这条路径不再看某个特定变量C的作用,而是将所有的C降维为个倾向值Z,进而看顺向值如何异质化处理效应。从这个意义上讲,这一方法克服f上述回归模型交互项的第一个局限。此外,由于处理效应和倾向值构成了一个二维体系,对于它们之间关系的考察也可以突破原有的线性设定,进而采用一些半参数甚至非参数的平滑方法,以应对可能的非线性关系(Kee1.e,2008).这样,回归模型交互项分析的第
8、二个局限便被克服r.具体而言,谢宇和其合作者提出了三种以帧向值为导向的处理效应异质性的分析于段(Xieeta1.,2012:Zhou&Xie,2020)一种被称为细分一多层次法(stratification-mu1.ti1.eve1.method).意指将估知H的倾向值分成不同的取值区间,然后在每个区间内估计处理效应,最后看多个区间的处理效应皇现出何种异质性的变异。第二种方法被称为匹配一平滑法(matching-smoo1.hingmc1.hod),即先通过倾向值匹配,计算每个匹配对(pair)的处理效应,之后,对于这一系列的基于匹配对的处理效应进行曲线拟合,号嚓处理效应如何随着顺向值取值的变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 处理效应异质性分析 机器学习方法带来的机遇与挑战 处理 效应 异质性 分析 机器 学习方法 带来 机遇 挑战