偏最小二乘—二阶因子模型在综合变量构建问题的研究

被引量 : 0次 | 上传用户:hua6952
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:为了突破独立性假定和主观赋权的局限,兼顾真实数据的结构特征,文章提出偏最小二乘—二阶因子模型(Partial Least Square Second-order Latent Variable Model,PLS-SLVM),解决综合变量的构建问题。二阶因子模型(Second-order Latent Variable Model,SLVM)作为构建综合变量的模型基础,其测量模型和结构模型分别展示了可测变量与潜变量间、潜变量间的结构关系。偏最小二乘(Partial Least Square,PLS)作为构建综合变量的估计方法,不要求可测变量间相互独立,保证权重赋值的客观性。与简单线性相加相比,PLS-SLVM较难理解,运算较为复杂,但PLS-SLVM放宽了独立性假定,兼顾变量间真实的相关关系和结构状态,提高了综合变量的分类准确性,为企业管理与绩效评价等方面提供方法学指导。
  关键词:综合变量构建方法;二阶因子模型;偏最小二乘估计;简单线性相加
  一、 引言
  综合变量构建方法需要满足全面性、目的性、可比性、层次性、科学性等基本原则。综合变量必须反映综合评价问题的各个方面,必须紧紧围绕综合评价目的展开,保证研究结论的确反映了评价意图,必须保证对每个研究对象的公平性和可比性,不能有倾向性的侧重某些研究对象。综合变量的构建过程必须关注综合评价指标体系的层次性和结构性。这种层次性和结构性一方面体现在综合变量架构的设计上,另一方面则体现在不同指标间关系的明确量化。综合变量构建过程的层次性和结构性必须以综合变量构建方法的科学性为前提。从元素到结构,从计算内容到计算方法都必须科学、合理、准确。科学的综合变量构建方法一定是客观的、严谨的,是经得起推敲的。从真实数据出发,有效避免人为干预,严格把握构建方法的适用条件,保证分析结果和研究结论的客观性和严谨性。
  简单线性相加作为一种简单易懂、方便操作的综合变量构建方法。它要求所有条目间、不同条目所属方面间均相互独立,一般默认等权或人为赋权。这种强假设条件和主观的赋权方式直接影响研究结论。本文提出的PLS-SLVM可以改进这些方面的不足,完成综合变量的构建。
  二、 PLS-SLVM的提出
  1. 提出依据。目前,国内外常用的综合变量构建方法不少于几十种。尽管各种方法在原理、适用范围、优劣点方面有所不同,但大体上可以分为两类:一类是主观赋权,即采用综合咨询评分的定性方法确定权重,比如简单线性相加、层次分析法、综合指数法等。另一类是客观赋权,即根据各指标间的数值关系确定权重,比如主成分分析、因子分析等等。这些常用的综合变量构建方法存在一些共性的特点。主观赋权法普遍具备简单易懂、清晰明了、方便操作的特点,客观赋权法则有效规避了主观赋权法在权重确定方面不够客观的缺陷,利用数据信息构建各指标变量间的层次关系和相互关联。此外,不同的综合变量构建方法都存在着不同的局限性。层次分析法的评价结果因判断矩阵的不同而异,而且利用九级分制对指标的两两比较很容易出现矛盾,综合指数法较难确定比较标准,而且评价结果对比较标准过于依赖。而主成分分析法在主要主成分的涵义和个数的确定方面都存在一些质疑。涵义界定的是否清楚直接关系到对结果的解释清晰度和评价可信度。而根据方差贡献率选择的主要主成分毕竟不能代表全部数据信息,尤其在主成分是无序变量时,主成分综合评价函数会导致错误的结论。相比之下,虽然因子分析同样利用了降维的思想,但是因子分析需要满足因子间不相关的假设条件,通过坐标轴不同程度的旋转会得到不同的因子,而且因子载荷有时为负值,不易解释。显然,如果用因子分析寻找变量间的潜在结构,构造综合变量存在一定的问题。
  简单线性相加作为综合变量的构建方法之一,主要存在以下两个方面的不足:
  第一,简单线性相加假定所有条目间、不同条目所属方面间均相互独立。在实际应用中,某几个条目间可能存在独立关系,但所有条目间相互独立很难成立。试想,如果真实世界中所有条目间相互独立,则统计学中讨论变量间相关关系和因果关系的方法将无法使用,数据挖掘和机器学习的许多方法将失去研究基础。不同条目所属方面的独立性假定,削弱了综合变量本身可能存在的结构形态。不同方面间可能存在着一定的相关关系,这种相关性通过综合变量可以得到进一步的解释,表现为共同受到的潜在因素的影响。
  第二,简单线性相加采用默认等权或主观赋权法,加入人为干预,不够客观。主观赋权因人而异,不同的专家给出不同的权重。主观赋权没有考虑不同人群的特征,不同的人群可能有相同的权重。这种主观而“普适”的权重赋值方式直接影响综合变量的研究结论和评价效果。赋权方式应该是基于客观数据的,是兼顾人群特征的,是参与数值计算过程始终的。尤其在挖掘和探索综合变量不同方面间结构关系,通过先验信息决定权重削弱了对实际数据的提取和利用。
  真实世界的可测变量间往往不相互独立。综合变量的构建需要真实反映综合变量的内涵与逻辑结构,有效避免简单线性相加等主观赋权法对非客观数据因素的依赖性。相比之下,PLS-SLVM从真实数据出发,不要求所有条目间相互独立,揭示条目间实际存在的相关关系和结构形态。选择客观的权重赋值方式,有效避免人为干预,经过权重和得分的相互作用和反复调整,完成综合变量的所有数值计算工作。PLS-SLVM的提出,突破了简单线性相加的局限,提供了一种新的综合变量的构建方法。
  2. SLVM。作为综合变量构建方法的模型基础,SLVM根据变量是否可以直接观测,将模型中的变量分为可测变量和潜变量。SLVM的提出将变量是否可以直接观测这一属性和变量间的结构清晰的展示出来。一阶因子表示的是可测变量共同反映的某个方面,二阶因子是一阶因子的综合体现,反映的是一阶因子共同受到的影响因素。比如,在评价企业家领导力、企业战略绩效、企业资本等问题时,二阶因子可以作为综合变量,反映这些评价课题不同方面共同收到的影响因素。SLVM的表达形式如下:   xjh=?姿jh?孜j ?着jh(1)
  ?孜j=?茁j?浊 ?啄j(2)
  (1)式为测量模型,它反映的是可测变量xjh与一阶因子?孜j间的关系。?姿jh是载荷系数,表示一阶因子?孜j对可测变量xjh的影响。?着jh为第j个一阶因子?孜j中第h个可测变量xjh的测量误差,均值为0,方差为?啄2jh,且与一阶因子?孜j不相关。
  (2)式为结构模型,它反映的是一阶因子?孜j与二阶因子?浊间的关系。?茁j是路径系数,表示二阶因子?浊对一阶因子?孜j的影响。?啄j为第j个一阶因子?孜j的测量误差,均值为0,方差为?啄2j。
  3. PLS。为了避免联合分布的假定,可以采用PLS估计SLVM中的因子得分和系数。算法的基本思想如下:
  首先,标准化一阶因子(?孜j-mj)的外部估计Yj。一阶因子的外部估计是指利用可测变量的线性组合对一阶因子进行逼近。标准化一阶因子(均值为0,标准差为1)以中心化的可测变量的线性组合表示:
  Yj∝[?撞?棕jh(xjh-xjh)](1)
  标准化一阶因子最终可写为:
  Yj∝[?撞■jh(xjh-xjh)](2)
  一阶因子的估计为:
  mj=?撞■jhxjh=Yj mj(3)
  ■jh被称为外生权重。
  其次,标准化二阶因子(?浊-m)的内部估计Z。二阶因子潜变量的内部估计指的是利用因子间的某种数学关系,对一阶因子的外部估计值进行调整的过程。内部估计Z被定义为:
  Z∝?撞eiYi(4)
  内生权重ei指在模型中有箭头连接的两个因子的关系,它有路径加权方法、重心方法、因子加权方法三种方法可以选择,本文采用重心法,即ei等于Yj与Yi的相关系数的符号。
  第三,更新一阶因子与可测变量间、二阶因子与一阶因子间的权重。本文利用(7)式更新一阶因子与可测变量间的权重?棕j,利用(8)式更新二阶因子与一阶因子间的权重e。
  ?棕j=(X′jXJ)-1X′jXJ(5)
  e=(Y′jYJ)-1Y′jZJ(6)
  初始的权重可以任意的赋值,然后进行上述的迭代计算,直到收敛为止。常用的收敛判断标准为:相邻两次的权重估计值相差小于10-5。
  因此,PLS算法的迭代步骤如下:
  步骤1设定初始权重?棕jh=1,计算向量Yj的初始值为?撞(xjh-xjh),通过(4)式,可以得到Z的估计值;
  步骤2根据Z的估计值,通过公式(5)和(6),可以计算出新的权重?棕j和e;
  步骤3利用计算得到的?棕j和e,依次通过(2)和(4),分别得到新的Yj和Z;
  步骤4再回到步骤1,指导计算收敛为止,则最终得到的?棕j和e作为权重,最终得到的和作为一阶因子Yj和Z二阶因子得分。
  三、 PLS-SLVM的研究结论
  1. PLS放宽了对数据分布的要求。综合变量构建中的估计方法有最大似然(ML)估计法和偏最小二乘(PLS)估计法两种方式。最大似然法固然可以估计出权重和系数,但是要求数据服从对称的联合正态分布。但在实际研究中,数据多为不对称的偏态分布。因此该方法科学性的基础受到限制。偏最小二乘估计算法(PLS)通过内外部关系调整、迭代,计算得到潜变量的值,对数据没有联合正态分布的要求,因此更适于企业管理和绩效评价的实证研究。偏最小二乘(PLS)估计不要求数据服从正态分布,可以采用Bootstrap方法构造置信区间,计算均值、标准差、置信上限和置信上限,构造95%置信区间检验各个参数的合理性(显著性)。为验证大样本情况下满意度指数PLS估计的稳健性与可行性,采用Bootstrap法进行五组模拟实验:根据满意度指数模型生成样本量为100 000的模拟数据,分别利用Bootstrap法抽取样本量为5 000、10 000、20 000、30 000和50 000的随机子样本,每组模拟重复500次抽样。将每组模拟数据的模型估计结果平均值、全数据(100 000条)一次估计和模拟数据参数真值进行比较,研究发现Bootstrap法随机估计的方法优于全数据的一次性估计。
  2. 兼顾变量相关性,突出结构状态。简单线性相加有两种赋权方式:一种是默认权重为1,假定不同可测变量与潜变量间、潜变量与潜变量间的关系相同;另一种是主观赋权,采用专家打分等方法对权重赋值。无论采用哪种赋权方式,可测变量与潜变量间、潜变量与潜变量间的权重均没有从真实数据出发,没有考虑变量间的相关性。而且,这两个赋权过程是相互独立的,彼此互不影响。
  PLS-SLVM对路径系数和载荷系数的估计不是两个相互独立的过程。在全盘考虑条目间关系的基础上,通过不断的内部调整,更新内生权重,通过不断的外部调整,更新外生权重,反复迭代,最终估计出路径系数和载荷系数。不同可测变量与潜变量、不同潜变量间数量关系的明确量化突出了综合变量的结构形态。
  3. 减少因子得分趋同的可能性。因子得分可以表现不同研究对象在某个方面的表现,如果不同研究对象的某个因子得分相同,则说明研究对象在该方面的表现没有区别。但是,也可能是方法本身造成因子得分的过度趋同。若二阶因子宗气指数得分过于趋同,则会影响综合变量对结果的判断和评价;若一阶因子得分过于趋同,则不利于综合变量排名的影响因素的探索,无法研究综合变量得分相同的各一阶因子的得分及构成特点,更不利于研究综合变量得分不同的各一阶因子的得分及构成特点。
  事实上,综合变量构建方法本身也会对因子得分产生影响,选择二阶因子模型可以更好的区分不同研究对象的各阶因子的水平。这是因为,二阶因子模型计算因子得分的过程中要通过外部调整和内部调整,利用可测变量与一阶因子间的权重(载荷系数)、一阶因子与二阶因子间的权重(路径系数)不断调整外部估计和内部估计,迭代所得。而简单线性相加则是对可测变量进行权重为1的一次性加和,如果每个可测变量均采用量表打分的方式,取值范围均为{1,2,3,4,5},更易出现因子得分趋同的结果。此外,二阶因子模型中各个权重系数之间的差异也是增加因子得分区分度的因素之一。   4. 提高综合变量分类准确性。综合变量构建方法的好坏,直接影响综合变量对不同结局的识别能力和分类效果。为了进一步探讨简单线性相加方法和PLS-SLVM在这些方面的表现,本文借助受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC),计算AUC和判对率,评价综合变量的区分度和分类准确性。
  因子得分作为重要的估计结果之一,是绘制ROC曲线的基础。因子得分的研究,并不止于比较绝对数值的大小,而在于对相对信息的分析和探索,关注不同研究对象的相对位置,因此,对因子得分取秩是获得相对信息的途径之一。无论是对因子得分本身还是取秩后进行研究,PLS-SLVM都为综合变量分类准确性的提高提供了可能。研究表明,PLS-SLVM提高了综合变量的判对率,增加了分类准确性。
  四、 结论
  综合变量构建方法的好坏,关键在于多指标结合为综合指标的统计方式的选择。一种好的统计方式应该放宽独立性假定,突破主观赋权的人为干预,考虑真实数据的结构特征。SLVM设定了可测变量与潜变量间、潜变量间的结构关系。PLS算法不要求可测变量间相互独立,完成了载荷系数、路径系数及因子得分的估计。SLVM与PLS的结合,改进了简单线性相加在强独立性假定和主观赋权方面的不足。
  研究表明,PLS-SLVM作为一种综合变量的构建方法,不仅在构建过程中兼顾变量间的相关关系和结构形态,而且提升了综合变量的分类准确性,可以用来判断或预测不同研究对象的所属类别。
  此外,偏最小二乘—二阶因子模型作为一种非参数的估计方法,没有分布假定,不必计算结构模型中的所有关系。因此,当样本量较少时,不会出现无法识别的问题,而且会得到相对较高的统计功效。随着样本量的增加,偏最小二乘—二阶因子模型的估计精度越高。当存在缺失数据时,该算法在一定程度上具有较高的稳健性。偏最小二乘—二阶因子模型可以适用于度量数据、二分类数据等数据类型,但是在测度分类内生变量时,存在一定的局限性。无论模型是否复杂,因子(潜变量)是通过单个还是多个可测变量进行测度,因子与可测变量间关系是形成型还是反映型,偏最小二乘算法都较为适用。而且,随着可测变量个数的增加,该算法的估计有偏性会降低。此外,与极大似然估计方法相比,尽管偏最小二乘估计算法没有全局拟合优度评价指标,但是却可以得到因子得分。当样本量足够大时,可以借助Boostrap方法构造置信区间,计算均值、标准差、置信上限和置信上限,构造95%置信区间检验各个参数的合理性(显著性)。
  但是,并不是所有的综合变量构建问题都可以用PLS-SLVM来解决。当一阶因子间存在中高度关联性,一阶因子测度的是同一个问题的同一个水平,二阶因子能够反映并解释一阶因子所受到的共同影响时,才考虑采用SLVM。尤其在样本量较小、待估参数较多的情况下,PLS-SLVM可以保证模型的可识别性和模型的简化。
  参考文献:
  [1] 侯杰泰,温忠麟,成子娟.结构方程模型及其应用[M].北京:教育科学出版社,2004.
  [2] 高文杰,高旭.基于SEM的我国重要城市现代化水平综合评价模型研究[J].数学的实践与认识,2010,(18).
  [3] 罗玉波,王玉翠.结构方程模型在竞争力评价中的应用综述.技术经济与管理研究,2013,(3).
  [4] 孙继红,杨晓江,缪榕楠.我国高等教育发展统计特征的PLS通径模型分析.数理统计与管理,2010,(2).
  [5] 王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.
  基金项目:2012年中医药行业科研专项(项目号:2012468005)。
  作者简介:易丹辉(1948—),女,汉族,湖南省汨罗市人,中国人民大学统计学院教授、博士生导师,研究方向为风险管理与保险、预测与决策;程豪(1989—),男,汉族,山西省长治市人,中国人民大学统计学院博士生,研究方向为结构方程模型、社会网络、数据挖掘。
  收稿日期:2015-12-12。
其他文献
一般纳税人的增值税核算,涉及内容繁多,包括多种处理方式,常使人感到棘手.本文试图分析其核算思路,以利于正确地贯彻税法.
针对某剧场采用的混凝土灌注桩基础,提出低应变动态检测方法和单桩抗压静载检测方法,并通过分析检测结果,对桩的质量提出了全面客观的评价.
针对某办公楼部分框架梁出现开裂的现象,介绍了对此事故进行的鉴定和处理方法.
随着电子计算机在会计工作中的应用,会计电算化作为一种新型的会计核算和管理方式得到迅猛发展。企业在建立电算化会计系统后,会计业务处理程序和工作组织发生了很大的变化,给企
利用哲学原理分析了现行抗震理论产生过程,认为现行抗震理论产生过程违反了哲学原理.
《企业会计制度》规定,企业购入或以支付土地出让金方式取得的土地使用权,在尚未开发或建造自用项目前,作为无形资产核算,并按照《企业会计制度》规定的期限分期摊销。企业因利用