论文部分内容阅读
[摘 要]股票收益受很多因素影响,比如市场环境、行业发展、投资者预期等。“多因子模型”中的因子即影响因素,该模型就是寻找对股票收益率影响显著的因素,用这些因素来分解股票收益并进行选股。在量化选股的实践中,由于市场环境的多变性及市场参与者或分析师的不同理解,会构建出不同的多因子模型。文章在简述多因子模型的理论基础后,叙述了多因子模型构建过程,从而为量化选股提供方法。
[关键词]量化选股;多因子模型;因子有效性
[DOI]10.13939/j.cnki.zgsc.2021.25.031
随着大数据时代的来临以及多种基础金融理论的不断发展,量化投资获得了必要的理论来源和支持,而多因子模型也顺势成为量化投资选股的重要方法。
1 多因子模型概述
1.1 多因子模型的基本概念
多因子量化选股模型指的是在选股过程中利用多个对股价走势有显著且有效影响的因子,通过量化不同因子对股票收益率的影响,建立起选股模型。
1.2 多因子模型的理论基础
1.2.1 CAPM模型
1952年马柯维茨用均值和方差来定量描述资产的收益和风险,建立了基本模型以用于确定最佳资产组合。后来,夏普等人在他的理论基础上,发展出了CAPM模型。模型公式:E(ri)=rf+βi(E(rm)-rf), 该模型表明资产的预期超额收益与市场超额收益成正比,股票的价格只与市场风险有关,跟上市公司基本面并没有关系,并且高的股价需要高的β值来支撑。
1.2.2 套利定价理论
由于CAPM模型假设条件过于苛刻,后来的学者们打破原有假设,导出套利定价理论(APT模型)。模型公式:E(ri)=rf+bi1F1+bi2F2+…+binFn, binFn为证券i第n个因素的敏感度。该模型比CAPM模型的假设更宽松,但是无法从模型中获知哪些因子起到决定性的作用。
1.2.3 Fama-French三因子模型
经过学者们的研究,很多现象不再可以用CAPM模型来解释,比如市场中的小市值、价值股表现明显超过市场。故Fama及French在CAPM模型的基础上加入了新的因子来解释资产的收益率。三因素模型表明收益率不仅与市场风险有关,还与账面市值比的模拟组合的收益率、市值因子的模拟组合的收益率有关。
1.2.4 四因子模型
研究者后发现市场中的动量现象无法用三因子模型解释,所以在原有三因子的基础上加入动量效应,即某个时段连续上涨或下跌的股票往往会沿着原来的方向继续波动,由此构建四因子模型。
1.2.5 五因子模型
先前的模型并没有引入刻画公司资产质量的因子来解释资产收益率,由此加入了代表盈利能力的RMW因子和代表投资模式的CMA因子,提出了五因子模型。
2 多因子模型的构建
2.1 模型构建前的数据处理
原始数据的选取是多因子模型的基础,只有高质量的数据才能保证后续研究的准确,数据预处理的好坏很大程度上决定了模型分析结果的可靠与否,所以在模型构建前需要对基础数据进行处理。
2.1.1 异常值处理
在实际使用过程中,应该根据具体情况来选取合适的方法。
(1)均值标准差修正法(3σ)。在统计学上,由于在正态分布下正负3倍标准差以外的数值发生的概率极小,可以视作小概率事件,小概率事件几乎不可能发生,因此这一部分值可以被视作异常值。
该方法实用性强,可以识别出较大的异常值。但是缺点也显而易见,首先是基于异常值数据计算的均值和方差,会造成μ的不准确,且可能会放大σ,导致上下界过宽,无法筛选部分异常值。其次是不适用于非正态的数据集。
(2)MAD 法。考虑到上种方法判断异常值时均值和方差的计算容易受到异常值的影响,使得识别异常值不准确,进而考虑使用中位数对均值進行替代、绝对值的中位数对标准差进行替代,是一种更稳健的异常值识别方法。
(3)固定比率修正法。该方法是根据一定的比例对异常值识别,即认为一定百分比的数为异常值。因此该方法定义的异常值为:x∈(-∞, P2)∪(P98, +∞), 其中P2、 P98分别代表排序最接近2%和98%的值。该方法处理方便,适用于两端都存在异常值的情况。但是仅通过比例来筛选异常值,而不以异常偏离程度筛选异常值会导致异常值识别不准确。
(4)箱型图法。箱型图判断异常值也是统计中常用的方法,其主要通过利用上下四分位数构造了上下界,并据此定义异常值,也是一个较为稳健的方法。该方法定义的异常值为:x∈(-∞, L-n×IQR)∪(U+n×IQR, +∞), IQR=U-L, U=上四分位数, L=下四分位数。
(5)偏度调整后的箱型图法。由于上面提到的箱线图法不适用于分布呈偏态的因子数据,假设因子值呈现明显的左偏,而这些因子值基于一定的经济背景是合理的,使用箱型图法会将左边过多的数据识别为异常值。因此对原有箱线图法进行了偏度调整。调整后的箱线图法当数据左偏时会降低下界,数据右偏时会提高上界。
2.1.2 缺失值的处理方法
含较多缺失值的因子通常被认为是一个质量不佳的因子数据集,主要是因为缺失值会导致丢失部分有用的信息,而且会使得系统的不确定性更加显著。因此对缺失值采用合理的处理方法,提升因子数据质量为后续步骤打下坚实的基础。
(1)剔除法。将存在遗漏数据的元素进行删除,得到一个完备的信息表,这是最为简单的一种处理方法。这种方法适用于有大量缺失值的因子,或者存在大量缺失值的股票对象,但前提是这类因子或股票对象相对所有的数据量而言是很小的,否则会因为丢掉这些信息影响到结果的正确性。 (2)填充法。填充法是通过选择一些合适的值取填充空值,而找到合适的值就是决定填充优劣的关键。缺失值填充方法多种多样,如人工填写、特殊值填充、平均值填充等,其中均值填充较为常见。不同类型的公司、不同的比率,因子平均水平也有差异,因而填充方法均存在差异。
2.2 模型因子的选择
2.2.1 候选因子的分类
根据宏观、行业、公司基本面、市场特征,结合各类特异因子来构造投资组合,将影响股价收益的因子大致分为几类,如市场整体类因子、估值类因子、成长类因子、盈利能力因子、动量反转因子、规模类因子等。
2.2.2 候选因子的有效性检验
一般主要采用排序法来检验候选因子的有效性。如每月检验是指在第1个月初计算市场中每个资产的该因子大小,按升序对资产排序,并将全部资产分为N个组合,一直持有到月末,在每月月初都按同样的方法重新构建N个组合并持有到月末,一直重复到期末。
2.2.3 剔除冗余因子
不同的选股因子可能在资产构成和收益等性质上具有极强的一致性,因此其中的一些因子需要作为冗余因子剔除,只保留同类因子中收益最好的一个因子。
2.3 多因子模型的构建及检验
2.3.1 多因子模型中单因子的检验
单因子的检验最常用的有两种方法:多空组合法以及两步回归法。
(1)多空组合法。多空组合法是检验因子最简单直观的方法,在每一个截面上将股票按照因子暴露进行排序,做多排名靠前N分位数股票,同时做空排名靠后的相同比例,构造出多空投资组合,并计算该组合每一期的收益。在构造组合时可以使用等权或者市值加权两种方式。多空组合法简单易行,没有复杂的数学计算,但是也存在很多的问题。
如因子之间存在相关性,只使用一个因子进行构造多空组合无法剔除其他因子的影响,因此得到的结果并不完全是该因子的最终表现。再比如构建多空组合时一般只使用了排名两端的股票,处于中间的股票信息没有得到充分的利用,造成了信息的浪费。
(2)FM两步回归法(以SMB因子为例)。
StepⅠ:时间序列回归。根据因子值构造多空投资组合作为因子收益率,对每个时间段内的全部组合进行回归,收益率与风险因子的风险溢价水平之间进行回归,即Ri-Rf=αi+βiSMB+εi,每个时间段都会获得全部组合的αi和βi。
StepⅡ:横截面回归。计算整个时间内单个组合的平均收益率ERi,用ERi对上一阶段得到的不同股票在不同时间段内得到的估计的β值进行回归,即ERi-Rf=αi+λiβi+μi,得到各个组合的时间序列值λi,并求平均值。
StepⅢ:检验Ⅲ阶段中得到的λi的平均值显著性。
2.3.2 多因子模型的构建
将上述单因子检验后所有确实有效的因子加入模型,构建回归方程,形成多因子模型。
3 模型的评价及利用模型量化选股
3.1 综合评分法
所谓打分法,就是根据各个因子的大小对股票进行打分,在计算各股票的综合得分时,对各因子进行正态标准化处理,按照一定的权重对因子加权得到一个总分,根据总分再对股票进行筛选。
打分法的优点是相对比较稳健,不容易受到极端值的影响。但是打分法需要对各个因子的权重做主观设定相对较困难,需要依靠研究者的经验。而且多因子模型中的因子会逐渐失效,而另一些新的因子可能被驗证有效而加入模型当中,需要定期调整。
3.2 多元线性回归法
所谓回归法,就是用过去的股票的收益率对多因子进行回归,得到一个回归方程,再把最新的因子值代入回归方程得到一个对未来股票收益的预判,再以此为依据进行选股。
回归法的优点是能够及时观察并调整各因子的敏感性,缺点则是容易受异常值和极端值的影响。在线性回归分析中,如果有两个及以上的自变量,称为多元线性回归。
4 结语
多因子量化选股本质是基于大数据的统计分析,将有效影响股票收益率的多个影响因子进行组合,以此作为选股指标来筛选股票。但任何一个多因子选股模型都具有一定的风险性和时效性,需要使用者根据自身实际经验和市场情况进行调整和更新,这是多因子选股策略存在的不足。但多因子选股模型作为一种量化投资选股策略,可以避免交易者个人主观意念的干扰,具有一定客观性,是有其存在意义的。
参考文献:
[1]祁嫣然.量化选股系列报告之一:构建多因子策略的工匠精神[J].民生证券,2020(3):1-32.
[2]魏刚.数量化选股策略之十二:多因子选股策略[J].华泰证券,2011(9):1-24.
[3]蒋瑛琨.数量化研究系列之十八:多因子选股模型之因子分析与筛选Ⅱ——财务质量、价量和一致预期类指标[J].国泰君安证券,2011(10):1-31.
[4]朱世清.多因子选股模型的构建与应用[D].济南:山东财经大学硕士学位论文,2015:1-43.
[关键词]量化选股;多因子模型;因子有效性
[DOI]10.13939/j.cnki.zgsc.2021.25.031
随着大数据时代的来临以及多种基础金融理论的不断发展,量化投资获得了必要的理论来源和支持,而多因子模型也顺势成为量化投资选股的重要方法。
1 多因子模型概述
1.1 多因子模型的基本概念
多因子量化选股模型指的是在选股过程中利用多个对股价走势有显著且有效影响的因子,通过量化不同因子对股票收益率的影响,建立起选股模型。
1.2 多因子模型的理论基础
1.2.1 CAPM模型
1952年马柯维茨用均值和方差来定量描述资产的收益和风险,建立了基本模型以用于确定最佳资产组合。后来,夏普等人在他的理论基础上,发展出了CAPM模型。模型公式:E(ri)=rf+βi(E(rm)-rf), 该模型表明资产的预期超额收益与市场超额收益成正比,股票的价格只与市场风险有关,跟上市公司基本面并没有关系,并且高的股价需要高的β值来支撑。
1.2.2 套利定价理论
由于CAPM模型假设条件过于苛刻,后来的学者们打破原有假设,导出套利定价理论(APT模型)。模型公式:E(ri)=rf+bi1F1+bi2F2+…+binFn, binFn为证券i第n个因素的敏感度。该模型比CAPM模型的假设更宽松,但是无法从模型中获知哪些因子起到决定性的作用。
1.2.3 Fama-French三因子模型
经过学者们的研究,很多现象不再可以用CAPM模型来解释,比如市场中的小市值、价值股表现明显超过市场。故Fama及French在CAPM模型的基础上加入了新的因子来解释资产的收益率。三因素模型表明收益率不仅与市场风险有关,还与账面市值比的模拟组合的收益率、市值因子的模拟组合的收益率有关。
1.2.4 四因子模型
研究者后发现市场中的动量现象无法用三因子模型解释,所以在原有三因子的基础上加入动量效应,即某个时段连续上涨或下跌的股票往往会沿着原来的方向继续波动,由此构建四因子模型。
1.2.5 五因子模型
先前的模型并没有引入刻画公司资产质量的因子来解释资产收益率,由此加入了代表盈利能力的RMW因子和代表投资模式的CMA因子,提出了五因子模型。
2 多因子模型的构建
2.1 模型构建前的数据处理
原始数据的选取是多因子模型的基础,只有高质量的数据才能保证后续研究的准确,数据预处理的好坏很大程度上决定了模型分析结果的可靠与否,所以在模型构建前需要对基础数据进行处理。
2.1.1 异常值处理
在实际使用过程中,应该根据具体情况来选取合适的方法。
(1)均值标准差修正法(3σ)。在统计学上,由于在正态分布下正负3倍标准差以外的数值发生的概率极小,可以视作小概率事件,小概率事件几乎不可能发生,因此这一部分值可以被视作异常值。
该方法实用性强,可以识别出较大的异常值。但是缺点也显而易见,首先是基于异常值数据计算的均值和方差,会造成μ的不准确,且可能会放大σ,导致上下界过宽,无法筛选部分异常值。其次是不适用于非正态的数据集。
(2)MAD 法。考虑到上种方法判断异常值时均值和方差的计算容易受到异常值的影响,使得识别异常值不准确,进而考虑使用中位数对均值進行替代、绝对值的中位数对标准差进行替代,是一种更稳健的异常值识别方法。
(3)固定比率修正法。该方法是根据一定的比例对异常值识别,即认为一定百分比的数为异常值。因此该方法定义的异常值为:x∈(-∞, P2)∪(P98, +∞), 其中P2、 P98分别代表排序最接近2%和98%的值。该方法处理方便,适用于两端都存在异常值的情况。但是仅通过比例来筛选异常值,而不以异常偏离程度筛选异常值会导致异常值识别不准确。
(4)箱型图法。箱型图判断异常值也是统计中常用的方法,其主要通过利用上下四分位数构造了上下界,并据此定义异常值,也是一个较为稳健的方法。该方法定义的异常值为:x∈(-∞, L-n×IQR)∪(U+n×IQR, +∞), IQR=U-L, U=上四分位数, L=下四分位数。
(5)偏度调整后的箱型图法。由于上面提到的箱线图法不适用于分布呈偏态的因子数据,假设因子值呈现明显的左偏,而这些因子值基于一定的经济背景是合理的,使用箱型图法会将左边过多的数据识别为异常值。因此对原有箱线图法进行了偏度调整。调整后的箱线图法当数据左偏时会降低下界,数据右偏时会提高上界。
2.1.2 缺失值的处理方法
含较多缺失值的因子通常被认为是一个质量不佳的因子数据集,主要是因为缺失值会导致丢失部分有用的信息,而且会使得系统的不确定性更加显著。因此对缺失值采用合理的处理方法,提升因子数据质量为后续步骤打下坚实的基础。
(1)剔除法。将存在遗漏数据的元素进行删除,得到一个完备的信息表,这是最为简单的一种处理方法。这种方法适用于有大量缺失值的因子,或者存在大量缺失值的股票对象,但前提是这类因子或股票对象相对所有的数据量而言是很小的,否则会因为丢掉这些信息影响到结果的正确性。 (2)填充法。填充法是通过选择一些合适的值取填充空值,而找到合适的值就是决定填充优劣的关键。缺失值填充方法多种多样,如人工填写、特殊值填充、平均值填充等,其中均值填充较为常见。不同类型的公司、不同的比率,因子平均水平也有差异,因而填充方法均存在差异。
2.2 模型因子的选择
2.2.1 候选因子的分类
根据宏观、行业、公司基本面、市场特征,结合各类特异因子来构造投资组合,将影响股价收益的因子大致分为几类,如市场整体类因子、估值类因子、成长类因子、盈利能力因子、动量反转因子、规模类因子等。
2.2.2 候选因子的有效性检验
一般主要采用排序法来检验候选因子的有效性。如每月检验是指在第1个月初计算市场中每个资产的该因子大小,按升序对资产排序,并将全部资产分为N个组合,一直持有到月末,在每月月初都按同样的方法重新构建N个组合并持有到月末,一直重复到期末。
2.2.3 剔除冗余因子
不同的选股因子可能在资产构成和收益等性质上具有极强的一致性,因此其中的一些因子需要作为冗余因子剔除,只保留同类因子中收益最好的一个因子。
2.3 多因子模型的构建及检验
2.3.1 多因子模型中单因子的检验
单因子的检验最常用的有两种方法:多空组合法以及两步回归法。
(1)多空组合法。多空组合法是检验因子最简单直观的方法,在每一个截面上将股票按照因子暴露进行排序,做多排名靠前N分位数股票,同时做空排名靠后的相同比例,构造出多空投资组合,并计算该组合每一期的收益。在构造组合时可以使用等权或者市值加权两种方式。多空组合法简单易行,没有复杂的数学计算,但是也存在很多的问题。
如因子之间存在相关性,只使用一个因子进行构造多空组合无法剔除其他因子的影响,因此得到的结果并不完全是该因子的最终表现。再比如构建多空组合时一般只使用了排名两端的股票,处于中间的股票信息没有得到充分的利用,造成了信息的浪费。
(2)FM两步回归法(以SMB因子为例)。
StepⅠ:时间序列回归。根据因子值构造多空投资组合作为因子收益率,对每个时间段内的全部组合进行回归,收益率与风险因子的风险溢价水平之间进行回归,即Ri-Rf=αi+βiSMB+εi,每个时间段都会获得全部组合的αi和βi。
StepⅡ:横截面回归。计算整个时间内单个组合的平均收益率ERi,用ERi对上一阶段得到的不同股票在不同时间段内得到的估计的β值进行回归,即ERi-Rf=αi+λiβi+μi,得到各个组合的时间序列值λi,并求平均值。
StepⅢ:检验Ⅲ阶段中得到的λi的平均值显著性。
2.3.2 多因子模型的构建
将上述单因子检验后所有确实有效的因子加入模型,构建回归方程,形成多因子模型。
3 模型的评价及利用模型量化选股
3.1 综合评分法
所谓打分法,就是根据各个因子的大小对股票进行打分,在计算各股票的综合得分时,对各因子进行正态标准化处理,按照一定的权重对因子加权得到一个总分,根据总分再对股票进行筛选。
打分法的优点是相对比较稳健,不容易受到极端值的影响。但是打分法需要对各个因子的权重做主观设定相对较困难,需要依靠研究者的经验。而且多因子模型中的因子会逐渐失效,而另一些新的因子可能被驗证有效而加入模型当中,需要定期调整。
3.2 多元线性回归法
所谓回归法,就是用过去的股票的收益率对多因子进行回归,得到一个回归方程,再把最新的因子值代入回归方程得到一个对未来股票收益的预判,再以此为依据进行选股。
回归法的优点是能够及时观察并调整各因子的敏感性,缺点则是容易受异常值和极端值的影响。在线性回归分析中,如果有两个及以上的自变量,称为多元线性回归。
4 结语
多因子量化选股本质是基于大数据的统计分析,将有效影响股票收益率的多个影响因子进行组合,以此作为选股指标来筛选股票。但任何一个多因子选股模型都具有一定的风险性和时效性,需要使用者根据自身实际经验和市场情况进行调整和更新,这是多因子选股策略存在的不足。但多因子选股模型作为一种量化投资选股策略,可以避免交易者个人主观意念的干扰,具有一定客观性,是有其存在意义的。
参考文献:
[1]祁嫣然.量化选股系列报告之一:构建多因子策略的工匠精神[J].民生证券,2020(3):1-32.
[2]魏刚.数量化选股策略之十二:多因子选股策略[J].华泰证券,2011(9):1-24.
[3]蒋瑛琨.数量化研究系列之十八:多因子选股模型之因子分析与筛选Ⅱ——财务质量、价量和一致预期类指标[J].国泰君安证券,2011(10):1-31.
[4]朱世清.多因子选股模型的构建与应用[D].济南:山东财经大学硕士学位论文,2015:1-43.