本文是针对论文《Machine learning in the Chinese stock market》的一篇摘译,该论文的作者为Markus Leippold、Qian Wang和Wenyu Zhou,其于2021年发表于《Journal of Financial Economics》。
摘要
本文通过使用多种机器学习算法构建和分析一套全面预测收益的因子组合,补充了中国股市中新兴的实证资产定价文献。与以往针对美国市场的研究相比,流动性成为最重要的预测指标,这使我们能够仔细研究交易成本的影响。散户投资者的主导地位对短期可预测性有积极影响,尤其是对小盘股。此外,中国市场区别于美国市场的另一个特点是,大盘股和国有企业在较长时期内具有很高的可预测性,即使在扣除交易成本后样本外绩效仍然显著。
关键词:中国股市;因子投资;机器学习;模型选择
01
介绍
截至2020年10月,中国股市的总市值已攀升至历史最高水平,成为全球第二大股市。同时,中国股市的特殊性对学术研究具有吸引力,有助于理解新兴市场的问题。首先,与机构投资者主导的发达市场不同,中国股市由散户投资者主导,这一特征可能会使集体投资行为产生的技术指标大于公司基本面对股价的影响。其次,中国金融体系是由中央控制、银行主导和独特的关系驱动,因此本文研究了政府信号对回报可预测性和投资组合绩效的影响。最后,中国市场有做空限制,多空因子投资策略并不完全适合,因此本文还分析了只做多的投资组合。
目前,中国市场没有大型的因子收益数据库。因此,本文通过构建一组独特而全面的因子组合,为中国的实证资产定价研究做出贡献。本文共收集了1160个预测信号,包括90个股票水平特征、11个宏观经济变量和一组行业虚拟变量。第一步,采用与美国市场相同的方式构建了一组因子;第二步,对其中的一些因子进行调整,使其适合中国股市;第三步,引入中国股市特有的因子,使其有助于解释中国A股定价过高。
02
数据和方法
本文从Wind数据库中获取上海和深圳股票交易所上市的所有A股股票的每日和每月股票收益,从CSMAR数据库下载相应的季度财务报表数据,数据样本涵盖了从2000年1月20日至2020年6月的3900多只A股股票的交易信息。此外,本文还从CSMAR数据库获得了中国一年期政府债券的收益率,以此代表无风险利率。
利用这些数据,本文构建了一个股票水平预测特征的大型集合,共包括94个特征,其中86个已在Green等人(2017)中记录,4个是先前研究中发现的中国股市特有因子,还有4个是表示上市公司所有权类型的二元变量,用于子样本分析。为了避免异常值,本文将所有股票水平特征按时段进行横截面排序,并将其映射到[−1,1]。就数据频率而言,有22个股票水平特征每月更新,51个特征每季度更新,6个特征每半年更新,15个特征每年更新。并且,本文利用CSMAR和国家统计局网站下载的数据构建了11个宏观经济预测因子,包括股息率(dp)、股息支付率(de)、每股收益(ep)、账面市值比(bm)、净股本扩张率(nits)、市场波动率(svar)、期限利差(tms)和通货膨胀率(infl),市场流动性(mtr)、M2增长率(m2gr)和国际贸易量增长率(itgr)。此外,还包括了80个行业虚拟变量。
在整个分析过程中,本文采用了一般加性预测误差模型来描述股票超额收益与其相应预测因子之间的关系,即:
假设股票i的预期超额收益率ri,t+1取决于t期的信息,即:
股票由i=1, ...,Nt表示,月份由t=1, ...,T表示,g(·)的函数形式未定。预测因子向量zi,t包含股票i的特征,股票特征与11个宏观经济预测因子之间的交互项和一组虚拟变量组成,可以表示为:
其中,ci,t是股票水平特征的90×1向量,xt是宏观经济预测因子的11×1向量,di,t是虚拟变量的80×1向量,⊗表示Kronecker乘积。虚拟变量集包括80个行业虚拟变量,因此zi,t中的协变量总数为90×(11+1)+80=1160。
总的来说,本文考虑了11种机器学习方法以及两种简单的线性模型,包括了普通最小二乘(OLS)回归、仅使用规模、账面市值和动量作为预测因子的OLS(OLS-3)、偏最小二乘法(PLS)、最小绝对收缩和选择算法(LASSO)、弹性网络回归(Enet)、梯度增强回归树(GBRT)、随机森林(RF)、可变子样本聚合(VASA)和一到五层的神经网络(NN1-NN5)。将数据分为三个不相交的时段:训练样本(2000–2008)、验证样本(2009-2011)和测试样本(2012–2020)。本文使用训练样本估计特定机器学习模型的模型参数,然后根据验证样本中的观察结果选择使目标损失函数最小化的超参数,测试样本包含验证样本之后接下来12个月的数据,用于测试模型的预测性能。
03
实证分析
首先通过样本外R2探索模型的预测性能,并讨论不同子样本的可预测性。
3.1 样本外可预测性
对于给定的模型S,可以定义为:
其中τ表示仅基于测试样本的预测集,{rˆi,t}(i,t)∈τ是预测的月度收益。正如Liu等人(2019年)所指出的,最小的30%的公司通常在规避严格IPO约束的反向合并中充当潜在的空壳,因此,本文还根据公司规模构建了两个子样本。
表1报告了不同子样本预测模型的月度样本外预测R2(以百分比表示):(1)全样本;(2)不包括市值最低30%公司的样本;(3)仅包括市值最低30%公司的样本;(4)每股平均市值前70%公司的样本;(5)仅包括每股平均市值最低30%公司的样本;(6)国有企业;(7)非国有企业。其中,“+H”表示使用Huber损耗而不是I2损耗来训练模型,如下表所示。
表1 不同模型和子样本的月度样本外预测R2结果
3.1.1 全样本分析
在全样本情况下,OLS模型的R2oos为0.81%,表明即使是最简单的模型也有一定的预测能力。OLS-3模型的R2oos略低于OLS模型,说明仅三个协变量(规模、账面市值和动量)不足以解释线性模型中的所有预测能力。对于包括PLS、LASSO和Enet在内的正则化模型,R2oos的改进直接反映了降维的有效性,能够将样本外R2提高到1%以上,也表明一些股票特征对于预测中国股市的月度回报是多余的。VASA的R2oos与正则化线性模型的R2oos具有可比性,很可能是因为将我们将VASA与线性子模型结合使用,与PLS在形成预测因子的线性组合方面有许多相似之处。我们还可以看到,树模型(GBRT和RF)以及五个神经网络模型将R进一步提高到2%以上,证明机器学习方法在捕捉预测因子之间复杂相互作用方面的优越性。
此外,就月度R2oos而言,机器学习方法在中国市场的可预测性要比在美国市场强得多。两个市场在R2oos的显著差异使我们不得不考虑他们之间的根本区别。我们认为,可以归于两个关键方面,一方面是中国股市的大部分散户投资者偏好小盘股,另一方面中国股市受国有企业的影响,而国有企业的透明度低于民营企业。接下来,本文将分别探索这两方面。
3.1.2 大小盘股票
为了观察模型可预测性中的潜在异质性,本文对小盘股(每月市值最低的30%股票)和大盘股(每月市值最高的70%股票)进行了分组分析,其结果如表1所示。明显看出,所有模型对小盘股都有较好的预测性能,尤其是树模型和神经网络模型,GBRT的R2oos最高,为7.27%。但是,对于大盘股的可预测性却下降了,OLS、RF甚至GBRT的R2oos为负,这表明他们很容易被所有时期所有股票零回报的“天真预测”所控制。
3.1.3 大小股东
上述结果表明,机器学习方法能够很好地预测小盘股的月收益率。然而,目前尚不清楚散户投资者是否在产生这种差异方面发挥了重要作用。为深入了解可预测性和散户投资者之间的联系,本文计算每股平均市值,即A.M.C.P.S.=市值/股东人数,并根据70%阈值分为两组分析。通过考察这两组样本外的R2来研究模型的可预测性,如表1所示。这些结果表明,机器学习方法,特别是PLS、随机森林和神经网络,在小股东股票样本中具有更好的预测性,因为小股东股票的R2oos显著大于大股东股票。在LASSO、Enet和VASA模型上,两个子样本的表现相似。然而,与大股东股票相比,OLS-3在小股东股票样本中产生的预测性要差得多,这意味着传统的三因素模型可能不适用于中国的小股东股票。尽管由于缺乏数据,无法准确确定每只股票散户投资者的普遍程度,但本文认为每股平均市值仍然可以作为一个有用的指标,有助于揭示模型可预测性与散户投资者角色之间的关系。
3.1.4 国有企业和非国有企业
总体而言,表1的结果表明,国有企业和非国有企业股票的R2oos表现类似于我们对市值最低30%和市值最高70%公司的分析。这种相似性的部分原因在于,中国国有企业往往拥有巨大的市场资本,因为它们通常代表着银行、基础设施和军事等基础行业的主导企业。同时,我们还得出结论,机器学习模型,尤其是树模型和神经网络,在中国股市的样本外R2方面表现较好。并且,其结果揭示了两个重要的中国股票市场特征:第一,在几乎所有模型中,中国市场小型(非国企)股票的月收益率都比大型(国企)股票更好预测;第二,就R2oos而言,神经网络可以在不同的子样本中提供稳健的性能。
3.1.5 年度水平的可预测性
接下来,本文将研究模型在年度水平上的预测性能,表2报告了不同模型和子样本的年度样本外预测R2。结果显示,年度样本外R2高于月度R2,这表明机器学习方法可以在更长的时间内成功分离出持续风险溢价。与之前月度观察结果对比,我们发现,在年度范围内,可预测性方面的差异并没有那么大,趋于平稳,但是现在市值最高70%的股票比市值最低30%的股票表现出更好的预测性,大盘股可预测性的提高可能是由于国有企业可预测性的提高。
表2 不同模型和子样本的年度样本外预测R2结果
在表3中比较了不同子样本的平均月度和年度样本外预测R2。结果显示,对于美国股市而言,当从月度时间范围移动到年度时间范围时,小盘股的可预测性似乎比大盘股改善得更多,而中国股市的情况则正好相反,大盘股、大股东持股和国有企业股票的可预测性要比小盘股、小股东持股和非国有企业股票好得多,揭示了中美市场之间的一些显著差异。本文认为这主要是由于散户投资者在短期内的主导作用和政府举措造成的,而政府举措可能主要有利于国有企业。
表3 神经网络模型NN1到NN5的样本外预测R2平均值结果
注:括号中的数字是除OLS外的所有模型样本外预测R2的平均值。
3.2 哪些预测因子很重要?
鉴于预测因子数量众多,本文区分了宏观经济变量和股票特征,观察哪些预测因子更重要。
3.2.1 宏观经济变量
表4报告了11个宏观经济变量基于R2的相对变量重要性。对于给定的模型,变量重要性之和为一,所有值均以百分比表示。
表4 11个宏观经济变量在不同模型中的相对变量重要性
在图1中汇总了每个宏观经济变量在模型中的变量重要性。总体而言,我们发现通货膨胀率(infl)和净股本扩张率(nits)是预测中国股市月收益率最具影响力的两个宏观经济变量,尤其体现在神经网络模型中。另一方面,股息率(dp)、市场波动率(svar)、每股收益(ep)、期限利差(tms)和市场流动性(mtr)不太重要,因为它们被大多数模型所忽略。
图1 11个宏观经济变量的变量重要性
3.2.2 股票特征
并非所有股票特征在预测股票收益时都同样重要,它们的重要性在很大程度上取决于预测模型。因此,图2说明了基于全样本所有股票特征的总体重要性。通过计算每个模型中每个预测值基于R2的变量重要性,并将其从高到低排序,以此反映股票特征对模型的贡献度,其中每列中的颜色渐变表示影响最大(深蓝色)到影响最小(白色)的变量。
图2 所有模型的股票特征重要性
3.3 替代模型选择
使用样本外R2进行模型选择在实践中可能不是很好,因为一些预测模型可以接近样本外R2,但在实际中表现非常不同。为了解决这个问题,我们使用Li等人的conditional superior predictive ability(CSPA)检验进一步研究了模型的条件预测能力。这使我们能够比较机器学习方法在不同宏观经济环境下的表现。
表5报告了在USPA和CSPA检验下对给定模型的拒绝次数。USPA检验结果表明,原始的OLS模型和改进的OLS-3模型表现较差,总拒绝次数最多。GBRT、RF、NN3、NN4和NN5模型的无条件预测性能均优于它们的替代方案,但USPA测试未能区分它们的表现。CSPA的检验结果表明,NN1、NN4和NN5的CSPA检验拒绝总数最小。此外,NN4和NN5在大多数宏观经济条件下表现非常良好。因此,CSPA检验使我们能够更全面地区分VASA、NN2和正则化线性模型的预测性能,提供了这些模型不如NN4和NN5有利的统计证据。
表5 USPA和CSPA检验下对给定模型的拒绝次数
3.4 研究NN4的可预测性性能
先前的分析表明,神经网络在可预测性方面似乎优于其他模型。这些算法经常被提到的缺点是缺乏可解释性。因而我们更深入地研究了预测性能的驱动因素。为此,我们关注NN4模型产生的小型和大型股票的月和年R2值的显著差异,使用这个神经网络进行投资组合分析。
图3 相关变量的重要性
在图3中的面板A,我们利用NN4绘制了20个最重要变量的差异,以预测月度水平上的前70%和底部30%的股票。当我们从大型股转向小型股时,三个最重要的变量不会改变顺序:(1)chempia,代表行业调整后的员工变动,并成功应用于美国市场;(2)std_dolvol,衡量日交易量的标准差,作为流动性的代表;(3)atr是针对中国的流动性因素。其还揭示了在NN4模型下,基本变量对较小股票的可预测性影响较小的普遍趋势。
虽然这三个变量对大型和小公司的月内同样重要,但图3面板B中的结果表明它们在这两组中的影响每年下降。面板B表明,虽然前三个变量同样重要,但对大多数其他变量的相对重要性都发生了变化;其次,max_ret也发挥了更突出的作用,这一事实证实了我们的猜想,即散户投资者会显著影响小型股的价格动态;最后,我们的NN4模型强调了这一中国特定趋势因素对小型股月度预测的重要性,最后得出投机效应往往会在更长的范围内消失。
图4 变量类别的相对重要性
为了提供关于相对差异的进一步见解,图4中的面板C表明,小型股票和大型股票的年度预测的相对重要性差异持平。我们只发现了C_bpr和C_size的一些差异。这一发现与小型股票和大型股票的R2值的微小差异产生了很好的共鸣。
04
投资组合分析
本节将分析这种可预测性是否可以在考虑中国市场卖空限制和其他限制的投资组合策略中得到利用。
4.1 投资组合分类
我们考虑了两种类型的机器学习投资组合。第一个是多-空投资组合,通过购买预期回报最高的股票和卖出最低的股票来构建一个零净投资组合。其次,我们也包括了只持有多头的投资组合,它只持有前十分之一的股票。
表6 基于完整样本的机器学习投资组合的性能
表6报告了价值加权的多-空投资组合和仅多头投资组合的样本外表现。为了便于比较,我们还报告了所有股票权重相同的1/n投资组合的表现。研究结果表明,机器学习技术,特别是神经网络模型,有利于投资组合水平的预测。
图5 机器学习投资组合的累积收益(完整样本)
图5展示了以市场指数CSI300作为基准时,由不同方法构建的三个投资组合的累积收益的演变过程。神经网络模型在所有三种投资组合类型中都主导着竞争对手。VASA虽然简单,但被证明是第二好的方法,仅次于NN4。
4.2 不包括小型股
作为稳健性检查,我们基于前70%的子样本重复之前的投资组合分析。表7表明,基于前70%的大型股票的机器学习投资组合的表现与完整的样本相似。然而,所有的投资组合都获得较低的平均月回报率、夏普比率、标准差和极端负的月回报率,因为小型股被排除在外。然而,机器学习方法仍然在简单的OLS-3模型和1/N组合中占据主导地位,神经网络表现最好,其次是正则化的线性模型和树模型。因此,这些结果证实了机器学习方法在中国股市上也具有出色的投资组合级预测能力。
表7 基于前70%样本的机器学习投资组合的性能
4.3 国有企业的表现
研究国有企业的可预测性如何在不同的投资组合策略中表现出来是很有趣的。在表8中,我们展示了多-空投资组合和仅多头策略的结果。
比较表8中的结果和表7中的结果可以发现,首先,就夏普比率而言,多-空策略的表现远远高于排名前70%的股票,对于只有多头的投资组合,1/N的投资组合确实表明国有企业股票的下跌风险大于前70%的股票。
表8 基于国有企业的机器学习组合的性能
4.4 交易成本
为了评估投资组合表现的经济意义,我们最终必须将交易成本纳入分析,并且考虑了两种交易方案来量化滑移的规模。第一个是价格依赖于给定月第一个交易日前30分钟的时间加权平均价格(TWAP),第二种方法估计了交易量加权平均价格(VWAP),此外,我们通过计算交易股票交易量的5%来提供市场能力的粗略估计。
表9 机器学习投资组合的滑动
表9报告了TWAP、VWAP和市场能力的一些相关汇总统计数据。平均而言,TWAP和VWAP与开盘价格的总偏差约为10bps。事后计算表明,25bps可能是对正常时期中国股票市场交易成本的合理估计。然而,考虑到在某些极端情况下,滑动可能高于10bps,我们采用了一种保守的方法,考虑交易成本为20、40、60和80bps,以考虑交易成本对投资组合表现的影响。
表10 包括交易成本的投资组合表现
在表10中,当我们包括不同水平的交易成本时,我们报告了每月的回报和夏普比率。事实证明,由于我们的策略频率低,投资组合仍然提供相当可观和经济显著的表现。因此,我们的交易成本分析表明,即使在对交易成本规模的保守假设下,不同策略的性能仍然具有经济意义。
4.5 日价限额
每日限价规则在世界各地的证券交易所被广泛使用,特别是在新兴市场,希望它们能作为一种市场稳定机制。表11报告了仅有多头的投资组合的结果。事实上,我们发现回报和夏普比率仍然很高。例如,对于NN4,夏普比从1.78下降到1.70。因此,总的来说,我们的结果仍然符合包含价格限制规则。
表11 对机器学习投资组合的影响
05
结论
我们研究了几种机器学习方法在中国股市上的预测能力。我们发现,最关键的因素是基于流动性的交易信号。令我们惊讶的是,基于价格动量的信号只起到了次要作用,基本因素是第二大最关键的因素类别。我们还发现,散户投资者的短期主义在短期投资领域产生了实质性的可预测性,特别是对小型股。同时,由于政府信号在中国市场中发挥着如此重要的作用,我们观察到国有企业在较长期内的可预测性大幅提高。
我们的投资组合分析表明,短期内的高可预测性转化为多-空投资组合的高夏普比率。特别是,神经网络和VASA在2015年中国股市崩盘期间也提供了强劲的表现。然而,在中国市场上卖空股票并不现实。因此,我们也分析了仅限多头投资的投资组合,发现其表现仍然具有经济意义。我们还提出了一种执行事前模型选择的新方法,从而产生了显著的性能。总的来说,我们证明了机器学习方法可以(甚至更多)成功地应用于与美国市场具有完全不同特征的市场。
还木有评论哦,快来抢沙发吧~