量化投资中的因子模型,因子暴露,因子收益具体指的是什么?如何使用?

看懵逼了太正常了, 我敢保证很多人其实还是很懵逼但是觉得自己看懂了。

我个人感觉, 因子模型可以区分以下几个概念:

因子、因子值、因子暴露、因子收益、因子组合

在资产定价领域里, 大家假设的是资产的表现是由一些驱动力所驱动的,这些驱动力也被称为因子。 或者说,因子和资产的表现是有一定的因果关系的。

这里面, ”表现“和”因子“都是很抽象的概念, 和数学一点关系都没有。 我们如果想量化这种观点, 就需要干两件事:

1、 提出恰当的数学模型(model)

2、 找到合理的代理变量(proxy)

资产的”表现“(performance)的代理变量, 最直白的想法就是用资产的收益率了。

而驱动的“因子”如何量化就千差万别了, 量化后的因子, 会得到一个“因子值”。

举个例子, 我认为股票这种资产的收益率, 和它背后公司的财务质量息息相关。 这里面, 公司的财务质量就是一个影响因子, 但是实际分析中,我们需要找到一个合理的变量来量化公司的财务质量, 比如ROE和ROA。 ROE和ROA是可以通过财务数据具体算出来的因子值。

通常我们看到的文章中,不会区分因子和因子值,因子值也只是我在这个回答下提出的一个名词,为了加以区别。

“恰当的模型”就是普通的线性模型。 为了书写简便, 我假设就一个单因子好了,对于第i只股票

E(R_i)=\alpha_i + \beta_i * \lambda

(我们谈论的收益都是超额收益,所以去掉了无风险利率 )

\alpha_i 表示定价误差

\beta_i 表示因子暴露

\lambda 表示因子收益率的期望

注意等式的两边都是期望, 这不是什么回归方程,这就是个等式。

如果用随机变量的方式去想, 我们可以考察时刻t的一个样本:

R_{i,t}=\alpha_i + \beta_i * \lambda_t+\epsilon_{i,t}

数理统计学的作用主要就干俩事, 利用样本数据进行估计和假设检验。 我们有T期数据和N支股票构成了样本, 其中资产收益率我们能直接观测到。但是因子暴露和因子收益是要我们利用一些统计方法估计出来, 并检验是否显著的。

学CAPM的时候我们对暴露和因子收益率不懵逼, 因为CAPM的模型是个单因子模型,使用了市场因子。 市场因子的收益率是能直接从市场上观测到的, 然后我们利用回归分析, 就可以估计出每支股票对市场因子的敏感性。

因子暴露是啥, 是弹性, 是敏感性, 说白了就是当因子的收益率变动一点的时候, 对股票的收益率能影响多少。 我们有了资产收益率数据和因子收益率数据,做个回归就可以估计出弹性来了。但是对大多数情况,因子暴露和因子收益率根本观测不到哇! 这俩货只要有一个能够观测到, 另外一个就可以被估计出来, 所以这是个先有鸡还是先有蛋的问题。

为了理解这个问题, 我们还是先从因子收益入手了。 由于因子收益概念还是太抽象, 所以我们就把他们具体化一点,提出了因子组合的概念, 也就是每个时刻t,都按照因子的“指导”,构建一个资产组合。

每个时刻t的组合可能不尽相同,但是构建组合的原则是一样的。 比如市场组合就很好理解, 就是每期按照股票的市值加权构建组合即可。 如果我觉得股票代码越吉利越好, 我就多买点点股票代码里带8的,带6的,或者连号的股票, 这种投资组合就能体现出“代码吉利”这个因子的作用。

最简便的做法,就是使用排序法构建多空组合。 具体做法就是在时刻t,按照因子值的大小, 对资产进行截面的排序,然后平均分成若干组(比如分成5组), 然后取第1组合第5组, 每个组内采用等权或者市值加权的方式构建组合, 然后做多第五组做空第一组, 获得t期的因子收益R_group5-R_group1。 有了因子序列之后, 直接取平均数就是因子收益率期望的估计。

我认为这里隐含了一个假设, 因子值越大, 暴露的也越大, 虽然不一定是线性关系,但是基本的单调性还是有的。 第1和第5组的股票应该代表着对因子有着极大和极小暴露的两组股票, 两组股票构建的多空组合, 从某种意义上,应该具有强烈的因子暴露。

总结起来,这个最简单的流程是这样的:

计算因子值(比如用ROE表示质量因子)–>利用因子值截面排序构建多空组合–>计算出因子收益率序列–>对历史数据进行时序回归估计出各个股票对质量因子的敏感度,即因子暴露。

考虑以下3种因子来理解因子、因子值、因子收益和因子暴露的区别与联系:

1、传统的风格因子一般由公司特征来表示(质量 成长 价值), 特点是每个时刻t, 对每支股票n,都能算出来一个因子值。 同一个时刻t的截面上,每个股票的因子值可能不尽相同。

2、市场因子, 非传统的风格因子。 我们直接跳过了因子值计算的步骤, 把市值加权的股票组合当成因子组合, 可以直接观测到市场的收益率。

3、宏观因子, 对每个时刻t, 每支股票共享同一个因子值,比如GDP, CPI等。 但是,我们知道, 每个股票可能对统一个宏观指标的敏感度不同,也就是暴露不同。 比如,我们认为国家GDP增速和股票收益率有关系。 如果有三种公司,国难股, 国福股和打酱油股。 国难股就是对GDP因子暴露为负, 国福股就是对GDP因子暴露为正的股票, 打酱油股的暴露就是0. GDP下降的时候, 国难股会驱动出一些正向收益, 而国福股可能下跌然而酱油股和GDP涨跌基本无关。

考虑更严格的因子组合的定义:

1、这个组合只对我们想要的因子有暴露,对其他因子的暴露为0

2、所以满足条件1的组合中,因子组合的特异性方差最小

很可惜, 我们排序法获得的多空组合, 应该是不严格满足以上2点要求的。 而且多空组合这个方法,也仅仅适用传统风格因子。 使用截面回归或者Fama-Macbeth回归等方式, 可以解出这种纯因子组合。 具体流程对理解概念没有帮助,就不在此赘述。

现代的很多多因子模型, 直接使用公司特征(ROA ROE之流)的因子值(做过一些标准化处理)作为资产对因子的暴露的proxy, 并且发现效果更好(虽然貌似还没人能解释清楚为什么)。 比如大家常见的BARRA模型,因子的暴露和因子计算的信号值就是一回事。 直觉上也可以理解, 我如果认为公司财务质量是驱动股票收益率的动力之一, 那么一个公司的财务质量指标越高,就会得到更多的财务质量收益,即暴露更大。

当然可知, 一个因子可以用一个因子组合给实例化出来,这个组合除了有收益也自然有风险(波动), 那么如果资产对因子有了暴露, 除了带来了收益, 也同样带来了风险。

总结一下:

我们认为资产的表现受到若干个因子所驱动, 暂时假设每个因子驱动力之间都是独立的。

一个因子的收益率, 表示一份因子能独立驱动出多少收益率来。

一个资产的因子暴露,表示他承担了多少份该因子的驱动, 也就是承担了多大的驱动力。

所以一个资产的收益率就等于承担因子的份数*单位因子驱动出来的收益率的求和。 这个资产可以是一支个股, 也可以是一些股票的组合。

所谓纯因子组合, 就是只收到某单一因子驱动, 而不受其他因子驱动的资产组合。 所以一个因子的收益率等于纯因子组合股票权重*股票收益率的的求和。

这似乎陷入了一个怪圈。 股票的收益分解成因子收益, 因子收益又可以分解成股票收益。

以上说法和因子值,以及如何计算因子一点关系都没有!由于现在多因子模型(比如BARRA),常用传统风格因子的因子值来当做因子暴露,导致大家看不同的书籍论文会对概念产生懵逼感。

资产收益是表象的, 因子收益是潜在的。我们可以计算因子值来量化因子,然后使用因子值指导构建因子模拟组合(排序法或者使用因子值代替因子暴露)去估计因子收益率,使因子收益表象化,从而打破了这个怪圈。

来源:知乎 www.zhihu.com

作者:亲爱的龙哥

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 8 个回答,查看全部。
延伸阅读:
2022 年以来 5 只公募量化对冲基金收益为正,公募量化对冲基金发展前景如何?

量化模型回测会遇到哪些坑?