量化投资中的因子模型，因子暴露，因子收益具体指的是什么？如何使用？

看懵逼了太正常了，我敢保证很多人其实还是很懵逼但是觉得自己看懂了。

我个人感觉，因子模型可以区分以下几个概念：

因子、因子值、因子暴露、因子收益、因子组合

在资产定价领域里，大家假设的是资产的表现是由一些驱动力所驱动的，这些驱动力也被称为因子。或者说，因子和资产的表现是有一定的因果关系的。

这里面， ”表现“和”因子“都是很抽象的概念，和数学一点关系都没有。我们如果想量化这种观点，就需要干两件事：

1、提出恰当的数学模型(model)

2、找到合理的代理变量(proxy)

资产的”表现“（performance）的代理变量，最直白的想法就是用资产的收益率了。

而驱动的“因子”如何量化就千差万别了，量化后的因子，会得到一个“因子值”。

举个例子，我认为股票这种资产的收益率，和它背后公司的财务质量息息相关。这里面，公司的财务质量就是一个影响因子，但是实际分析中，我们需要找到一个合理的变量来量化公司的财务质量，比如ROE和ROA。 ROE和ROA是可以通过财务数据具体算出来的因子值。

通常我们看到的文章中，不会区分因子和因子值，因子值也只是我在这个回答下提出的一个名词，为了加以区别。

“恰当的模型”就是普通的线性模型。为了书写简便，我假设就一个单因子好了,对于第i只股票

$E(R_i)=\alpha_i + \beta_i * \lambda$

（我们谈论的收益都是超额收益，所以去掉了无风险利率）

$\alpha_i$ 表示定价误差

$\beta_i$ 表示因子暴露

$\lambda$ 表示因子收益率的期望

注意等式的两边都是期望，这不是什么回归方程，这就是个等式。

如果用随机变量的方式去想, 我们可以考察时刻t的一个样本：

$R_{i,t}=\alpha_i + \beta_i * \lambda_t+\epsilon_{i,t}$

数理统计学的作用主要就干俩事，利用样本数据进行估计和假设检验。我们有T期数据和N支股票构成了样本，其中资产收益率我们能直接观测到。但是因子暴露和因子收益是要我们利用一些统计方法估计出来，并检验是否显著的。

学CAPM的时候我们对暴露和因子收益率不懵逼，因为CAPM的模型是个单因子模型，使用了市场因子。市场因子的收益率是能直接从市场上观测到的，然后我们利用回归分析，就可以估计出每支股票对市场因子的敏感性。

因子暴露是啥，是弹性，是敏感性，说白了就是当因子的收益率变动一点的时候，对股票的收益率能影响多少。我们有了资产收益率数据和因子收益率数据，做个回归就可以估计出弹性来了。但是对大多数情况，因子暴露和因子收益率根本观测不到哇！这俩货只要有一个能够观测到，另外一个就可以被估计出来，所以这是个先有鸡还是先有蛋的问题。

为了理解这个问题，我们还是先从因子收益入手了。由于因子收益概念还是太抽象，所以我们就把他们具体化一点，提出了因子组合的概念, 也就是每个时刻t，都按照因子的“指导”，构建一个资产组合。

每个时刻t的组合可能不尽相同，但是构建组合的原则是一样的。比如市场组合就很好理解，就是每期按照股票的市值加权构建组合即可。如果我觉得股票代码越吉利越好，我就多买点点股票代码里带8的，带6的，或者连号的股票，这种投资组合就能体现出“代码吉利”这个因子的作用。

最简便的做法，就是使用排序法构建多空组合。具体做法就是在时刻t，按照因子值的大小，对资产进行截面的排序，然后平均分成若干组（比如分成5组），然后取第1组合第5组，每个组内采用等权或者市值加权的方式构建组合，然后做多第五组做空第一组，获得t期的因子收益R_group5-R_group1。有了因子序列之后，直接取平均数就是因子收益率期望的估计。

我认为这里隐含了一个假设，因子值越大，暴露的也越大，虽然不一定是线性关系，但是基本的单调性还是有的。第1和第5组的股票应该代表着对因子有着极大和极小暴露的两组股票，两组股票构建的多空组合，从某种意义上，应该具有强烈的因子暴露。

总结起来，这个最简单的流程是这样的：

计算因子值（比如用ROE表示质量因子）–>利用因子值截面排序构建多空组合–>计算出因子收益率序列–>对历史数据进行时序回归估计出各个股票对质量因子的敏感度，即因子暴露。

考虑以下3种因子来理解因子、因子值、因子收益和因子暴露的区别与联系：

1、传统的风格因子一般由公司特征来表示（质量成长价值），特点是每个时刻t，对每支股票n，都能算出来一个因子值。同一个时刻t的截面上，每个股票的因子值可能不尽相同。

2、市场因子，非传统的风格因子。我们直接跳过了因子值计算的步骤，把市值加权的股票组合当成因子组合，可以直接观测到市场的收益率。

3、宏观因子，对每个时刻t，每支股票共享同一个因子值，比如GDP, CPI等。但是，我们知道，每个股票可能对统一个宏观指标的敏感度不同，也就是暴露不同。比如，我们认为国家GDP增速和股票收益率有关系。如果有三种公司，国难股，国福股和打酱油股。国难股就是对GDP因子暴露为负，国福股就是对GDP因子暴露为正的股票，打酱油股的暴露就是0. GDP下降的时候，国难股会驱动出一些正向收益，而国福股可能下跌然而酱油股和GDP涨跌基本无关。

考虑更严格的因子组合的定义：

1、这个组合只对我们想要的因子有暴露，对其他因子的暴露为0

2、所以满足条件1的组合中，因子组合的特异性方差最小

很可惜，我们排序法获得的多空组合，应该是不严格满足以上2点要求的。而且多空组合这个方法，也仅仅适用传统风格因子。使用截面回归或者Fama-Macbeth回归等方式，可以解出这种纯因子组合。具体流程对理解概念没有帮助，就不在此赘述。

现代的很多多因子模型，直接使用公司特征（ROA ROE之流）的因子值（做过一些标准化处理）作为资产对因子的暴露的proxy，并且发现效果更好（虽然貌似还没人能解释清楚为什么）。比如大家常见的BARRA模型，因子的暴露和因子计算的信号值就是一回事。直觉上也可以理解，我如果认为公司财务质量是驱动股票收益率的动力之一，那么一个公司的财务质量指标越高，就会得到更多的财务质量收益，即暴露更大。

当然可知，一个因子可以用一个因子组合给实例化出来，这个组合除了有收益也自然有风险（波动），那么如果资产对因子有了暴露，除了带来了收益，也同样带来了风险。

总结一下：

我们认为资产的表现受到若干个因子所驱动，暂时假设每个因子驱动力之间都是独立的。

一个因子的收益率，表示一份因子能独立驱动出多少收益率来。

一个资产的因子暴露，表示他承担了多少份该因子的驱动，也就是承担了多大的驱动力。

所以一个资产的收益率就等于承担因子的份数*单位因子驱动出来的收益率的求和。这个资产可以是一支个股，也可以是一些股票的组合。

所谓纯因子组合，就是只收到某单一因子驱动，而不受其他因子驱动的资产组合。所以一个因子的收益率等于纯因子组合股票权重*股票收益率的的求和。

这似乎陷入了一个怪圈。股票的收益分解成因子收益，因子收益又可以分解成股票收益。

以上说法和因子值，以及如何计算因子一点关系都没有！由于现在多因子模型（比如BARRA)，常用传统风格因子的因子值来当做因子暴露，导致大家看不同的书籍论文会对概念产生懵逼感。

资产收益是表象的，因子收益是潜在的。我们可以计算因子值来量化因子，然后使用因子值指导构建因子模拟组合(排序法或者使用因子值代替因子暴露)去估计因子收益率，使因子收益表象化，从而打破了这个怪圈。

来源：知乎 www.zhihu.com

作者：亲爱的龙哥

【知乎日报】千万用户的选择，做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 8 个回答，查看全部。
延伸阅读：
2022 年以来 5 只公募量化对冲基金收益为正，公募量化对冲基金发展前景如何？

量化模型回测会遇到哪些坑？