ctr 校准 – 闪新闻

什么是ctr校准？

校准(Calibration)指对模型的预估 CTR (或者 CVR 等其它概率问题, 以下统一以 CTR 为例叙述) 通过一定手段进行调整的手段.

为什么要做校准？

通常我们在做CTR预估的时候，预估值会与真实的CTR有偏差bias(高估或者低估)，偏差一般来说有以下两种类型：

预估结果在全量数据上存在Bias(即整体高估或者低估)。
这种情况，一般是由模型收敛存在异常导致，或者数据流存在问题导致。这种情况下，需要解决数据流异常，对模型进行调优来解决。
预估结果在部分流量上存在Bias(如在青年用户上存在高估，在少年用户上存在低估，但全量数据上可能不存在 bias)。
这种情况，又存在两种可能

特征设计不合理，存在有区分度的特征并没有加入到模型中
此时，建议进行进一步的特征工作来解决.
由于部分流量上训练数据不足，导致训练不充分。

下图为一个示例（蓝色点为真实数据, 绿色虚线为预估值），横轴为 ctr 排序后的分桶, 纵轴为该桶内 sum(click)/sum(pctr) 在该图中我们发现，在不同 ctr 水平上，时而存在高估，时而存在低估，在 ctr 的极值附近这种情况更为明显。

CTR预估值与真实值有偏差，并不会影响AUC指标和排序，但是实际使用中往往需要CTR的预估值不仅仅是做到有序，即正样本排在负样本前面，而且需要保证有一定的区分度。

尤其是在广告场景中，ctr 与最终的出价相关，如果模型高估过于严重，则可能会导致严重的亏损或者流量浪费。低估则对广告平台的大盘量有较大影响。

这涉及到一个概念保序和保距。关于保序和保距，可详细看这篇文章：千寻：ctr校准的方式

负采样校准

在使用正负样本数量不对称的数据训练一个预测模型时，比如在训练广告的CTR模型时，训练数据就严重正负样本不对称，负样本可能是正样本的几百倍。

对于这种问题，常用的做法是对负样本进行采样，将采样后的负样本和正样本一起作为训练数据。但这样的训练数据训练出的模型预测概率的均值会比实际的均值要大些。

因为对负样本采样导致训练数据的分布和原始数据的分布不一致了。所以在预测时要对模型预测值进行矫正。

矫正ctr —第一种方法：

首先假设

${p'}$ 是负采样后的预测概率；
${p}$ 表示未采样的预测概率；
$N_p$ 原始的正样本数量；
$N_n$ 采样后的负样本的数量；
${r}$ 表示负样本的采样比例，这个值通常是分数。
$\frac{N_{p}}{r}$ 表示原始的负样本数量。

可以得到：

$\frac{p'}{1-p'} = \frac{N_p}{N_n} \ \ \ \ \ (1) \\ \frac{p}{1-p} = \frac{N_p}{\frac{N_n}{r}} \ \ \ \ \ \ (2) \\ p' = \frac{1}{1+e^{-wx}} \ \ \ \ (3) \$