Covariate Shift(协变量转移)是统计学和机器学习中的一个概念,指的是训练数据和测试数据的输入分布(即特征的分布)发生变化的情况。这种变化可能会影响模型在新数据上的表现。
定义:
在协变量转移中,模型的训练数据(通常用 P(X) 表示)和测试数据(通常用 P′(X) 表示)来自不同的概率分布。
P(X)P(X)
P′(X)P'(X)
尽管目标变量的条件分布 P(Y∣X) 保持不变,也就是说,给定输入 X,目标变量 Y 的分布不发生变化。
P(Y∣X)P(Y|X)
XX
YY
数学表示:
训练数据的分布:P(X)
P(X)P(X)
测试数据的分布:P′(X)
P′(X)P'(X)
条件分布不变:P(Y∣X)=P′(Y∣X)
P(Y∣X)=P′(Y∣X)P(Y|X) = P'(Y|X)
在这种情况下,模型在训练数据上学习到的模式可能在测试数据上无法很好地推广,因为输入的分布发生了变化。
示例:
定义:标签转移指的是训练数据和测试数据的输出分布发生变化,而输入分布保持不变。即 P(Y)P(Y)P(Y) 发生了变化,但 P(X)P(X)P(X) 不变。
数学表示:
训练数据的标签分布:P(Y)
P(Y)P(Y)
测试数据的标签分布:P′(Y)
P′(Y)P'(Y)
输入分布保持不变:P(X)=P′(X)
P(X)=P′(X)P(X) = P'(X)
示例:在某些情况下,训练数据可能只包含某些特定类别的样本,而测试数据中可能有不同类别的样本。例如,训练时模型可能只接触到猫和狗的图像,而测试时则可能出现兔子、鸟等其他动物的图像。
定义:概念转移指的是输入与输出之间的条件分布发生变化,即 P(Y∣X)P(Y|X)P(Y∣X) 发生了变化,但输入分布可能会保持不变。
数学表示:
条件分布变化:P′(Y∣X)=P(Y∣X)
P′(Y∣X)≠P(Y∣X)P'(Y|X) \neq P(Y|X)
示例:假设你正在训练一个模型来预测某种商品的销量,训练数据是基于某个季节的销售数据。当季节变化(例如,从冬季到夏季)时,消费者的需求和行为模式可能会发生变化,从而影响销量。