
(来源:DeepHub IMBA)
训练集和测试集如果来自不同的分布,会怎样?

类似的问题不是没遇到过只是语境不同,比如说模型上次构建以来是否发生了数据漂移?销售分析中产品 A 和产品 B 的分布是否存在差异?归结下来问的都是同一件事,如何量化两个分布之间的差异。
单变量分析是最直接的入手点,逐个变量比较训练集与测试集的分布形状。但光看单变量可能不够。变量之间的联合关系如果存在差异呢?

怎么量化这种差异?Energy Distance 可以解决这个问题
Energy Distance 是一种用来度量两个概率分布差异程度的统计指标。两个分布完全相同时取值为零,分布差距越大数值越高。
形式化的定义
给定概率分布 F 和 G,从中分别抽取随机向量 X 和 Y,Energy Distance D(F,G) 的定义如下:
D(F,G) = 2E
保宇配资提示:文章来自网络,不代表本站观点。