0 引言
在金融场景中,IV值是一个经常用来衡量特征强弱的指标。IV值如果比较大,说明该特征的区分度比较强,如果IV值比较小则说明特征的区分度比较弱。正因为有该性质,所以IV值经常用来进行特征选择。
1.WOE
在介绍IV值之前,需要先介绍一下WOE
WOE, Weight Of Evidence,直译过来就是证据权重。WOE是对原始变量的一种编码方式。计算的具体步骤主要包括两步
1.对变量分组,一般的方式为分箱或者离散化处理。比如常见的分箱方法有等频分箱,等高分箱等。
2.分箱以后,对于第i组,计算该组的woei)值。
w o e i = l n p y i p n i ) = l n y i / y s n i / n s ) woe_i = ln\frac{p_{yi}}{p_{ni}}) = ln\frac{y_i/y_s}{n_i/n_s}) woei=lnpnipyi)=lnni/nsyi/ys)
其中, y i y_i yi表示分组中的响应用户, y s y_s ys表示总响应用户。 n i n_i ni表示分组中的未响应用户, n s n_s ns表示总未响应用户。
2.IV值计算
IV衡量的是某一个变量的信息量。 对于分组i的IV值,具体的计算公式如下
I V i = p y i − p n i ) ∗ w o e i = p y i − p n i ) ∗ l n p y i p n i ) = y i / y s − n i / n s ) ∗ l n y i / y s n i / n s ) \begin{aligned} IV_i&=p_{yi} – p_{ni}) * woe_i \\ &=p_{yi} – p_{ni})* ln\frac{p_{yi}}{p_{ni}}) \\ & = y_i/y_s – n_i/n_s) * ln\frac{y_i/y_s}{n_i/n_s}) \end{aligned} IVi=pyi−pni)∗woei=pyi−pni)∗lnpnipyi)=yi/ys−ni/ns)∗lnni/nsyi/ys)
那么整个变量的IV值为
I V = ∑ i n I V i IV = \sum_i^n IV_i IV=i∑nIVi
3.为什么使用IV值而不是WOE
WOE 和 IV 都能表达某个分组对目标变量的预测能力。那为什么我们实际使用的都是IV而不是WOE呢?
1.WOE有可能是负值,而IV值永远为正,实际场景中我们不太可能使用一个可能为负值的指标。
2. p y i − p n i p_{yi} – p_{ni} pyi−pni这个数值,体现了当前分组样本在整体中的占比,相当于给当前样本的区分能力乘以了一个权重。这个权重越大,对应的区分度也就越高,对整体的贡献也就越突出。
4.需要注意的几个点
1.IV值并不是越大越好。IV过大,很可能是分箱不当所引起的,这个时候需要对数据进行重新分箱操作。
2.如果按照原始的公式进行计算,分箱操作时,某个组的数据不能为0,否则做除法运算时会触发异常。
3.实际项目操作过程中,一般选择0.2作为阈值。如果某个特征的IV值小于0.2,说明区分度不太够,该特征不予采用。