信息熵:度量样本集合D DD纯度的指标。设样本属于k kk个类别,第i ii类样本所占比例为p i p_ipi,则D DD的熵定义为: Ent ( D ) = − ∑ i = 1 k p i log 2 p i \text{Ent}(D) = -\sum_{i=1}^{k} p_i \log_2 p_iEnt(D)=−i=1∑kpilog2pi Ent ( D ) \text{Ent}(D)Ent(D)越小,则D DD的纯度越高。
条件熵与信息增益:以离散特征A AA对D DD进行划分,假设有V VV个可能的取值,则划分后各子集D v D^vDv的熵的加权和称为条件熵。特征A AA对数据集D DD的信息增益定义为: Gain ( D , A ) = Ent ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ Ent ( D v ) \text{Gain}(D, A) = \text{Ent}(D) - \sum_{v=1}^{V} \frac{|D^v|}{|D|} \text{Ent}(D^v)Gain(D,A)=Ent(D