在某些情况下,可供使用的数据可能缺少某些属性的值。例如,在医学领域我们希望根据多项化验指标预测患者的结果,然而可能仅有部分患者具有验血结果。在这种情况下,经常需要根据比属性值已知的其他实例来估计这个缺少的属性值。
考虑一下情况,为了评估属性A是否是决策结点n的最佳测试属性,要计算决策树在该结点的信息增益Gain(S,A)。假定<x,c(x)>是S中的一个训练样例,并且其属性A的值A(x)未知。
处理缺少属性值的一种策略是赋给它结点n的训练样例中该属性的最常见值。然后使用这个估计值的训练样例就可以被现有的决策树学习算法使用了。Mingers(1989a)分析了这个策略。
第二种更复杂的策略是为A的每个可能值赋予一个概率,而不是简单地将最常见的值赋给A(x)。根据结点n的样例上A的不同值的出现频率,这些概率可以被再次估计。例如,给定一个布尔属性A,如果结点n包含6个已知A = 1和4个A = 0的样例,那么A(x)=1的概率是0.6,A(x)=0的概率是0.4.于是,实例x的60%被分配到A = 1的分支,40%被第二个缺少值的属性必须被测试,这些样例可以在候机的树分支中被进一步细分。上述的样例的片段也可以在学习之后使用,用来分类缺少属性的新势力。在这种情况下,新势力的分类就是最可能的分类,计算的方法是通过在数的叶结点对按不同方式分类的实例片段的权求和。C4.5(Quinlan 1993)使用这种方法处理缺少的属性值。