论文部分内容阅读
数据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决策。分类是一种数据分析形式,可以用于提取描述重要数据类的模型和预测未来的数据趋势。分类是一个两步过程。第一步,根据已知的数据集建立预测模型。第二步,使用模型进行分类。例如,可以建立一个模型对出海打鱼的安全和风险进行分类。分类方法已经被应用在专家系统、机器学习和决策支持等方面。
本文在深入研究决策分类方法之后,针对决策分类方法中比较成熟和应用广泛的ID3算法,提出了分类有效度决策树的模型和ED算法。ID3算法在选择分类属性时采用的度量标准是信息增益。ID3算法存在内在偏置的问题,会偏袒具有较多值的属性。具有较多值的属性把训练样本分割成非常小的空间。因此,相对训练样本,生成的决策树非常宽,尽管它完美地分割了训练数据,但是对于后来的数据的预测性能会比较差,所以它不是一个好的预测器。
本文对ID3算法和信息增益标准作了深入的研究,针对ID3算法内在偏置的缺陷,提出了分类有效度作为选择分类属性的衡量标准,有效地考虑了每一个属性和类标号的相关性和数据划分的距离,成功地解决了信息增益度量标准的内在偏置的问题。