论文部分内容阅读
针对当前相似记录匹配方法中存在的问题,提出一种改进的机器学习匹配方法。该方法聚类相似记录,生成决策树学习委员会,由学习委员会主动挑选信息量最大的相似记录,由用户标注匹配结果后对学习委员会成员进行训练,自主学习不同数据源问相似记录匹配规则。实际数据的实验分析验证了该方法可以在有效减少训练实例数量的同时获得较高的匹配精度。