论文部分内容阅读
为了对半结构化文本实现自动抽取信息,介绍了一种基于Boosting算法的信息抽取方法,它能够自动对一个训练例生成规则,将该规则应用于正例集并改变正例集权重分布,找到权重最大的正例生成下一条规则. 给出了一种能描述不符合英文词法的词的模式匹配约束. 试验表明:在特征简单的抽取规则学习中,该方法精确度与召回率可达100%,在特征比较复杂的抽取规则学习中,该方法F1评估值也能达到80%以上.