论文部分内容阅读
提出一种基于竞争分类的网上图书信息抽取方法,以信息片段与样本之间的相似度作为竞争力,通过信息片段对信息模板槽的竞争来实现信息片段的分类和噪声信息的过滤,直接从分类的角度抽取图书信息。相对基于规则的信息抽取方法,在用户标记样本较少的情况下,竞争分类法更能适应数据项顺序变化较大或有数据项缺失的数据源,适用于从不同的图书数据源集成图书信息。