论文部分内容阅读
层次条件随机域模型在对web对象信息进行抽取时,不能很好地描述对象元素之间的长距离条件依赖关系,影响了抽取效果。针对这一缺陷,提出了一种改进的层次条件随机域模型LL-HCRFs。它在层次条件随机域表示为树型结构的基础上,增加了异父叶结点之间的长距离依赖关联边,丰富了Web对象元素之间的依赖关系。提出了增加异父叶结点关联边的方法,并针对新增加的关联边改进了原有参数估计算法。最后通过LL-HCRFs与线性条件随机域模型和层次条件随机域模型的对比实验,证明改进模型在对Web对象信息抽取上有着良好的效果。