论文部分内容阅读
针对中文语言环境中缺少分类体系,无法明确实体类别并建立语义关系的问题,基于维基百科,提出一种混合架构,构建了大规模中文分类体系及其展示查询系统(CTCS2)。CTCS2包括两个模块:离线模块和在线模块。离线模块又分为SVM底层关系抽取子模块、顶层分类树构建子模块两部分。首先,采用SVM分类模型抽取语义关系,明确实体类别;然后,通过启发式规则、关联规则挖掘的方式挖掘上层抽象概念关系;其次,使用自底向上的算法从独立的关系中生成完整的中分分类体系,以分类树的形式展现;最后,在线模块分析展示了生成的分类树,