基于文本聚类的工具书查重方法研究

来源 :辞书研究 | 被引量 : 0次 | 上传用户:liliandidi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要 由于工具书编纂队伍庞大,工作流程上又多头并进,所以工具书编纂过程中难免会出现内容交叉重复问题。为了减少工具书查重的工作量,文章提出了一种基于文本聚类的查重方法。试验表明,分层聚类算法可用于大型工具书词条查重工作,它对工具书编纂中解决词条交叉重复问题是有效的。
  关键词 文本聚类 特征词 交叉重复 工具书查重
其他文献
计算机与古籍整理的结合带来了古汉语电子语料库建设的繁荣。文章在对古汉语电子语料库的建设情况进行充分调查的基础上,提出古汉语电子语料库的概念和类型,并指出古籍数据库与