基于Ngram信息的中文文档分类研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:xuezhiyong2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统文档分类系统都是基于文档的词属性 ,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N gram信息的中文文档分类 ,使中文文档分类系统摆脱对词典和切词处理的依赖 ,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法 ,实现了一个基于N gram信息的中文文档分类系统。测试结果表明该文档分类系统具有和其它同类文档分类系统相当的性能
其他文献
内部控制作为提高企业竞争力,帮助单位在瞬息万变的市场经济中基业长青的重要手段,成为了业界人士重点研究的课题。就目前的宏观经济环境和集团企业的实际发展情况来看,传统
以精细岩心观察描述为基础,通过泥岩颜色、沉积构造、测井曲线特征分析,对松辽盆地北部太平川南区块扶余油层沉积微相进行了研究。松辽盆地北部太平川南区块扶余油层以泥岩、粉
企业最重要的资源是人力资源和财务资源。企业是由一系列契约组成,由财务资源的提供者(股东和债权人)将原始的财务资源——货币资金转化为一系列的人力资源,各类有形和无形的资
以藜麦蛋白质为研究对象,研究具有胆酸盐吸附作用的生物活性肽酶解工艺。以水解度(Degree of Hydrolysis,DH)和胆酸盐吸附作用为指标综合评价,筛选酶解反应蛋白酶,进一步在单