基于相邻字对信息的中文文档分类研究

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户：nnnnnnnxxxxx

【摘要】

：

本文首次提出利用相邻字对信息进行中文文档分类,使中文文档分类摆脱了对词典和切词处理的依赖,实现中文文档分类的领域无关性和时间无关性.分别利用Naive Bayes和kNN分类方

【作者】

：

周水庚俞红奇胡江滔付辛胡运发

【机构】

：

复旦大学计算机系

【出处】

：

小型微型计算机系统

【发表日期】

：

2001年4期

【关键词】

：

文档分类属性选择相邻宇对 kNN法中文文档分类信息处理 in the documents which rely on dictionaries and

【基金项目】

：

国家自然科学基金，国家高技术研究发展计划(863计划)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文首次提出利用相邻字对信息进行中文文档分类,使中文文档分类摆脱了对词典和切词处理的依赖,实现中文文档分类的领域无关性和时间无关性.分别利用Naive Bayes和kNN分类方法建立了基于相邻字对信息的中文文档分类系统.初步的测试结果表明本文文档分类系统具有和同类文档分类系统相当的性能.

其他文献

全球执法聚焦高管诚信

许多企业尚未通过执行反腐败计划积极主动地消减企业的腐败风险。同样,很多企业尚未充分利用大量信息,这些信息本来可以帮助他们更早识别和缓解欺诈、贿赂和腐败问题。

期刊

受访者SEC反腐败欺诈风险

无机-有机杂化絮凝剂在陶瓷废水处理中的应用

陶瓷废水中颗粒粒度细,依靠重力沉降速率慢,需借助絮凝提升其沉降特性,以加快其与废水的分离.笔者研究了实验室自制无机一有机杂化絮凝剂HLM在某陶瓷厂陶瓷废水处理中的应用.

期刊

杂化絮凝剂陶瓷废水应用HybridFlocculantCeramic wastewaterApplication

连续性助产护理对初产妇分娩方式及母婴结局的影响

目的分析连续性助产护理对初产妇分娩方式及母婴结局的影响。方法回顾性分析2018年10月-2019年4月在我院分娩的136例初产妇的临床资料,按照护理方法不同将其分为对照组(n=68)

期刊

初产妇连续性助产护理分娩方式母婴结局

脉血康胶囊治疗80例糖尿病合并冠心病患者临床分析

目的：分析脉血康胶囊治疗糖尿病合并冠心病的临床疗效。方法：选择160例糖尿病合并冠心病患者，将其随机分为试验组与对照组，每组80例。对照组患者采用常规的治疗，而试验组患者在对

期刊

脉血康胶囊糖尿病冠心病临床分析

视频中的文字探测

视频中出现的文字往往包含大量的信息 ,是视频分析的重要语义线索 ,探测并识别出来的文字可以为基于内容的视频检索提供索引 .本文简要介绍了目前现有的一些文字探测的方法 ,结合视频中出现的文字的特点 ,提出了一种较为高效的视频文字探测方法 ,该方法在一般图像质量的条件下对中、英文文字都有较好的探测效果 .文章给出了实验结果并对相关问题进行了讨论

期刊

文字探测视频分析边缘检测图像处理视频检索text detectionvideo analysisedge detectionimage process

妊娠高血压孕妇的发病因素与干预

目的：探讨孕产妇妊娠期并发高血压疾病的危险因素，提出相关干预措施。方法：选择进行产前检查并住院待产孕妇480例，其中妊娠高血压孕妇50例，发病率为10.4%，对临床资料进行了调查与观

期刊

妊娠高血压综合征发病因素护理治疗

一种改进的正则图象

把正则图象的误差分成两部分 :一部分为逼近误差 ,它是和原图象相关的确定型误差 ,另一部分为噪声传递误差 ,它是和噪声相关的随机型误差 .通过正则图象代替原图象 ,求得逼近误差的近似值 ,然后将逼近误差近似值补给正则解 ,得到改进型正则解 .对正则解以及逼近误差的计算 ,提出了快速算法 ,并有严密的理论推导 .实验结果表明改进型正则图象的恢复效果优于传统正则解 .在一般的正则化方法中 ,可以借鉴本

期刊

图像恢复正则化方法近误差image restoration regularization method approximation error

为“融合”而“限制”——英国《1968年英联邦移民法》探析

英国《1968年英联邦移民法》的颁布缘于20世纪60年代肯尼亚亚裔移民危机的影响,其主要内容是限制与英国没有实质性联系的“英国及其殖民地公民”移居英国。种族主义色彩问题

期刊

肯尼亚亚裔移民危机威尔逊政府《1968年英联邦移民法》“限制—融合”移民政策

明初的舆服整顿与明末的舆服乱象——以《醒世姻缘传》中的描写为例

出于彻底复古华夏衣冠和严格辨明阶级分层的两大目的,明代洪武皇帝设计了一系列繁复的舆服制度。然而至晚明,由于金钱元素的冲击,舆服制度对四民、嫡庶、贵贱等人身等级的分

期刊

醒世姻缘传明末舆服洪武皇帝

基于相邻字对信息的中文文档分类研究

其他学术论文