中文文本分类技术研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yujian136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,大量的文字信息开始以计算机可读的形式存在,其数量每天都在急剧增加,如何在浩若烟海而又纷繁复杂的文本中掌握最有效的信息始终是信息处理需要解决的问题之一,如何实现信息的自动分类,尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域。文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。本文详细介绍了文本分类的各个方面,主要涉及文本分类的类型、文本表示方法、中文分词技术、文本特征抽取算法、文本特征权重算法及各种文本分类算法等相关技术,本文对其中一些技术进行了深入分析并且通过了一系列实验对此进行了性能比较和验证,最后给出了实验结果和分析。
其他文献
<正>一.教学目标:了解高考作文发展等级的要求,帮助学生寻求作文"有文采"的有效途径,锻炼学生的写作能力。二.归纳方法、学以致用。三.教学方法:比较、赏析、归纳、练习。第
日益频发的记者为制造轰动效应编造不实报道、虚假新闻;为谋私利敲诈勒索、收受贿赂;枉顾管理违反规章等行为,在广泛引起人们关注和争论的同时,也引发了多起媒介突发事件。对
自国际政治领域出现社会学转向以来 ,文化越来越多地受到研究人员的重视。目前 ,文化内容最为丰富的主流国际政治理论当属社会建构主义。但建构主义毕竟不是完全意义上的文化
网格安全是网格计算系统中必不可少的机制。由于网格系统的异构、动态、多域等特点,网格安全问题比网络的安全问题更加复杂。为了解决网格环境的动态性和不确定性带来的安全
“电机测功机试验台”是校211工程项目,对于100kW和400kW两个功率等级的电动机和发电机试验兼容。能完成电动机起动特性试验,空载试验,负载试验,堵转试验,温升试验,变频电机
骂詈是一种特殊的言语行为,它的产生和其它事物的产生过程一样,有着纷繁复杂的动机,或憎恨、或泄愤、或取乐、或出自关心和亲昵,有些甚至是出自于个体的言语习惯。骂詈语作为
《最后一课》是法国作家都德的爱国主义小说名篇,曾经也被多国教科书采用,而同为亚洲并且一衣带水的中国和日本,对待这篇小说的态度则不尽相同。本篇文章则从中日两国的历史
随着中国汽车产业政策不断改革与调整,全球汽车巨擘纷纷涌进中国,中国汽车消费量在2006年已经从2001年的4.3%上升到11%,超过日本成为仅此于美国的世界第二大汽车消费国。中国
近来,具有一定形貌和功能性质的聚合物微球的制备及应用研究已经成为胶体微粒体系发展的重要方向。人们设计了各种合成路线,采用多种合成方法去制备具有光、电、磁及生物特性
目的了解广州市农村老年人卫生服务需要与利用状况,为完善适合老年人的卫生政策提供参考。方法主要利用第四次卫生服务调查广州市农村老年人数据,分析老年人卫生服务的需要及