基于VSM的中文文本分类系统的设计与实现

来源 :清华大学学报 | 被引量 : 0次 | 上传用户:shiluze
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程.该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现.对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍.引入标题权重系数改进词语权重,并提出了一种新的分类算法.实验测试结果表明查全率和准确率均达到 90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能.
其他文献
“互联网”的横空出世,不仅刷新了我们的生活方式和生活观念,也在很大程度上重写了社会的文化传承模式和传统的语文教学模式。本文根据刚修订的《初中语文课程标准》的精神,试图
小学数学教学是基础的学科教学,具有广泛的应用性和实践性。课堂是数学教学的主阵地,数学教学的主要目标都必须在课堂中完成,因而,小学数学课堂的教学质量如何提高,是我们教师共同
英语教学中的情景教学法是一种非常好的教学方法。所谓情景教学就是教师在教学过程中借助图片、录音、电视、投影、实物以及其它教学用具把教学内容以生动、直观的形式呈现在
作文文教学是一项庞大的而又较难难找准抓手的系统教学工程,作文教学如何在“新课改”的大背景下做到与时俱进、使写作教学摆脱传统的低效能的怪圈呢?本文从作文教学的审题、构
阐述了深化基层支部党建工作的必要性及方式。
建立某曲线刚构-连续组合梁桥的空间有限元计算模型,在桥梁活动支座部位设置粘滞阻尼器,进而考虑曲率半径的变化,计算分析了结构在3条3向地震动作用下曲率半径变化对结构反应
目的 探讨社区高龄老年人的主观幸福感及其影响因素.方法 通过随机抽样在生存质量调查的基础上采用纽芬兰纪念大学主观幸福感量表(MUNSH)对杭州市五个社区409例80岁以上高
通过73m水下人工挖孔桩施工,总结出一套山岭峭壁边缘进行流砂、破碎带和有较大裂隙水地层挖孔桩施工的成功经验,施工中通过采取合理评估抽水能力、打设超前锚杆、缩短护壁深
空心板梁桥是我国应用最为广泛的桥型之一,但是在使用过程中出现一系列病害,以铰缝病害最为突出。现阶段空心板梁桥横向计算采用铰接板理论,认为铰缝只传递剪力不传递弯矩。
山区公路作为交通事故的多发地段,行车速度和行驶轨迹因素在事故致因中占有相当的比重,公路线形是决定车辆行驶速度的基础。以山区公路车辆运行速度作为主要研究对象,将山区