中文文本自动分类研究与应用

来源 :湖北大学 | 被引量 : 0次 | 上传用户:yilong_hongru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的高速发展以及信息、资讯的大量增加与积累,无论是个人电脑上还是internet上,以文本形式存储的信息数量巨大。而如何对这些文本数据进行高效的管理、存储、访问以及提取出所需要的信息,成为当前现代社会的人们提高工作和生活质量和效率的重要问题,也是当前计算机科技、人工智能知识工程和信息处理研究的热点与难点的所在。而处理这个问题的基本工具——文本自动分类,也于近几年得到了前所未有的重视与发展。截至目前,国内外对于文本自动分类的研究已经非常多,并且在信息提取、搜索引擎等具体热点领域有着丰富深入的研究。不管是工业界还是科研院所,都已经取得了很多举世瞩目的成就,同时开发出了很多实用的工具与软件系统。本文主要研究中文文本自动分类的关键技术并设计实现原型系统。首先介绍文本自动分类技术研究现状与理论基础,然后对中文文本分类技术进行了详细的讨论,并分析了向量空间模型和中文自动分词的技术优势与特点。然后详细研究了文本分类的关键技术,包括项的权重、特征选择和关键算法。在这些基础之上,设计了一种中文文本分类自动分类系统,并对其中的关键技术进行了详细介绍。最后是对系统进行相关实验以及效率效果评估分析。
其他文献
船用增压锅炉是大型船舶动力系统的核心设备,具有负荷变化频繁,容积热负荷高等特点。对船用锅炉汽包水位的控制一直是工程应用中的难点问题,然而国内外对其研究有限,并主要集中在
教师职业道德价值取向,就是对教师职业道德价值的一。种自觉选择,它不仅是理论层面的一个重要问题,更是直接指向教育的实践层面,一定程度上决定着教师发展与教育改革的整个过
大学校园景观的文化性是考察一所高校校园景观质量和水平的重要依据。一所优秀的大学校园景观应该包括建筑、雕塑、植物、水景等景观组成形式。如果这些景观组成形式本身具有
1OkV配电网主要有中性点不接地、中性点经消弧线圈接地、中性点经小电阻接地等运行方式。不同的配电网中性点接地方式各有其特点和优势。本文详细分析计算了三种主要接地方式
文章通过对海关法调整对象和调整手段的分析,对海关法是行政法的下位法和分支法的观点提出质疑。通过逐一梳理海关法和各部门法的关系,指出海关法是一门综合性的法,并提出综
国际海关法学是以国际海关法为研究对象的法律学科。国际海关法是海关法律体系中独立于国内海关法的一个新兴部门法。它产生于第二次世界大战后国际经济关系的新发展和国际海
目的探讨Notch信号通路中相关信号分子在碱性成纤维细胞生长因子(basic fibroblast growth factor,b-FGF)诱导肺泡上皮细胞A549间质转化过程中的表达情况,进一步明确b-FGF诱
近年来,羊毛角蛋白与再生纤维共混成纤成为研究的热点。一方面,将废弃羊毛以及其他动物毛发溶解再利用并与纤维素溶液共混纺制成纤维,可以节约资源,提高废弃毛发的价值;另一方面,研
<正>大疱性类天疱疮(BP)是一种慢性、复发性、自身免疫性疾病。临床上好发于老年人,多数患者合并冠心病、高血压、糖尿病等慢性疾病,可导致全身多个部位黏膜受损,全身症状严
称谓是人际交往的重要工具,有实用价值,同时具备研究价值,值得深入探讨。称谓植根于社会,受到各方面浸染——文化、政治背景、传统习惯。某个称谓在历史中产生、转变、消亡,