文本分类中若干问题的研究及其在数字图书馆中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:lidawei232
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文对文本分类进行比较全面和深入的研究,提出了若干理论和方法.主要工作和创新成果可以概括为如下四个方面:1.提出自动最优阈值设定方法:该文提出的自动最优阈值设定方法通过有目标的阈值搜索策略,以最佳分类效果为目标函数,在阈值空间寻找尽可能好的值.在中心点算法上的实验表明,与其它方法相比,自动最优阈值设定方法具有更好的性能.2.提出基于类区分度的局部特征权值计算模型:针对目前文本分类中最基础,也是最重要的环节-特征权值计算模型做了系统而深入的研究,发现目前模型所存在的缺点,即侧重于整体考虑特征权值的计算,而没有考虑同一特征因在不同类别中重要性不同而可能具备不同权值的基本事实.在此基础上提出基于类区分度的局部特征权值计算模型,并分析和研究多种可以用来计算类区分度的方法.3.提出一类基于隶属度的线型文本分类算法:该类算法直接通过特征类区分度来预测文档的类别.理论分析表明隶属度算法其实是对朴素贝叶斯算法的拓展.4.提出类区分度与其它算法相结合实现文本分类的通用模型.由于基于类区分度的特征权值计算模型 不同于传统模型.要在其上实现文本分类,需要做一些修改.根据该模型的特点,提出通用分类模型.
其他文献
一般说来,卫星在太空中的运行周期较长,而且所处环境复杂。卫星软件与常见的实时嵌入式软件相比对于实时操作系统的需求具有不同的侧重,本课题对卫星通用实时操作系统的主要需求
随着空间数据库技术的不断发展其应用也越来越丰富,同时空间推理应用的复杂度也在不断增加.方向关系是空间推理研究的重要领域应用十分广泛,因此在空间推理的研究中有关方向
互联网的迅速发展,使得大量的信息洪流以前所未有的方式冲击着社会的政治、经济和文化,改变着人们的生活方式。面对这浩如烟海的信息,人们越发容易陷入一种资讯焦虑的困境之中。
将一个程序从一个运行平台迁移(移植)到另外一个运行平台的过程通常被称为程序迁移,是软件演化与维护的重要内容,也是应用程序扩大用户范围的重要途径。  基于规则的应用程序迁
随着Internet的飞速发展,人们对全球网络数据的访问需求也急剧增加,指数级增长的用户请求给流行的WEB站点提出了前所未有的挑战.如何提高WEB站点的服务性能,为网络客户提供有
该文以指纹自动识别系统(Automated Fingerprint Identification System,简称AFIS)的处理流程为线索,详细讨论了基于结构特征的指纹识别系统及其匹配算法.该文的指纹识别系统
因特网已经为普通的计算机用户在家中,在商业上,以及在教育领域提供了大量而有效的信息.对于许多人来讲,对这些信息的访问已经不再是难不可及而仅仅是一项普通的技能.然而,当
本文结合中国铁路的实际,介绍了分布式信息共享平台技术;从技术的角度切实地考虑在广域网环境下大型业务处理系统信息化过程中如何实现互操作性,解决“信息孤岛”问题,达到信息共
随着社会对软件需求的不断增长,正在使用和开发的软件数量与日俱增,许多软件的规模变得越来越大,这些软件的维护问题成为了当前软件产业面临的重要问题.能否准确、迅速、全面
该文重点讲述了系统的功能模块需求分析;介绍了系统体系结构及特点,实现系统所用到的数据访问技术和COM组件技术的原理及包容与聚合模型;详细讲述了系统操作模块和分析模块的