特定领域文本分类系统的设计与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:YNiit562552379
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,各种学科的信息也在随之迅速膨胀,人们迫切需要这些特定领域的信息检索与管理工具,特定领域文本分类成为当前研究热点。目前,特定领域文本分类主要是在传统文本分类的基础上,利用已有的特定领域知识库扩展文档特征。如何提取领域相关特征是其主要难点之一。 本文综述了现有特定领域文本分类系统,详细介绍了特定领域文本分类系统的设计思想与实现细节,设计并实现了一套特定领域文本分类系统,针对如何提取领域相关特征的问题,提出了一种基于领域相关术语提取的特征选择方法,改进了术语提取方法,并且分析了各系统组成部分。本文的工作主要包括: ·本文综述了现有特定领域文本分类系统,提出了特定领域文本分类系统的体系结构。 ·本文提出了一种基于领域相关术语提取的特征选择方法,该方法具有以下优点:(1)提取出来的特征与领域密切相关,提高了分类效果;(2)大大降低了特征空间维数,提高了系统运行性能;(3)由于该方法使用基于语料库对比的术语提取方法,不依赖任何特定领域知识库,从而使系统具有很强的通用性,能轻松应用于各个领域。 ·本文根据词语搭配分布,改进了传统的基于语料库对比的术语提取方法,使术语提取方法兼顾了对语言结构的分析。 ·本文详细分析了预处理、特征选择、二级分类器等系统组成部分对分类效果及系统性能的影响。 ·本文设计并实现了一套具有很强通用性的特定领域文本分类系统,该系统参加了TREC2005Genomics项目Categorization任务的评测,在四个子任务中取得了两个第一的好成绩。
其他文献
GSM网络是一个复杂的通信系统,GSM网络的优化工作一直是移动网络运营商的主要工作之一;其中信令负荷分担的优化又是GSM网络交换子系统优化的一项重要内容。随着移动智能业务和
网格计算作为一种提供高性能计算、管理和服务的新技术,已经得到了越来越多的关注。资源发现是高性能网格计算领域中的一个重要研究课题,它的主要任务是根据网格用户的资源请求
uClinux以其优异的性能、源代码开放等优点,成为目前许多嵌入式系统开发的首选操作系统。本课题旨在研究ARM平台上uClinux操作系统的移植与应用程序开发方法,完成网络VOD系统
数字视频的一个显著特点是原始数据量巨大,给传输和存储带来严重挑战。视频编码技术可以将视频数据压缩几十倍,甚至几百倍,有力地推动了视频通信的发展。视频编码器已成为现代网
目前,基于对等网络技术的系统正得到越来越广泛的应用。对等网络所占的网络流量已经超过了Web访问所带来的网络流量,而成为了互联网上最大的流量。而在各种不同类型的对等网
聚类分析作为机器学习领域的重要研究方向之一,吸引了很多学者的关注。在聚类分析中,距离度量是影响聚类算法精度的重要因素。在传统的聚类算法中,一般使用欧氏距离来度量样本之
近年来,由于引入了基于身份的概念,进一步简化了数字签名的密钥管理方式,允许用户自主选择公钥,而私钥由私钥产生中心根据用户信息产生。导致私钥产生中心可以伪造用户的有效
随着网络的普及与发展,虚拟社会逐渐渗透进人们的生活中,出现了很多大型社会网络在线网站如facebook、twitter、新浪微博等,人与人之间透过这些虚拟网络相互产生影响和互动。
随着信息技术的高速发展,智能人机交互系统的应用需求,人脸问题的研究作为计算机领域的核心课题之一,具有越来越广泛的实用价值和研究意义。人脸问题主要包括:人脸检测、人脸
近年来,随着人民生活水平的提高和地面交通的快速发展,城市交通系统的负荷日益加重,如何改善道路交通状况已经成为一个亟待解决的问题。致力于解决各种交通问题的智能监控系统是