特定领域文本分类系统的设计与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户：YNiit562552379

【摘要】

：

随着信息技术的迅速发展，各种学科的信息也在随之迅速膨胀，人们迫切需要这些特定领域的信息检索与管理工具，特定领域文本分类成为当前研究热点。目前，特定领域文本分类主要是在传

【作者】

：

孙麟

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2006年期

【关键词】

：

文本分类特征选择信息检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的迅速发展，各种学科的信息也在随之迅速膨胀，人们迫切需要这些特定领域的信息检索与管理工具，特定领域文本分类成为当前研究热点。目前，特定领域文本分类主要是在传统文本分类的基础上，利用已有的特定领域知识库扩展文档特征。如何提取领域相关特征是其主要难点之一。本文综述了现有特定领域文本分类系统，详细介绍了特定领域文本分类系统的设计思想与实现细节，设计并实现了一套特定领域文本分类系统，针对如何提取领域相关特征的问题，提出了一种基于领域相关术语提取的特征选择方法，改进了术语提取方法，并且分析了各系统组成部分。本文的工作主要包括： ·本文综述了现有特定领域文本分类系统，提出了特定领域文本分类系统的体系结构。 ·本文提出了一种基于领域相关术语提取的特征选择方法，该方法具有以下优点：(1)提取出来的特征与领域密切相关，提高了分类效果；(2)大大降低了特征空间维数，提高了系统运行性能；(3)由于该方法使用基于语料库对比的术语提取方法，不依赖任何特定领域知识库，从而使系统具有很强的通用性，能轻松应用于各个领域。 ·本文根据词语搭配分布，改进了传统的基于语料库对比的术语提取方法，使术语提取方法兼顾了对语言结构的分析。 ·本文详细分析了预处理、特征选择、二级分类器等系统组成部分对分类效果及系统性能的影响。 ·本文设计并实现了一套具有很强通用性的特定领域文本分类系统，该系统参加了TREC2005Genomics项目Categorization任务的评测，在四个子任务中取得了两个第一的好成绩。

其他文献

信令负荷分担方式在GSM网络优化中的应用

GSM网络是一个复杂的通信系统，GSM网络的优化工作一直是移动网络运营商的主要工作之一；其中信令负荷分担的优化又是GSM网络交换子系统优化的一项重要内容。随着移动智能业务和

学位

GSM网络优化负荷分担

网格协同设计中资源实时机制的研究

网格计算作为一种提供高性能计算、管理和服务的新技术，已经得到了越来越多的关注。资源发现是高性能网格计算领域中的一个重要研究课题，它的主要任务是根据网格用户的资源请求

学位

网格计算网格协同设计资源发现机制移动Agent

ARM平台下uClinux的移植与应用开发研究

uClinux以其优异的性能、源代码开放等优点,成为目前许多嵌入式系统开发的首选操作系统。本课题旨在研究ARM平台上uClinux操作系统的移植与应用程序开发方法,完成网络VOD系统

学位

嵌入式系统ARMuClinux机顶盒

低码率视频编码器的优化及其在数字媒体处理上的实现

数字视频的一个显著特点是原始数据量巨大，给传输和存储带来严重挑战。视频编码技术可以将视频数据压缩几十倍，甚至几百倍，有力地推动了视频通信的发展。视频编码器已成为现代网

学位

数字视频视频编码器MPEG-4标准数字媒体处理器视频监控多媒体通信

对等网络文件共享系统索引结构的研究

目前,基于对等网络技术的系统正得到越来越广泛的应用。对等网络所占的网络流量已经超过了Web访问所带来的网络流量,而成为了互联网上最大的流量。而在各种不同类型的对等网

学位

对等网络文件共享系统索引结构文件传输

拓扑关系的距离度量与聚类算法研究

聚类分析作为机器学习领域的重要研究方向之一，吸引了很多学者的关注。在聚类分析中，距离度量是影响聚类算法精度的重要因素。在传统的聚类算法中，一般使用欧氏距离来度量样本之

学位

机器学习聚类分析数据样本拓扑结构距离度量

基于身份无需可信中心的数字签名方案研究

近年来,由于引入了基于身份的概念,进一步简化了数字签名的密钥管理方式,允许用户自主选择公钥,而私钥由私钥产生中心根据用户信息产生。导致私钥产生中心可以伪造用户的有效

学位

数字签名基于身份双线性对私钥产生中心群管理者电子现金系统

社会网络影响力挖掘方法研究

随着网络的普及与发展,虚拟社会逐渐渗透进人们的生活中,出现了很多大型社会网络在线网站如facebook、twitter、新浪微博等,人与人之间透过这些虚拟网络相互产生影响和互动。

学位

社会网络影响力挖掘影响力强度影响力传播用户行为预测

人脸检测与跟踪技术的研究

随着信息技术的高速发展,智能人机交互系统的应用需求,人脸问题的研究作为计算机领域的核心课题之一,具有越来越广泛的实用价值和研究意义。人脸问题主要包括:人脸检测、人脸

学位

人脸检测人脸跟踪统计学轮廓特征支持向量机特征空间模型

视频运动目标阴影处理及评测方法研究

近年来，随着人民生活水平的提高和地面交通的快速发展，城市交通系统的负荷日益加重，如何改善道路交通状况已经成为一个亟待解决的问题。致力于解决各种交通问题的智能监控系统是

学位

智能交通视频监控系统运动目标阴影处理评测方法光谱比值

特定领域文本分类系统的设计与实现

其他学术论文