【摘 要】
:
文本分类(Text Classification,TC)是指计算机根据既定的类别体系自动识别文本所属的类别,是计算语言学和自然语言处理领域一个重要的研究课题,也是应用最为广泛的自然语言处
论文部分内容阅读
文本分类(Text Classification,TC)是指计算机根据既定的类别体系自动识别文本所属的类别,是计算语言学和自然语言处理领域一个重要的研究课题,也是应用最为广泛的自然语言处理技术之一。早期的文本分类研究以基于知识工程的人工建立分类规则方法为主,随着统计机器学习理论和统计自然语言处理技术的发展,使用机器学习的方法在文本分类领域得到广泛的应用,并取得良好的效果。本文的工作是建立在使用机器学习算法进行文本自动分类的基础上,对于改进文本分类的性能进行方法的研究。本文针对KNN和SVM方法以及不同的特征降维方法实现了完整的、可配置的文本分类系统,在这个基础上,对分类方法提出了一些具体的改进,使得分类的性能得到有效的提高。对于不同的文本分类方法,和不同的语料库,在进行方法的改进之前都对几种特征选择方法进行详细的对比,在这个基础上选择性能最好的一种,以使最后的改进更有意义。本文主要完成对文本分类的两种改进方法,一是针对原始文本的半结构和非结构化状况根据无指导的基于图的句子排序算法,对句子进行排序。根据排序结果按一定比例截取最有信息含量的部分句子而去除其他可能造成文本之间重叠和冗余的内容,并对特征词根据句子排序进行权重调整,使得经过处理之后的文本更好地突出本质内容,提高文本之间的可区分性。然后再对经过处理的文本使用KNN方法进行分类,取得显著的效果。二是根据向量空间模型和潜在语义索引在对文本进行表示和分类性能上的差异,使用向量空间模型和潜在语义索引相结合的方法,综合两种方法的优点,利用支持向量机进行组合分类,最后还尝试在结合向量空间模型和潜在语义索引的基础上组合KNN和SVM两种分类方法,使得分类系统的在整体性能上得到提高,避免过多增加系统资源的耗费。
其他文献
轻度认知障碍(MCI)是介于正常衰老和阿尔茨海默病(AD,老年痴呆)之间的一种中间状态,很容易转化为老年痴呆,因此MCI的早期研究是降低老年痴呆的关键,成为了当前的研究热点,具有重要的
在商场领域,客流量信息是其运作的一个重要因素。监测客流、研究客流、分析客流,形成决策,进而围绕客流进行定位,以各种手段吸引客流,可以有效的提高商场在行业中的竞争力。
随着卫星导航系统在军事领域和民用领域的广泛应用,对其提供的服务的性能要求也日益提高,因此评估卫星导航系统的服务性能是否满足应用的要求成为一个关键性的问题。为评价卫星
运动仿真技术是当前CAD研究和应用中的重要技术,本文研究基于虚拟装配模型的运动仿真技术,它是计算机图形学与机械学相结合的一个研究领域,也是机械设计技术与虚拟设计技术综合
ERP(企业资源计划)是整合了企业管理理念、业务流程、基础数据、人力物力、计算机硬件和软件于一体的企业资源管理系统,是当前多数企业普遍采用的管理信息系统。因此,ERP系统
信息化的发展步伐日益加快,而数据是信息化的生命线,必然要求对数据实施有效的保护措施。由于存储区域网络(SAN)具有管理方便、扩展性强、容错能力好、高可靠性、配置灵活、
公钥基础设施(PKI)利用数字证书为网络安全交易提供基本保障。由于私钥泄露或者证书所有者状态改变等原因,证书必须在其失效之前被废除。因此,需要建立一种撤销证书的查询机制,
信息检索模型是对信息检索任务及实现方法的一种抽象描述。信息检索模型是信息检索理论研究的一个核心内容,因此对于它的研究有重要的理论意义和实用价值。另外,统计语言模型
Internet拓扑特征化研究是认识Internet的必然过程,是在更高层次上开发利用Internet的基础。然而,目前对Internet拓扑的了解还不够充分,这并不只是一个计算机科学问题,而是根
本文通过详细考察目前在线信息服务的现状,发现了应用中存在的一些阻碍信息资源被准确使用的问题,并总结出这些问题的矛盾中心是传统的信息服务模式无法满足移动用户针对具体目