文本分类新方法的研究与应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:svkisahero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术的快速发展使得互联网上的信息呈现爆炸式的增长。为了有效地利用和管理海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类技术TC(Text Categorization)是信息检索和数据挖掘的核心内容。其中基于机器学习的文本分类方法被认为在分类精度和灵活性上达到了较为满意的效果,但是它仍然存在着譬如非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web网页分类等问题。本文在数据集不完整和类别关系复杂的情况下进行了一系列的研究,主要包括文本表示,特征提取,特征选择,以及文本分类算法等问题。重点的目标就是通过研究这些问题找到如何在不完整样本集下提高文本分类精度的方法,以及如何在样本集中类别无法确定的情况下,发现新的类别,避免错分,借此提高文本分类效果。现实世界中的数据往往是不完整的,因此对于不完整数据集的文本分类的研究,经常采用的方法是利用朴素贝叶斯分类模型与EM算法相结合的办法来得到最终的分类器。但由于朴素贝叶斯分类器和EM算法对初始数据值有很大的依赖性,特别是当样本集中的无标记文本即缺失数据数量所占比重较大时,分类器的测试精度会受到影响。为了改善文本分类的效果,本文在Bernoulli混合模型和EM算法的基础上进行了研究。首先通过朴素贝叶斯算法在已标记数据的基础上得到似然函数参数估计初始值,然后利用含有权值λ的EM算法和Bernoulli混合模型对分类器的先验概率模型进行参数估计,从而得到最终的分类器。实验结果表明,对于不完整数据集而言所提出的方法在准确率和查全率方面要优于朴素贝叶斯文本分类及结合了EM算法的朴素贝叶斯分类。在以上方法基础上对不完整数据集对于文本分类的影响进行了进一步的研究。发现适当的在测试集中加入未标记数据样本是在现实世界中是需要经常面对的问题,本文在这方面做了相关的工作,将网页分类看成文本分类的一种特殊情况,同时考虑了网页结构对文本分类造成的影响,重点研究了文本相似度算法在这类问题上的应用,简单的文本相似度算法无法区分出有类别文本和无类别文本的区别,本文的研究结合特征提取,特征选择,最优截尾法,提出了一种新的文本分类方法,首先对网页进行预处理,得到想要的网页内容,在此基础上借助特征向量在有类别文本和无类别文本上的不同分布,达到区分不同类别的目的。实验证明这种方法对于不完整数据而言,一方面可以改善分类精度,另一方面可以达到发现新类别的目的。
其他文献
随着互联网的蓬勃发展,互联网越来越成为民众表达自己利益诉求、发泄自己情感以及跟其他民众进行思维讨论碰撞的一个新平台。但由于网民素质参差不齐,热点事件到底是确有其事
计算机软件的普遍应用带给人们越来越多的便捷,并日益影响人们的日常生活,但计算机软件中存在大量的错误及漏洞,隐藏着巨大的风险。因此,无论是科研机构还是企业,都在努力研
VoIP是下一代网络中一个极其重要的应用,作为构建VoIP电话系统信令协议之一的SIP协议,以其突出的简单、灵活、分布式控制和易于扩展等优点赢得了业界的青睐,尤其是在3G即决定
随着互联网(Internet)的高速发展,人们的信息来源得到了极大的丰富,信息获取方式也随之而改变。这为人类带来机遇的同时也带来了挑战。在Web信息呈现几何级数增长的情况下,如
VPN技术利用Internet等公共网络资源构建虚拟专用网络,在共享网络中通过加密隧道等技术来保证用户数据的安全性,是解决网络传输中端到端连接安全问题的一条有效途径。随着VPN
JXTA作为开发P2P应用的基础平台已经在P2P应用的各个领域得到广泛的应用,但是针对P2P流媒体系统的开发还很少。当前很多处于实用阶段的P2P流媒体直播系统都使用自己的P2P底层
随着互联网的发展,人们越来越易于在网络上分享多媒体,则不可避免地会有一些暴力多媒体信息流入网络,对于未成年等特定人群来说,这些信息会对他们的行为习惯产生严重的负面影
在线社交网站是web2.0时代的标志性产物,它改变了人们的生活方式,数以千万的用户在社交网站上联络好友、分享动态、参与活动。社交网站提供基本资料页面供注册用户填写,如性
网格技术将地理上分布、系统异构的多种资源(包括计算资源、存储资源、带宽资源、软件资源等)通过高速网络连接起来,为用户提供一体化的信息和应用服务,并且获得对复杂问题的
在常用的信息管理系统的开发模式中,B/S模式和C/S模式都存在着优缺点。结合C/S和B/S两种模式的优点,在系统开发中引入一个混合型的开发模式能够更好地满足用户和企业的要求。