基于类短语串和半监督学习的短文本分类研究

来源 :江苏大学 | 被引量 : 6次 | 上传用户:cderfvbgtyhnmj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国的互联网经过十年的高速发展,网民规模已达到3.38亿,普及率达到25.5%。网络已成为公众获取信息的主要渠道。在Internet上充斥着的大量信息流中,很大一部分是来自于人们的相互交流活动产生的短文本信息。此外,在移动通讯时代,通过移动通信网络发出的手机短消息已经成为人们日常生活中不可或缺的一部分。海量的短文本语料中包含了人们对当前社会各种现象的种种立场和观点,短文本的传播使得信息传播格局正在发生深刻变化。因此短文本信息挖掘技术在话题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。在话题识别、话题跟踪等新技术的背后,分类分析是其基本和重要的方法之一。针对短文本独特的语言特性,本文对短文本分类的若干关键技术进行了研究。本文的工作主要集中在以下几点:(1)提出基于类短语串(Phrase-Like Repeat,PLR)的短文本特征选择算法。首先分析了传统文本表示模型在短文本分类应用中的不足,给出了类短语串的概念和基于类短语串的短文本文档标引方法,从文本中获得具有强文本表示的类短语串作为文本特征,提高了特征项的独立完整程度,能克服向量空间模型的缺点;并在此基础上提出了基于类短语串的短文本特征选择方法。实验结果表明,基于类短语串的短文本特征选择算法降低了特征向量维数,有效地解决了短文本的特征稀疏性问题。(2)提出了一种嵌入集成学习的半监督短文本分类算法(FB-EM)。该算法应用半监督学习解决文本分类中的标注瓶颈问题,并为了能够有效地放松属性独立性假设和降低EM算法对于初始值的敏感,在半监督EM算法中嵌入基于属性选择的集成学习框架。在真实语料库上进行了对比实验,实验表明该算法能有效地利用未标注样本改进分类效果,分类准确性和泛化性能明显高于半监督EM算法。(3)对基于类短语串和半监督学习的短文本分类算法的应用进行了初步探讨,实现了基于PLR和FB-EN的BBS话题跟踪系统,取得了较好的实用效果。
其他文献
传统的入侵检测系统(IDS)存在着大量的问题:对未知网络攻击检测能力差、误报率高、占用资源多;对攻击数据的关联和分析功能不足,导致过多的人工参与;对于现在广泛使用的脚本攻击
网络的开放性和动态性使得信息系统所面临的用户需求和计算环境更加频繁地变化,从而要求信息系统应具备一定的自适应演化能力以灵活自主地适应这种变化。由于目前信息系统多属
文本分类可以为文本提供有序的组织,网络信息的增长使文本分类对信息处理的意义变得更加重要。二十世纪八十年代以后,基于机器学习的文本自动分类方法越来越成为主流,它具有
纹理图像分割作为图像处理和模式识别中一个重要的研究内容,一直以来是人们研究的热点。由于纹理图像不同于简单的图像,它具有大量复杂的纹理信息,因此,纹理图像的分割相对来
随着信息技术尤其是互联网技术的快速发展,电子商务应运而生并逐渐普及。电子商务系统数据库积累了海量数据,但对商家决策有价值的知识却非常匮乏。关联规则作为数据挖掘(Dat
图像作为移动增值业务中的一种主要元素用途越来越广泛,但是图像资源所占用的内存空间和移动设备对图像的处理速度却是一个很棘手的问题,所以如何降低内存空间占有量提高处理速
隐通道能够绕过安全策略的检查进行信息的非法传递,具有很强的隐蔽性,对信息安全造成了极大地威胁并增加了检测的难度。本文在分析典型隐通道检测技术和检测方法的基础上,针对源
本文讨论的软件安全检查工具支持C/C++和Java程序的安全漏洞检查。工具由前端和后端两部分组成,采用C/C++和Java独立的前端和共用的后端策略,以提高代码的可复用性和检查的精准
云计算作为一种新兴的商业计算模型,已取得长足的发展。软件即服务(SaaS云)是最常见的云服务交付模式之一,在云用户数量极具增长的同时,消费者的业务需求也从单一功能的服务
随着计算机应用的日益普及和深化,软件的安全性和可靠性也越来越受到人们地重视,软件测试则是保证软件质量的重要手段,所以从某种程度上来说,软件测试是软件推向市场前的第一