论文部分内容阅读
我国的互联网经过十年的高速发展,网民规模已达到3.38亿,普及率达到25.5%。网络已成为公众获取信息的主要渠道。在Internet上充斥着的大量信息流中,很大一部分是来自于人们的相互交流活动产生的短文本信息。此外,在移动通讯时代,通过移动通信网络发出的手机短消息已经成为人们日常生活中不可或缺的一部分。海量的短文本语料中包含了人们对当前社会各种现象的种种立场和观点,短文本的传播使得信息传播格局正在发生深刻变化。因此短文本信息挖掘技术在话题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。在话题识别、话题跟踪等新技术的背后,分类分析是其基本和重要的方法之一。针对短文本独特的语言特性,本文对短文本分类的若干关键技术进行了研究。本文的工作主要集中在以下几点:(1)提出基于类短语串(Phrase-Like Repeat,PLR)的短文本特征选择算法。首先分析了传统文本表示模型在短文本分类应用中的不足,给出了类短语串的概念和基于类短语串的短文本文档标引方法,从文本中获得具有强文本表示的类短语串作为文本特征,提高了特征项的独立完整程度,能克服向量空间模型的缺点;并在此基础上提出了基于类短语串的短文本特征选择方法。实验结果表明,基于类短语串的短文本特征选择算法降低了特征向量维数,有效地解决了短文本的特征稀疏性问题。(2)提出了一种嵌入集成学习的半监督短文本分类算法(FB-EM)。该算法应用半监督学习解决文本分类中的标注瓶颈问题,并为了能够有效地放松属性独立性假设和降低EM算法对于初始值的敏感,在半监督EM算法中嵌入基于属性选择的集成学习框架。在真实语料库上进行了对比实验,实验表明该算法能有效地利用未标注样本改进分类效果,分类准确性和泛化性能明显高于半监督EM算法。(3)对基于类短语串和半监督学习的短文本分类算法的应用进行了初步探讨,实现了基于PLR和FB-EN的BBS话题跟踪系统,取得了较好的实用效果。