论文部分内容阅读
随着网络信息技术的发展,互联网数据及资源大幅增加,呈海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近些年逐渐成为倍受关注的领域。其中,文本分类(text categorization, TC)技术是信息检索和文本挖掘的重要基础,其主要任务是根据预先给定类别(label)文档集及文档所属内容,通过学习得出分类模型,进而通过分类模型再判断或预测新的文档的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典。但是近些年来,随着web2.0的兴起,社会网络,比如人人网、Facebook、 Twitter、新浪微博等不仅变得非常流行,也成为现代人们的一种生活方式。而这些数据80%以上为自然语言文本,产生了海量用户产生数据(UGC),充斥着巨大的网络空间。社会网络中的文本因为有其自身存在的一些特点,许多针对长文本的分类技术在其上并不能取得很好的效果,其主要存在三个突出特点:高维性、稀疏性、不规范性。换言之,这样的几千个短的文本都很可能产生上万维的向量,这对于分类算法来是太耗时,导致效率低下;而且相对于长文本来说,它的关键词少,特征稀疏,很难抽取有效特征,更难以挖掘特征相互之间的关联性;另外,用语不规范和流行语多,是网络文本的最大特点,也为这类文本挖掘带来了诸多难点。特别是短文本,由于字数较少,甚至一些会有字数限制,因此用语表达更为简洁简练,本来普通的长本文本,就会有部分的一词多义及同义词,而社会网络中的文本的缩略语及流行语的使用更是增加了文本中的同义词,使文本分类任务更难处理。本文鉴于社会网络中产生的文本存在的特点及其所带来的问题,对其展开研究。由于这些文本字数少、数量多,造成样本特征稀疏,特征维数较高,不能很好的抽取出文本关键特征。传统的方法采用关键词作为文本的特征,一方面将会在一定程度上丢失文本语义信息,即不会考虑到同义词及一词多义,导致分类准确率较低;另一方面,为了保证分类准确率,会使用上万维特征,这使得分类算法效率很低,换言之,分类效率和准确率不可兼得。针对以上两个问题,我们分别提出了两类算法:1)通过LSI来挖掘web服务所用的WSDL语言中的潜在语义,提出了LSI+EM聚类算法对服务进行聚类,然后用SVM进行高效分类,研究多类分类的效率问题;2)使用LDA进行潜在主题分析,用主题作为向量空间模型中的特征,即相当于对向量空间模型中添加了语义信息,提出LDA+SVM分类算法分别在两个数据集上进行分类。实验结果表明,1)和2)两种方法既降低了数据维数,而且提高了分类准确率,完美解决了分类效率和准确率不可兼得的问题。