基于潜在语义分析的文本分类算法研究

被引量 : 0次 | 上传用户:net_goose
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的发展,互联网数据及资源大幅增加,呈海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近些年逐渐成为倍受关注的领域。其中,文本分类(text categorization, TC)技术是信息检索和文本挖掘的重要基础,其主要任务是根据预先给定类别(label)文档集及文档所属内容,通过学习得出分类模型,进而通过分类模型再判断或预测新的文档的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典。但是近些年来,随着web2.0的兴起,社会网络,比如人人网、Facebook、 Twitter、新浪微博等不仅变得非常流行,也成为现代人们的一种生活方式。而这些数据80%以上为自然语言文本,产生了海量用户产生数据(UGC),充斥着巨大的网络空间。社会网络中的文本因为有其自身存在的一些特点,许多针对长文本的分类技术在其上并不能取得很好的效果,其主要存在三个突出特点:高维性、稀疏性、不规范性。换言之,这样的几千个短的文本都很可能产生上万维的向量,这对于分类算法来是太耗时,导致效率低下;而且相对于长文本来说,它的关键词少,特征稀疏,很难抽取有效特征,更难以挖掘特征相互之间的关联性;另外,用语不规范和流行语多,是网络文本的最大特点,也为这类文本挖掘带来了诸多难点。特别是短文本,由于字数较少,甚至一些会有字数限制,因此用语表达更为简洁简练,本来普通的长本文本,就会有部分的一词多义及同义词,而社会网络中的文本的缩略语及流行语的使用更是增加了文本中的同义词,使文本分类任务更难处理。本文鉴于社会网络中产生的文本存在的特点及其所带来的问题,对其展开研究。由于这些文本字数少、数量多,造成样本特征稀疏,特征维数较高,不能很好的抽取出文本关键特征。传统的方法采用关键词作为文本的特征,一方面将会在一定程度上丢失文本语义信息,即不会考虑到同义词及一词多义,导致分类准确率较低;另一方面,为了保证分类准确率,会使用上万维特征,这使得分类算法效率很低,换言之,分类效率和准确率不可兼得。针对以上两个问题,我们分别提出了两类算法:1)通过LSI来挖掘web服务所用的WSDL语言中的潜在语义,提出了LSI+EM聚类算法对服务进行聚类,然后用SVM进行高效分类,研究多类分类的效率问题;2)使用LDA进行潜在主题分析,用主题作为向量空间模型中的特征,即相当于对向量空间模型中添加了语义信息,提出LDA+SVM分类算法分别在两个数据集上进行分类。实验结果表明,1)和2)两种方法既降低了数据维数,而且提高了分类准确率,完美解决了分类效率和准确率不可兼得的问题。
其他文献
武术作为中华民族的瑰宝,是中华民族传统体育文化中的精华,其历史源远流长,其内容博大精深,并且蕴藏着浓厚的民族精神和深奥的哲学内涵,具有多元化、多层次的教育价值、文化价值、
MIMO技术是新一代无线通信的核心技术,在不占用带宽的情况下,利用多个天线进行收发提高系统的通信容量。如何快速智能地控制系统,实现频率源的快速精确控制具有很重要的现实意义
常用的毫米波通信接收机有直接检波式接收机和超外差变频式接收机,而3毫米放大检波电路是一种直接检波式毫米波接收机组件。为了增强接收机灵敏度,通常要在检波器前置低噪声
[目的]评价DOTS策略下云南省涂阳肺结核病患者的抗结核治疗效果并分析影响因素。分析云南省涂阳肺结核病患者耐药情况和不同耐药类型对治疗效果的影响。[方法]本课题为描述性
可持续安全是21世纪国际政治研究领域的新课题。其核心假设是:“我们无法控制非安全因素带来的所有结果,但必须努力解决其根源。”可持续安全理念在推动国际社会安全合作,共同解
无线通信业务发展迅猛,然而我们的频谱资源却变得越来越紧张,两者的矛盾急需解决。从20世纪90年代发展起来的多天线技术成为了解决上述问题的关键。MIMO通信系统在很大程度上提
林业作为我国国民经济的重要部门之一,从根本上讲是对森林资源的利用和再生产,其发展基础是扩大资源和更新资源。森林培育是林业的基础,更是扩大和更新森林资源的一项建设事业。
为了提高业务数据速率,新一代宽带无线移动通信系统IMT-A明确指出,传输信号带宽需要扩展到100MHz。宽带射频功率放大器作为通信系统中必不可少的关键器件,存在固有的非线性和记
<正>随着自主旅游时代的到来,人们不再满足于单纯的"观山看水",更多要求在旅游的过程中获得个性化的参与和体验。中国城市建设研究院无界景观工作室与齐欣建筑合作完成的河北
異文是指同一書的不同版本,或不同的書記载同一事物而字句互異的现象。漢文典籍常見,從古至今同一著作的不同版本均有不同程度的反映。儘管異文在一定程度上給人们的學習和理