论文部分内容阅读
近年来,互联网以及社交通讯的飞速发展给许多企业带来了技术的革新。企业可以通过基于互联网社交平台的投诉反馈通道,快速地收集到各类产品评价及服务质量等投诉反馈信息。对反馈来的信息加以分析和利用的结果能够帮助企业快速了解客户需求,改进产品品质,从而提高销量,为商业决策提供强有力的技术支持。这类投诉反馈信息文本通常篇幅较短,具有实时性强、海量性、稀疏性、表达形式不规范以及样本分布不均衡等特点,不仅继承了短文本特点的同时本身又带有较多的领域特有词汇,这使得传统的改善短文本分类稀疏性的特征扩展方法在投诉类短文本分类中不能表现出较好的结果。本文主要对领域短文本分类中如何改善短文本分类稀疏性进行研究,并以Windows 10操作系统软件的投诉相关短文本为例,针对该类投诉短文本在分类中的特征稀疏性问题提出了一种融合本体与BTM特征扩展的短文本分类方法,为这类领域短文本的分类改善提供了一种思路,实验表明了本文方法能够有效提高短文本分类效果。本文研究的主要工作如下:(1)构建领域词汇本体。本体的任务是收集相关领域的知识,提供该领域中一致认可的词汇,并以不同层次的形式化结构给出这些词汇之间关系的明确定义,这和改善短文本特征稀疏方法的目标一致。因此,为了缓解Windows 10系统投诉短文本特征稀疏问题,本文以Windows 10系统领域特征词汇作为常识知识库,在Protégé软件上使用OWL编码语言构建适合于短文本分类的Windows 10系统领域本体,通过定义关系加强特征词之间的语义联系,并以本体词库作为短文本分类的领域特征词汇扩展集。(2)提出一种融合本体与BTM特征扩展的短文本分类算法。该方法是通过BTM主题模型对短文本语料集进行训练并预测来获得主题特征词,而后融合领域本体中的特征词汇与主题特征词汇构建扩展集合,并使用匹配规则的扩展方法将特征词汇作为短文本的部分特征扩充到原来的短文本中去。最后使用SVM分类算法对扩展后的短文本进行分类,并以扩展后的短文本分类结果作为原短文本分类结果。实验表明本文提出的方法能够有效缓解领域短文本在分类过程中的特征稀疏问题,从而提高了分类效果。(3)设计与实现了短文本信息处理平台。该平台是基于软件工程的思想结合本文的研究理论基础上设计的。该平台通过预处理模块、特征扩展模块以及分类模块这三个模块实现了短文本信息处理的基本功能。经过测试,该平台能够满足领域短文本的分类要求。