融合本体与BTM特征扩展的短文本分类

来源 :广西师范大学 | 被引量 : 2次 | 上传用户:wahyle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网以及社交通讯的飞速发展给许多企业带来了技术的革新。企业可以通过基于互联网社交平台的投诉反馈通道,快速地收集到各类产品评价及服务质量等投诉反馈信息。对反馈来的信息加以分析和利用的结果能够帮助企业快速了解客户需求,改进产品品质,从而提高销量,为商业决策提供强有力的技术支持。这类投诉反馈信息文本通常篇幅较短,具有实时性强、海量性、稀疏性、表达形式不规范以及样本分布不均衡等特点,不仅继承了短文本特点的同时本身又带有较多的领域特有词汇,这使得传统的改善短文本分类稀疏性的特征扩展方法在投诉类短文本分类中不能表现出较好的结果。本文主要对领域短文本分类中如何改善短文本分类稀疏性进行研究,并以Windows 10操作系统软件的投诉相关短文本为例,针对该类投诉短文本在分类中的特征稀疏性问题提出了一种融合本体与BTM特征扩展的短文本分类方法,为这类领域短文本的分类改善提供了一种思路,实验表明了本文方法能够有效提高短文本分类效果。本文研究的主要工作如下:(1)构建领域词汇本体。本体的任务是收集相关领域的知识,提供该领域中一致认可的词汇,并以不同层次的形式化结构给出这些词汇之间关系的明确定义,这和改善短文本特征稀疏方法的目标一致。因此,为了缓解Windows 10系统投诉短文本特征稀疏问题,本文以Windows 10系统领域特征词汇作为常识知识库,在Protégé软件上使用OWL编码语言构建适合于短文本分类的Windows 10系统领域本体,通过定义关系加强特征词之间的语义联系,并以本体词库作为短文本分类的领域特征词汇扩展集。(2)提出一种融合本体与BTM特征扩展的短文本分类算法。该方法是通过BTM主题模型对短文本语料集进行训练并预测来获得主题特征词,而后融合领域本体中的特征词汇与主题特征词汇构建扩展集合,并使用匹配规则的扩展方法将特征词汇作为短文本的部分特征扩充到原来的短文本中去。最后使用SVM分类算法对扩展后的短文本进行分类,并以扩展后的短文本分类结果作为原短文本分类结果。实验表明本文提出的方法能够有效缓解领域短文本在分类过程中的特征稀疏问题,从而提高了分类效果。(3)设计与实现了短文本信息处理平台。该平台是基于软件工程的思想结合本文的研究理论基础上设计的。该平台通过预处理模块、特征扩展模块以及分类模块这三个模块实现了短文本信息处理的基本功能。经过测试,该平台能够满足领域短文本的分类要求。
其他文献
多媒体信息安全是多媒体领域与信息安全领域的交叉研究课题,在近年引起了研究人员的广泛关注。作为一项重要的多媒体信息安全保护技术,多媒体哈希已被成功应用到多媒体信息检
当前物流市场全面开放的格局加剧了各类物流企业的竞争态势。作为国有大型传统物流企业中国外运长航集团的下属机构,广西北海外运有限公司如何在不断变化的物流环境中做出相
在声呐技术中,声呐图像分割结果的准确性直接影响后续的处理环节以及最终对声呐图像的理解,因此声呐图像分割在声呐技术中具有重要的地位。但是由于声呐图像受海底噪声影响,
随着信息技术的飞速发展,作为分离有用和无用信号的模拟滤波器是信息产业中的重要部件,其性能的优劣直接影响整个信息系统的质量。由于电流模式电路在带宽、速度以及线性度等
随着现代工业技术的不断发展,数字电路的集成度越来越高,系统芯片(System-on-a-Chip,SoC)上集成的知识产权核(Intellectual Property,IP)越来越多,功能也越来越复杂。在测试
3D视频以其观看时强烈的立体感和全新的视觉体验日渐成为数字媒体发展的主要趋势,而在目前2D-3D图像/视频转换技术中,基于深度图绘制(DIBR)3D图像技术由于具有所需的数据量小
在这个数据日益增长的时代,各类电子设备在每时每刻都会产生或多或少的数据,有时产生的数据往往维度非常高,即称为高维大数据,然而数据挖掘中需要处理的高维数据通常包含冗余
左手材料是等效介电常数与等效磁导率同时为负的一种新型人工材料。作为21世纪科学界的最大发现,它奇异的微波特性很快就引起了广大学者的研究兴趣。负折射、逆多普勒效应和
“精准农业”是当今农业最富有吸引力的前沿课题,通过引入现代技术和科学管理方式,获取农作物生长过程中的参数信息,辅助管理人员做出科学决策,以提高农作物的产量。多光谱技
人类对无线电频谱资源的需求急剧膨胀,为了有效地利用稀缺的无线电频谱资源,一些频谱利用率较高的调制方式和传输技术如多电平正交幅度调制(M-QAM)、正交频分复用(OFDM)、宽