【摘 要】
:
随着互联网技术的高速发展,网络上的文本种类越来越多并且日益高速增长,人工筛选适合的文本种类是不切实际的,对互联网上的各类文本进行信息采集就不可避免的使用到智能化的
论文部分内容阅读
随着互联网技术的高速发展,网络上的文本种类越来越多并且日益高速增长,人工筛选适合的文本种类是不切实际的,对互联网上的各类文本进行信息采集就不可避免的使用到智能化的计算机技术,其主要目的就是将杂乱无章的文本进行分类,同时对文本语义相似度的计算将在同一类文本中进行。在信息检索、信息过滤、自动分类等各类领域,文本分类都扮演着极其重要角色。本文主要进行了两方面的研究,一是将改进的语义理解和机器学习相结合提出了混合分类框架对文本进行情感分类。二是利用文本情感分类的相关理论研究,对文本进行子类的划分,在子类划分基础上计算其语义相似度并将其应用到了建筑施工测试培训系统的试题分类模块中。从以下几个方面概述本文的主要研究成果:(1)针对《知网》计算词语相似度没有考虑词语情感因素的不足,提出了引入情感义原计算概念情感相似度的计算公式,在一定程度上提高了词语相似度计算的准确率。(2)改进了SO_PMI,对基准词选择,窗口大小提出了自己的计算公式,并将同义词引入SO_PMI算法解决了数据稀松的问题并使其更加符合人的表达习惯。(3)改进了互信息的特征选择方法,充分考虑了词频、分散度以及正负相关词汇对特征项的影响。(4)针对语义理解和机器学习在文本情感分类中的不足,将改进的语义理解和机器学习相结合构建基于混合框架的分类器,提高了分类器对文本情感分类的准确性和可移植性。(5)针对现存语义相似度计算的不足,提出将文本分类引入文本语义相似度计算,即在同类别的文本分类前提下才有必要计算其语义相似度,否则不予计算。
其他文献
在如今科技飞速发展的时代,无论是科学研究还是社会生活领域,都收集和积累了大量的数据。对这些数据进行有效地分析和利用,不仅是计算机科学发展的目标,同时也能在很大程度上
随着无线Ad hoc网络技术的快速发展,无线用户已经不能仅仅满足于简单的数据通信。有严格时延、错误率限制的实时多播业务需求正在迅猛增加。然而无线网络带宽多变、冲突频繁
Web服务技术解决了信息系统之间的交互问题,促进了企业对企业(Business to Business)和企业应用集成(EAI, Enterprise Application Integration)技术的发展。但是对于商业应
随着信息技术和网络技术的发展,很多企业都有自己的局域网,各种对应的网络设备层出不穷。这些设备虽然可以调节自己的时钟,但是无法保证所有的设备和主机的时间是同步的。本文所
已有的电子支付系统大多采用联机在线支付方式,不支持电子现金找零,给实际应用带来很多困难。金融国际化和经济全球化要求克服国内已有电子支付网络平台难以普及的弱点,开发一种
数字信号处理(Digital Signal Processing,DSP)普遍采取静态指令调度技术的VLIW(Very Long Instruction Word)体系结构,在很大程度上依赖编译器的处理。这对编译器的设计和应用
无缝拼接系统是对多媒体进行大范围、高分辨率显示的一种有效实现方式。它所带来的超大画面、多屏显示以及清晰逼真的显示效果使得监控、安防、会议、模拟仿真等领域的工作效
随着汽车行业的快速发展,汽车控制网络(简称车控网)开发周期的缩短和开发成本的降低,对于汽车开发来说,变得越来越重要。为车控网的开发引入低成本的软硬件协同设计开发工具链,特
硬件发展模式从以前的提高CPU主频速度转变为现在的增加CPU内核数量,注定了软件开发技术的变革。软件的性能再也不可能因为硬件的简单升级而带来显著提高。想要发挥多核的威
基于无线传感器网络(WSN)的目标监测是无线传感器网络最广泛和最重要的应用之一,也是当前研究热点之一。由于具有自适应性、灵活性和低能耗性等特点,基于无线传感器网络的目