中文客户评论对象特征抽取方法

来源 :华侨大学 | 被引量 : 0次 | 上传用户:willingqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的蓬勃发展,越来越多的用户参与到了互联网的共同建设中来,由信息的被动接受者变为信息的主动创作者。因此,在互联网上存在大量用户参与的,对于诸如人、产品等有价值的评论信息。这些评论信息反映了用户的意见、观点和立场,具有重要的研究价值。然而,随着越来越多的用户在互联网上分享自己的观点和意见,这些评论信息迅速的增加累积,仅靠人工的方式已经很难对它们进行分析处理。因此评论意见挖掘技术随之而生,该技术主要涉及特征挖掘、用户观点的抽取、情感分析技术等方面。评论意见挖掘首要工作是评论对象的特征挖掘,其准确性和全面性对后续的研究具有重要意义。由于在评论中不同的词可以用来描述同一种特征,所以评论对象特征的提取及聚类更具有挑战性。针对中文客户评论,对评论对象特征的抽取进行分析和研究。以下概括了本文的主要研究内容:为了从中文客户评论中提取出用户感兴趣的评论对象特征,本研究基于关联规则理论,即Apriori算法提取出频繁特征项集,最后根据三种剪枝规则对频繁特征项集进行剪枝,得到初步的候选评论对象特征集合。然后,针对基于Apriori算法抽取特征的查准率不高的问题,引进领域术语的概念,提高中文客户评论对象特征挖掘的性能。本文将评论对象特征看成是评论语料的领域术语,利用领域一致度和领域相关度度量候选特征与评论领域的关联程度,并对其进行排序,过滤掉那些与领域关联程度低的特征,实现挖掘性能的提高。本文对特征间的语义相似度计算方法进行了改进,既考虑词语间的单独相似度,又考虑了特征词与观点词的共现性。结合基于Hownet的词语相似度和基于特征和观点共现信息的特征相似度提出了一种新的特征语义相似度计算方法。最后,以特征间的语义相似度为聚类依据,对特征进行聚类。该算法将具有一定程度相似性的特征聚集在一起,解决了特征在评论中有不同表述的问题。本文通过互联网获取评论语料,并在实验中验证提出的所有算法,证明了该方法的具有较好的抽取性能。
其他文献
子空间方法是一种根据应用需要对高维数据进行降维处理的方法。它寻找一种线性变换将高维的数据投影到低维的子空间中去以达到降维的目的。这种方法在对高维数据进行处理时表
在已知边带权的连通图中找一棵边权总和最小的生成树的问题很早就被提出和研究[15,14】,并且也得到了广泛的应用【15,14,23】。但是在日常生活中也会遇到这样一类类似的问题,抽象
6PE技术是实现IPV4向IPV6过渡的一种技术,目的是连接IPV6孤岛。它实现了纯IPV6信息跨越IPV4 MPLS骨干网。V6 CE传送IPV6数据至PE,PE支持双栈,可同时处理V4N6业务。然后,6PE路由器
随着XML日益普遍的应用,如何快速准确地访问XML文档中的数据已成为急需解决的关键问题,这涉及到对XML查询语言XQuery实现的优化研究。目前可以通过多种途径对XQuery进行优化,如:
近年来,短信及其增值业务发展迅速-特别国际短信业务具有巨大的发展潜力,已成为业务收入的新增长点。针对特定群体的需求,广州纬视软件有限公司与新加坡某公司合作开发了基于Inte
本研究课题以AT91RM9200处理器为平台,以嵌入式Linux操作系统为软件核心,针对“一卡通”校园网络的功能需求,设计并成功研制了嵌入式通讯服务器。 首先,本文介绍了嵌入式通讯
个性化检索是当前信息检索的研究热点之一。它根据用户的个性化需求,实现信息的自动收集、分析和推送等服务。与一般的信息检索相比,服务的针对性更强,质量更高。相关网页排序结
本文是对中国电信外围系统及外围系统关键技术的研究。 研究设计过程中,本文从电信以往的系统研究着手,通过对一些电信应用系统的实例的分析,这些实例包括BSS(业务支撑系统)
当前,计算机技术发展迅速。随着硬件速度的提高,软件的通用性设计和复杂架构成为提升整体性能的瓶颈,软件自动化的研究成为热点问题,部分求值技术正是这一领域中提高软件效率的方
在软件修改后,为了确认当前的系统的功能是否受到修改的影响通常会进行回归测试。这是软件测试的重要组成部分,最常用的策略是重新运行测试用例集合中已被执行的全部测试用例