基于英文产品信息的特征提取与观点分类研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:long200466
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和电子商务的蓬勃发展,网上交易系统得到了越来越广泛的应用,在给企业带来了经济效益的同时,也给信息系统带来了大量的用户评论。这些海量评论不仅对于顾客有很高的购物导向价值,而且给商家提供了良好的决策理论依据。因此,致力于产品评论信息的观点分类研究成为了文本挖掘的一个重要课题。  与传统的基于文档的产品观点分类的不同,本文采取了基于句子粒度的分析方法。主要内容包括产品特征提取方法研究和基于特征进行观点分类方法研究。  1)产品特征研究。产品特征是一个好的分析产品方式,研究主要包括三方面工作:a)显式特征提取。根据产品信息的重要性不同,构建了3层模型逐层递进提取特征,提取方式是综合利用关联规则和依存分析的策略来实现;b)隐式特征提取。针对隐式特征具有隐含性而易被忽略的特点,采用在显式特征基础上利用关联规则的搭配提取方法和PMI方法的同时加入了相似度的度量条件的方式来实现;c)特征聚类。为了获得高效的评论总结,对由于文化表述等差异造成同一特征不同表述情况,利用改进的K-中心聚类方法实现相似概念聚类。通过以上研究,获得了可观的实验结果。  2)词典研究。根据现有情感词典手工和自动增、删、改情感词,综合考虑句法结构,分析关联词的关联特性对情感程度的影响,构建关联词词典。同时,对情感短语和特征情感词也在搭配方面进行了研究使得情感识别更准确。实验结果表明对词典的改进策略能有效提升观点分类的分类效果。  3)在特征评论上进行观点分类研究。用基于词典分类效果最好的方法分类出来的主观评论训练分类模型,并应用此模型对没有识别出情感的评论重新分类,以提高主观评论的召回率,进而提高观点挖掘的应用价值。实现结果表明,根据基于词典和基于SVM分类相结合的方法取得的分类效果,比仅利用前者F值可以有较大的提高,能满足基于特征观点挖掘的实际应用的需求。
其他文献
随着我国高等教育由精英教育转变为大众教育,高校毕业生就业形势日趋严峻。大学生就业日益困难的一个重要原因就在于就业预期偏高,且主要表现在对于薪酬的预期过高。大学生对
随着网络化信息化的不断深入与发展,企业的内部有很多信息管理系统,如办公自动化系统、客户关系系统、供应链管理系统、财务管理系统、生产管理系统等等。因为Web环境中基于B
在如今互联网普及、家庭电子产品多样化的时代,对家庭播放机的要求也日渐提高。因此,探究红光高清视盘播放机通过网络进行音视频播放势在必行。一旦播放机借助于网络获取音视频
在DAS模型中,用户的数据存储在第三方提供的数据库服务提供端并由第三方负责查询、管理,这种拥有数据库管理员权限,可以随时的访问数据库所有数据。这种情况下,数据库中敏感数据
随着社会经济和互联网技术的飞速发展,客户对产品的个性化要求不断提高,以产品为竞争基础的传统模式正逐渐被以客户为中心的新兴模式取代,细分市场进入到大规模定制时代。大
在分布式文件系统中,一个数据服务器同时要处理来自多个客户端的I/O访问请求。如果数据服务器没有足够的资源来处理所有已到达的以及即将到达的I/O访问请求,大量的I/O访问请求
人脸识别技术不仅是一个交叉性的技术,更是一个富有挑战性的难题。与其它物体相比,由于人脸有多种多样的变形,个体间的差异较大,所以人脸图像特征提取和识别过程比较复杂,而识别算
在过去十年里,语义Web经历了爆炸式的增长。随着语义Web中RDF数据量的增长,其结构和内容也在发生着变化。为了帮助人们了解语义Web的结构和内容,本文通过建立几种链接模型,分析其
如何快速、准确地获取互联网上商品的评论信息,分析出其蕴涵的褒贬倾向,对商家掌握消费者喜好变化和辅助潜在消费者做出购买决策等方面都具有极其重要的意义。然而采用人工方
随着硬件技术的发展,普通的智能手机已经能够进行复杂的图像处理任务,由此推动了移动可视定位技术的产生和发展。当前移动可视定位研究主要采用客户端-服务器模式,利用视觉特征