【摘 要】
:
随着大数据时代的到来,互联网每天产生大量的数据,但数据价值稀疏。如何从海量的文本数据中提取数据价值,变得越来越重要。尤其是电商业务发展迅速,基于产品和服务所产生的用户评论数据信息,对于用户和商家具有重要价值,用户越来越倾向于根据评论信息来帮助进行决策,用户也更加关注评论的细粒度的信息,因此基于文本的观点挖掘技术是个重要的研究方向。传统的机器学习方法在文本挖掘方面效果显著,近年来,由于互联网数据量的
论文部分内容阅读
随着大数据时代的到来,互联网每天产生大量的数据,但数据价值稀疏。如何从海量的文本数据中提取数据价值,变得越来越重要。尤其是电商业务发展迅速,基于产品和服务所产生的用户评论数据信息,对于用户和商家具有重要价值,用户越来越倾向于根据评论信息来帮助进行决策,用户也更加关注评论的细粒度的信息,因此基于文本的观点挖掘技术是个重要的研究方向。传统的机器学习方法在文本挖掘方面效果显著,近年来,由于互联网数据量的海量增长和机器性能的提升,越来越多的学者致力于机器学习和数据挖掘领域的研究,然而,机器学习尤其是监督学习需要大量的标签数据作为训练样本,标注文本需要消耗大量的人力成本。虽然标签数据获取困难但是互联网上存在着大量的未标签数据,这样的数据仍然具有数据价值,充分利用未标签数据的价值避免文本标注是数据挖掘技术继续解决一个问题。本文从实际问题出发,面对用户对海量文本信息的挖掘需求同时针对目前存在的标签数据不足问题进行大量的理论研究和实践探索,采用一种半监督学习的观点挖掘算法来解决目前存在的问题。首先,为了挖掘文本评论的多方面信息,采用观点挖掘技术,包括对文本的方面实体提取,以及基于实体方面的情感分析两部分的内容,基于半监督学习的自训练算法进行方面提取,构建自训练方面提取模型,通过计算单词的重要程度来获取文本的黄金方面,进一步利用词向量模型并依据黄金方面信息生成方面表示词集,获取文本的方面实体信息。这种半监督的学习方法避免了标签数据问题。其次,为了获取方面实体的情感信息并判断情感倾向,采用关联规则来获取方面实体的频繁项集,进一步通过点互信息(PMI)来计算单词直接的关联强度,来获得实体与情感单词之间的匹配。为了提取文本的情感单词并判断情感倾向,构建情感分析模型,采用半监督自训练算法利用种子情感单词和文本语料库生成情感极性词典。并根据方面表示和情感词典对文本进行情感表达提取。这样针对文本数据产生的实体内容和基于实体内容的情感信息,对用户具有更高的参考意义。最后,将方面提取和基于方面实体的情感分析结合生成观点挖掘系统,本系统可以根据互联网大量的文本评论数据,自动的进行数据预处理,通过本文研究的算法模型进行观点挖掘,并生成对于产品或服务的评论摘要。
其他文献
为满足TiNiFe的高强高压的使用要求,开发出一种具有低马氏体相变温度而强度较高的记忆合金接头材料是个实用性很强的研究方向。本文在TiNiFe中添加Mo元素,采用金相显微镜、扫
纳博科夫代表作《洛丽塔》之所以在世界文学史上一直经久不衰,除了其备受争议的题材,更因为作者在创作中不拘一格的叙事手法的运用。本文依托雅克·拉康的"镜像阶段"理论,从
研究目的:本研究旨在运用导师自拟清胰通肠汤保留灌肠治疗腑实热结型急性胰腺炎,在联合常规治疗的基础上,观察其临床疗效及安全性,以此来评价清胰通肠汤治疗急性胰腺炎的临床效果,为其应用于临床提供科学的理论依据。研究方法:将2017年7月至2019年1月湖北省中医院花园山院区脾胃科住院部收治的,与纳入标准相符合的轻症、中重症急性胰腺炎,且辨证为腑实热结型的病人共62例,按住院顺序的先后随机分为治疗组(清胰
为了对东风风神AX7集成主动安全系统的量产进行有效的探索和技术积累,在此系统开发平台的基础上,开发了在纵向动力学控制上的高级驾驶辅助系统(ADAS),包括全速自适应巡航系统(FS
化工分析技术是高职所有化工技术类的专业中具有核心性的专业课程,其特征之一,就是高度的实践性。长期以来,高职化工分析技术专业课程教学存在理论和实践相分离的情况,教学效
脑瘫儿童的康复训练是一个长期的过程,家长的心理状态起着决定性因素。康复护士要注重家长的语言沟通,采用多种适合的语言沟通方式,缓解家长的心理问题,鼓励家长,树立康复的
随着教育事业的不断发展,新课改的深入推行,也使得高考命题思路改变了,不再像之前一样单纯的考察知识技能,更多的是对学生综合能力的考察,所以高三历史教学改革也必须进行。
元代,在我国历史上也是一个存续时间比较短的王朝,其立国仅仅九十七年(1271年-1368年),可是它在海外贸易和对外文化交流方面,却开创了比汉唐时期更为繁荣的中外文化交流的极盛时代
本文通过考察自20世纪80年代以来的文化空间变异,梳理不同时代"京味儿"电视剧的文体与修辞演变特征,总结其以世故人情和历史意识为表征的民族化叙事传统渊源。通过对这一重要
目的观察中西医结合治疗慢性盆腔炎的临床效果。方法选择2016年3月—2017年3月治疗的慢性盆腔炎患者63例。按照治疗方法分为观察组33例和对照组30例。对照组给予抗感染治疗,