【摘 要】
:
随着互联网技术的快速发展,众多电子商务平台服务业和社交平台从萌芽走向成熟。目前许多平台都提供了评论功能,购买商品或体验过服务的消费者都可以对商品或服务进行评论,这些评论表现了消费者们对于消费品或服务不同方面的客观评价。然而,用户却难以通过大量的评论来准确的找到自己所真正需要的信息,因此需要对评论数据进行更为细致的信息挖掘。本文使用潜在方面评分分析,简称LARA算法进行评论文本分析,LARA算法能够
论文部分内容阅读
随着互联网技术的快速发展,众多电子商务平台服务业和社交平台从萌芽走向成熟。目前许多平台都提供了评论功能,购买商品或体验过服务的消费者都可以对商品或服务进行评论,这些评论表现了消费者们对于消费品或服务不同方面的客观评价。然而,用户却难以通过大量的评论来准确的找到自己所真正需要的信息,因此需要对评论数据进行更为细致的信息挖掘。本文使用潜在方面评分分析,简称LARA算法进行评论文本分析,LARA算法能够得到主题层面上关于网络中的评论对某些实体表达的观点情感倾向,以发现每个独立的评论者对每个方面的潜在观点情感倾向,以及评论者在形成实体的整体评分判断时对不同方面的相对重视程度。LARA算法首先对评论文本数据使用方面分割算法进行各个方面的句子切分。首先对所有文本数据进行关键词词频统计,找到符合各个方面出现频率较高的关键词,再通过人为筛选,给出各个方面的关键词,据此得到算法中方面关键词的初始集合,再不断进行迭代更新,直至关键词集合稳定或达到设定的迭代次数限制时,即得到方面关键词集合以及评论文本切分的最终结果。对于评论文本切分的结果,计算相应的方面相对词频矩阵,并作为协变量,以评论总体的评分为响应变量建立LRR潜在回归模型。最大化构建的目标函数来求解参数,参数包括潜在变量方面权重,方面关键词的情感极性等。将方面关键词的情感极性与各方面相对词频矩阵做线性组合即得到方面评分。由此便可以得到原始数据中并不能观察到的潜在变量:各方面评分与各方面权重,进而用于分析酒店各方面的优劣势,以及消费者在选择产品时的偏好行为。本文研究所使用的数据为公开数据集,包含了多个酒店的评论文本及评论者的评分,评分包含总体评分以及多个方面的评分。首先从描述分析层面运用词云图对总体词汇分布与各个方面词汇分布进行分析,发现在评论文本总体中的确包含多个不同方面。随后将LARA算法应用于数据当中,首先是方面分割算法,在一开始为每个预定义的方面手动选择一些seed words种子词,并将它们作为前述中方面分割算法的输入,经过模型计算迭代后得到最终的各方面seed words种子词表。接下来使用LRR潜在评分回归模型对数据进行拟合之后,主要可以从四个方面进行分析:1).方面级别的旅馆分析。本文选择了几家平均总体评分相同,但是各个方面的评分却各不相同的酒店,使用LRR潜在评分模型来预测各个方面的评分,研究发现模型可以检测出来不同酒店在不同方面上的差异。2).消费者级别的旅馆分析。即使是同一家酒店,不同的评论者也可能对某一方面持有不同的观点。我们随机选择了一家酒店中多位总体评分相同但各方面评分却不相同的消费者,并使用LRR模型对消费者在各个方面潜在的评分进行预测,研究结果表明模型可以通过预测单个消费者评论中的方面评分来进一步检测针对不同消费者各方面评分差异的能力。这将能够更好地帮助用户基于自己对各个方面的喜好,根据评论来做出明智的决策。3).语料库特定词情感取向。除了预测整个评论文本的潜在方面评分外,LRR还可以识别各个单词在各个方面中的情感取向。与传统的基于预定义词典的无监督情感分类方法不同,LRR可以直接从给定的数据中发现单词的情感信息,即LRR模型中的参数,即词汇在不同方面中情感极性的结果。可以为我们提供特定于给定领域方面的单词情感方向极性信息,有助于增强现有特定领域的预定义情感极性词典。4).评分行为分析。通过模型拟合,推断得到每个单独评论对于每个方面的隐藏方面权重,我们就可以了解到不同评论者对于不同方面的相对重视程度,基于此可以用来对用户在评论时的行为偏好是怎么样的进行分析。
其他文献
在高维数据情况下,传统的线性回归模型的参数变得不可估计,变量选择是解决此类问题的一个很好的方法。在稀疏情况下,能够从众多解释变量中筛选出关键的变量显得更为重要,这不仅增强了模型的解释能力,也减低了模型的复杂度。在很多领域数据都存在高维稀疏的情况,特别是生物医学中的基因表达数据,高维数据下的回归方法和变量选择方法在该领域得到了广泛的研究和应用。在高维数据问题上,经典的变量选择方法如最优子集选择、前向
荧光分子断层成像具有无电离辐射特性、无创性、高灵敏性和高特异性,常用于监测肿瘤生长和评价治疗反应,有广阔的应用前景,成为研究者们的关注热点。但光子在生物组织内的散射效应导致了低能量可见光光子的探测,故该成像重建问题有严重的病态性,容易受到噪声和模型误差的影响,很难得到唯一、准确、稳定的解。可行域提取方法通过在成像物体内划分出部分区域作为重建区域,减轻重建问题的病态性,提高重建质量。因此,本文工作聚
普惠金融体系(Inclusive Financial System)的概念由联合国于2005年提出,具体含义为利用有效的方式使金融服务惠及每一个人,尤其是那些通过传统金融体系难以获得金融服务的弱势群体。随着世界各国对其的实践,普惠金融的促进经济增长、消除贫困的意义也越来越被国际社会所认可。2016年杭州G20峰会上我国推动并参与制定的《G20数字普惠金融高级原则》正式通过,数字普惠金融的发展正式提
自2020年以来,新型冠状肺炎在全球蔓延,尽管我国疫情防控工作已经取得了巨大的进展,但是疫情防控压力依然很大,稍有不慎,疫情就会马上蔓延开来。而口鼻传播是病毒传播的最主要方式,戴口罩的方式就可以大大减小病毒的感染概率,所以口罩是我们日常出行必备的物品。在公共场所以及各种人流量比较大的地方进行口罩佩戴检测是必须坚持实施的有效防疫措施。鉴于人工进行口罩佩戴检测和口罩佩戴规范检测比较消耗人力,本文提出了
人脸任意属性编辑是计算机视觉与生成模型研究的热点,它是建立在人脸识别和人脸生成基础上的应用技术。其主要目的是根据给定的人脸属性标签值来控制人脸图像的任意属性表示,从而获得满足指定属性要求的伪人脸图像,同时生成的伪人脸图像中不需更改的图像区域与原图像保持一致。近年来,人脸任意属性编辑已广泛应用于医疗、美容、刑侦、娱乐和面部识别等领域,受到了越来越多的关注。目前人脸任意属性编辑模型通常结合编解码器和生
基于深度学习的图像生成技术在风格迁移、人脸属性编辑等领域大放异彩,但同时也降低了图像造假的门槛,各种图像生成技术的滥用使得市面上伪造图像泛滥,给个人及社会都带来了名誉等方面的负面影响,因此,伪造图像检测技术成为图像领域的研究热点之一。现有的检测技术主要面向低分辨率图像,在特定伪造图像生成方法的生成图上检测效果好,但在其他方法生成图上检测效果较差。而实际应用场景中,图像来源多数不明,无法进行针对性检
近年来,中国经济市场化程度日益提高,市场竞争的环境愈发趋于复杂,上市公司由于经营业绩下滑、债务偿还能力下降而导致的信用违约事件频频发生。为了强化上市公司抵抗风险的能力,让管理层尽早了解并采取措施处理潜在危机,对上市公司信用风险进行早期预警就显得意义重大。“因财务状况异常而遭受特殊处置(ST)”作为中国证监会对主营业务经营状况不佳的上市公司的一种处置方式,是投资机构或投资人在做出交易决策前必须参考的
生物发光断层成像(Bioluminescence Tomography,BLT)是一种应用前景广阔的光学分子影像技术,它具有非侵入性和高灵敏度的特点,能够在细胞和分子水平对生物体内病变区域的病理和生理变化进行定量监测。BLT结合CT成像技术能够同时采集生物组织内部结构信息和生物体表面光学信息,进而实现对生物体内病灶部位的检测与成像。BLT具有成本低、灵敏度高等优势,在临床研究和疾病诊断中具有越来越
利用计算机程序对物理世界的客观事物进行实验建模时,其中的变量参数往往并不确定,而是通过某种形式不断改变。因此,实验者常常会将函数模型中的输入看作是随机变量,并通过计算机实验来获取关于函数输出结果的概率分布信息。然而,计算机实验的构建与运行必然产生一定的成本,当实验次数N由于外部环境要求而有所限制时,实验者应当更加理智地选取输入变量的取值。为了解决上述问题,Mc Kay等(1979)以及Iman和C
高考志愿填报是高考中的重要环节,对考生和家长而言意义深远。然而面对复杂多样的院校和专业信息,考生和家长很难在短时间内做出最符合自身需求的选择。个性化推荐能够根据用户特征和偏好推荐感兴趣的信息,已经在在线教育、专家筛选等教学科研领域得到成功的应用。针对高考志愿填报,本文进行了个性化高考志愿推荐系统研究,结合个人工作内容和多年从事高考招录工作的工作经验,构造高考志愿推荐文本,利用改进的卷积神经网络对文