【摘 要】
:
近年来,随着互联网金融和电子商务的快速发展,各种网络商城已经处在一个信息爆炸式增长的环境下,越来越多的人喜欢在网上购物时对商品和商家的服务提出自已的观点,这使得互联网商城的商品评论信息数量呈几何级数增长。顾客对商品的评论代表对商家的产品和服务的态度,所以,将这些商品的评论进行文本挖掘和情感分析对研究商品在客户们之间的口碑,进行商品推荐,垃圾信息过滤,了解用户心态,掌握市场第一动态以及对商家服务的改
论文部分内容阅读
近年来,随着互联网金融和电子商务的快速发展,各种网络商城已经处在一个信息爆炸式增长的环境下,越来越多的人喜欢在网上购物时对商品和商家的服务提出自已的观点,这使得互联网商城的商品评论信息数量呈几何级数增长。顾客对商品的评论代表对商家的产品和服务的态度,所以,将这些商品的评论进行文本挖掘和情感分析对研究商品在客户们之间的口碑,进行商品推荐,垃圾信息过滤,了解用户心态,掌握市场第一动态以及对商家服务的改善有着极大的帮助。一般传统的文本情感分类主要的方法是对文本进行预处理后,建造词向量,然后提取特征,最后用分类或聚类的方法对这些数据进行情感分类。在传统的情感分类方法里,特征工程是最重要的一个环节,对分类的结果影响最大。但是,传统的TF-IDF和Word2vec方法提取的文本特征内容有限,表达能力弱,对短文本中词向量与上下文的关系和词向量的词频权重难以兼顾,这些方法提取的特征词对整个短文本的代表性不强,影响分类效果。为了解决这个问题,本文做了以下几个工作:第一,使用Word2vec的skip-gram模型,计算出每个词推导出整句话的概率,其中概率最大的几个词汇是这个短文本中的关键词;然后以概率递减的顺序将每个词进行排序,对这些词语进行二次建模;第二,改进TF-IDF,往TF-IDF中加入词语自身长度代表内容多少的概念,计算第一步提取出的关键词的TF-IDF值;第三,对第一步已经创建好的Word2vec词向量进行TF-IDF加权处理,创建一个新的T-Word2vec特征表示法;最后使用支持向量机对样本数据进行分类测试。大量实验表明:使用T-Word2vec为特征项进行情感分类,得出的分类结果的各项指标均比传统的TF-IDF和Word2vec词向量表示法有了显著的提高,并且在运行时间上也低于Word2vec模型。
其他文献
机器阅读理解是自然语言处理领域重要的研究方向,根据提供的文本数量,可以分为单文本阅读理解模型和多本文阅读理解模型,鉴于后者具有更高的挑战性和实际应用价值,本文专注于多文本阅读理解模型在中文阅读理解数据集的研究,模型的架构包括段落选择器和文本阅读器。对于给定的问题、文档和参考答案,首先,通过段落选择器从文档中选出与参考答案相关性较高的段落,然后,文本阅读器在选择的段落上完成阅读工作,并预测出答案的范
随着人们对全球教育的重视和物质基础的提升,不同国家高校之间的访学交流变得越来越频繁。学术论坛的交替传译与会议口译类似。口译员是双方交流的桥梁,在进行口译活动前译员应做好充足的译前准备,通过不断的实践和练习,来提高口译质量。作者在2018年6月和2019年6月担任旧金山州立大学研学项目的交替传译员和陪同口译员。本篇口译实践报告的口译材料是基于在该项目期间,笔者为四次论坛所做的交替传译部分。笔者的口译
随着社会的发展,各类工程爆破作业大幅度增加,如果不能及时将天然地震波形和人工爆破波形区分开,会严重混淆地震目录,对地震学研究造成影响。地震波形属于非线性、非平稳信号
内蒙古成吉思汗陵是国家五A级的旅游景区,同时也是蒙古族文化最为集中和深厚的聚集地。每年都会有蒙古族典型的祭祀活动在成吉思汗陵举办,加之国内外蒙古族文化研究者的到访,使得成吉思汗陵在传播蒙古族文化方面成为必去景观。景区分新旧两大陵区,分别是参观区和祭祀区,整个成吉思汗陵再次呈现蒙元王朝雄伟气派,也向人们展示了蒙古族独特的游牧文明。翻译目的论解决了其他翻译理论未能解决的问题,摆脱了文本中心的翻译禁锢理
目的:本研究旨在分析原代乳腺癌上皮细胞和正常上皮细胞表面增强拉曼光谱的差异与联系,并且将随机森林应用于乳腺癌诊断模型构建。方法:采用机械-酶消化法获得同一患者乳腺癌组织及正常腺体组织的单细胞悬液,流式分选技术分选CD326+/CD45-原代乳腺癌上皮细胞和正常上皮细胞,检测并分析原代乳腺癌上皮细胞和正常上皮细胞表面增强拉曼光谱的差异与联系,采用机器学习构建乳腺癌的诊断模型。结果:对比原代乳腺癌上皮
发酵乳作为最受欢迎的乳制品,其感官品质一直都是产品的生命线。但是,目前发酵乳的感官品质控制仍依赖于传统的人工感官评定方法,在实施过程中存在诸多不便和困难,限制了发酵
近年来,中国的水污染问题日益严峻,污水处理行业受到空前关注。作为污水处理的关键,絮凝沉降法是国内外常用的提高水质处理效率的方法,线性超高分子量阳离子型聚丙烯酰胺絮凝
循环神经网络因其优秀的序列建模能力,广泛被应用于自然语言处理领域的各项任务。其中,在对句子嵌入表示进行学习时,循环神经网络通常以句子的词序列信息为输入。但对于中文等没有天然词语分隔符的语言,在句子的分词预处理过程中,非最优的分词粒度和分词错误会破坏句子的语义和结构,影响循环神经网络模型对于句子语义信息的建模。为解决上述问题,本文提出了基于词格的神经网络句子表示学习模型。词格作为一种图结构表示形式,
功能游戏是衍生于计算机和网络技术的新型媒介,其具体定义为:不以纯娱乐为主要目的,且在技能培训,教育和医疗健康等方面有着较为明确用途的游戏,其形式属于电子游戏。功能游戏相比纯娱乐性质的电子游戏,具有承载更多有效的、有目的信息的特征,又因其自身具备的游戏性,是争夺用户群体注意力的有效工具。目前已有一些文化领域的研究人员和从业者尝试将其作为历史文化知识的传播工具。当前对功能游戏的研究集中在功能游戏实现其
作为国际商事仲裁实践的创新,紧急仲裁员制度在临时措施救济方面为当事人提供了更多的选择。为了适应实践的发展,许多知名的国际商事仲裁机构都通过修改仲裁规则的方式增加了紧急仲裁员制度。在此背景下,我国一些仲裁机构为了适应国际商事仲裁的发展,提高机构的竞争力和吸引力,也对仲裁规则进行了修改,增加了紧急仲裁员制度并对其进行了详细规定。但是由于我国仲裁现状、法治环境等等的影响,紧急仲裁员制度在适用的过程中还存