基于词向量的短文本分类方法研究

被引量 : 0次 | 上传用户:pjp4057
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,人们日常生活中的沟通交流、信息获取、互动娱乐都高度网络化。其中网络新闻成为了人们获取新闻资讯的重要途径,网络社交平台成为了人们发表言论的重要场所。网络舆情的分析对相关政府部门了解民生、制定政策显得越来越重要。网络上的新闻报道与社交平台上用户发布的内容种类多样,需要对其按照一定的需求进行分类,才能满足面向某些特定领域舆情分析的要求。针对此类问题进行研究后,’本文提出了一套基于词向量的短文本分类框架,主要工作总结如下:(1)本文深入研究了传统的向量空间模型以及短文本的特点,认为向量空间模型非常适合对长文本建模,但难以很好的表达只包含少量词语的短文本,因此引入分布式表达词向量对短文本进行表示。(2)本文研究了基于神经概率语言模型的词向量生成算法,并在Word2Vec的基础上提出了加权连续词袋模型(Weighted Continuous Bag of Words)。同时也研究了主题模型LDA,并提出基于主题分布的词向量生成算法(Word2TopicVec)。(3)本文提出了基于词向量的短文本分类框架,并重点研究了基于词向量相似性度量的短文本扩展方法和基于多种词向量协同表达的短文本特征构造方法。(4)本文通过抓取纽约时报2011年至2013年7个类别的新闻标题和内容构建了实验数据集。我们在此数据集以及复旦中文分类数据集上对比了基准分类方法与本文提出的基于词向量的短文本分类方法的效果,实验结果证明了本文提出方法的有效性。另外,作者还将本文提出的短文本分类方法应用到面向公共安全的跨媒体方法验证平台新闻分类模块。
其他文献
市政公用工程项目具有较强的公益性,且在质量和进度等方面的要求较高。为了提高市政公用工程项目的管理水平,分析了其存在的问题,并提出了相关的解决对策。
为了解精神心理刺激诱发加重银屑病的原因,探讨神经肽在银屑病发病机理中的作用。研究了降钙素基因相关肽(CGRP)在银屑病皮损中的分泌与表达,并确定CGRP作用的靶细胞。应用特异
以对氟氯化苄与乌洛托品为原料,在醋酸和醋酸锌的存在下,利用sommelet反应,"一锅法"合成了对氟苯甲醛,并通过1HNMR和HPLC对产物结构和纯度进行了确定,对乌洛托品用量,催化剂醋
以CSSCI(2012-2013)经济学科收录的22种财经类大学学报为研究对象,运用多种文献计量评价指标与方法,并绘制期刊知识图谱定量研究其学术影响、阶段特征、研究热点及知识基础,
J担保公司自成立以来,紧紧围绕缓解中小微企业融资难、贷款难、担保难等问题,不断加快业务发展速度、提升产品创新能力、优化业务操作流程,保持年度担保额逐年递增,累计为480
招投标制度有利于建立公平的竞争环境、杜绝腐败行为和提高社会资金的利用效益。在工程建设领域推广使用招标交易方式,能达到缩短建设工期、保证建设工程质量、控制投资成本
<正>高留级率、学业失败、各专业方向地位不平等等问题一直困绕法国高中。为此上世纪末法国就曾发动过一次大规模的高中课程改革,然而效果并不明显,学业失败依然严重,学科不
高速公路上利用不停车收费系统,既可以提高收费的效率也使高速公路的管制成本逐渐减少,也方便了道路交通,出行更加便捷。如今,ETC系统的运用已经比较普遍,这篇文章针对ETC系
随着社会的不断发展,人口老龄化的问题日益突出,与之相关的老年医疗保健问题也越来越受到人们的关注,其中间质性肺疾病(interstitial lung disease,ILD)需要引起我们的重视.I
在信息时代,文字愈来愈密集,生活和工作中,我们需要掌握读写能力以应对诸多的问题和挑战。写作是运用语言文字进行情感表达和信息传递的过程,写作体现的不仅是一个人的语言表