Web环境下基于语义关联的文本理解

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:minister635298
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网的环境下,为了更好的处理网络中的各种文本,提出基于文本语义关联关系的文本理解。主要研究文本语义关联的获取和度量,以及将语义关联关系运用到各种文本分析中。为了获取并度量词汇间语义关联信息,提出基于维基百科的文本语义关联的获取。当前对维基百科的使用大多集中在扩展概念的相关概念,而不能够定量的分析概念间的语义相关度。针对这一问题,考虑维基网页文本的半结构化特点,使用概念页面的链接关系构造概念的语义关联网络,并利用各概念页面构造维基百科的词条-概念映射结构。使用马尔科夫随机游走算法在概念网络上获取概念间语义关联强度,通过词条概念映射结构将这种关联关系映射到词汇间。实验结果显示加入维基百科的语义信息,无论是文本主题的获取能力,还是文本的分类和聚类的精度,都有了提高。对于网络特定领域的短文本的语义理解,提出通过对查询接口标签文本进行语义关联分析,研究了网络查询接口的模式匹配这一典型应用。在查询接口的模式匹配上,当前研究主要使用接口表单布局视觉信息,将表单表达成树状结构,进而将接口模式匹配转化到树的匹配。这种方式没有充分利用表单元素的语义信息,特别是标签文本的语义信息。针对这个问题,提出一个基于语义关联的接口模式匹配算法。同时配合链表型的查询接口模型,该算法可以很好的处理接口的模式匹配,进而快速的进行查询接口的集成。实验结果显示了加入语义信息后接口的模式匹配精度和匹配速度都有提高。对于网络中跨领域的长文本的语义理解,提出使用语义关联三层网络结构对文本进行语义关联分析,研究网络新闻、博客等网络长文本的自动摘要。之前的研究大多只能考虑文本中句子的相似度,或考虑句子中单词的重要度,而很少考虑其中的短语语义关联信息。针对这一问题,我们对自动摘要的图模型基于文本语义关联关系进行了优化和改进。在图模型中,普遍的做法是使用句子作为图的顶点,句子间的相似性作为图的带权边。改进后的模型,不仅考虑文本中句子的相关性,而且考虑更低一级的短语级别的相关性。两层语义关联图模型作为文本自动摘要模型在单文本和多文本摘要上的表现,显示了该模型的有效性。对于网络中由用户交互产生的文本的语义理解,提出使用词语向量基于社交网络中海量交互式文本自身进行语义关联分析,研究社交网络中评论的情感倾向性。用户在与互联网的交互中产生大量数据,这些数据中有很多是承载着用户情感的。无论是在微博的热门事件上,还是在网上商城的商品买卖上,用户的评论都是很有价值的,尤其是这些评论的情感倾向。这些情感倾向表达了人们对热门事件的态度和对商品服务的满意程度。对网络评论的情感进行分析,无疑是很有必要的。当前普遍的做法是使用传统的主题分类算法进行或者基于情感词典进行情感分类。这些方式没有考虑到大数据时代的网络环境,对评论的情感分类并不理想。基于词向量的词语特征表达方式,使用Skip-gram模型对评论进行词向量的训练,可以获取词汇间的语义关联。再通过句子生成模型能在不借助外部情感词典的基础上进行情感倾向性分析。实验的结果显示该算法的有效性。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
运动跟踪识别,是计算机视觉的基础和关键技术以及数字图像处理的重要分支。它为用户提供查看和检索的运动信息,为目标特征提取、识别分类提供基础,其结果直接影响行为理解、
目的探讨中青年重症胰腺炎感染患者病原微生物分布及耐药状况。方法选取该院于2016年6月至2017年6月收治的重症胰腺炎患者193例。分别采集标本进行分离培养,以VITEK2-Compat
文章分析了经济数学实施混合教学模式的必要性,介绍了混合教学模式的组织实施过程。实践表明:“经济数学SPOC课程”实施混合教学模式,是促进高职院校优秀学生快速成长、全面
目的探讨儿童急性肾损伤(AKI)的病因及影响预后的因素。方法回顾性分析该院AKI患儿的临床特征、病因分布及转归等情况,分析其与预后的关系。结果婴儿以肾前性因素为主,其余年
通过喷射电沉积的方法制备了高钴含量的钴镍合金镀层,并研究了添加剂糖精钠对镀层表面形貌、组织成分、微观结构、硬度及摩擦磨损性能的影响。结果表明,糖精钠的添加并不影响
近年来,我国发生了多起侵犯老字号正当权利的案件,文章分析了其发生的原因及危害后果,指出人们对商号与企业名称法律关系的误解,提出在现有的法律制度框架下老字号企业维护自己权
《壮医药线点灸》课程是一门中医学类相关专业学生选修课。要想做到“课程思政”的要求,更好地发挥“立德树人”的教育效果,需要结合《壮医药线点灸》课程培养学生壮医特色治
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
视觉感知在人类获取周围环境的知识中起到了不可替代的作用,而图像是视觉感知的重要载体之一。随着智能手机的广泛普及,互联网上的图像资源呈现爆炸性的增长。如果可以模拟人