论文部分内容阅读
在互联网的环境下,为了更好的处理网络中的各种文本,提出基于文本语义关联关系的文本理解。主要研究文本语义关联的获取和度量,以及将语义关联关系运用到各种文本分析中。为了获取并度量词汇间语义关联信息,提出基于维基百科的文本语义关联的获取。当前对维基百科的使用大多集中在扩展概念的相关概念,而不能够定量的分析概念间的语义相关度。针对这一问题,考虑维基网页文本的半结构化特点,使用概念页面的链接关系构造概念的语义关联网络,并利用各概念页面构造维基百科的词条-概念映射结构。使用马尔科夫随机游走算法在概念网络上获取概念间语义关联强度,通过词条概念映射结构将这种关联关系映射到词汇间。实验结果显示加入维基百科的语义信息,无论是文本主题的获取能力,还是文本的分类和聚类的精度,都有了提高。对于网络特定领域的短文本的语义理解,提出通过对查询接口标签文本进行语义关联分析,研究了网络查询接口的模式匹配这一典型应用。在查询接口的模式匹配上,当前研究主要使用接口表单布局视觉信息,将表单表达成树状结构,进而将接口模式匹配转化到树的匹配。这种方式没有充分利用表单元素的语义信息,特别是标签文本的语义信息。针对这个问题,提出一个基于语义关联的接口模式匹配算法。同时配合链表型的查询接口模型,该算法可以很好的处理接口的模式匹配,进而快速的进行查询接口的集成。实验结果显示了加入语义信息后接口的模式匹配精度和匹配速度都有提高。对于网络中跨领域的长文本的语义理解,提出使用语义关联三层网络结构对文本进行语义关联分析,研究网络新闻、博客等网络长文本的自动摘要。之前的研究大多只能考虑文本中句子的相似度,或考虑句子中单词的重要度,而很少考虑其中的短语语义关联信息。针对这一问题,我们对自动摘要的图模型基于文本语义关联关系进行了优化和改进。在图模型中,普遍的做法是使用句子作为图的顶点,句子间的相似性作为图的带权边。改进后的模型,不仅考虑文本中句子的相关性,而且考虑更低一级的短语级别的相关性。两层语义关联图模型作为文本自动摘要模型在单文本和多文本摘要上的表现,显示了该模型的有效性。对于网络中由用户交互产生的文本的语义理解,提出使用词语向量基于社交网络中海量交互式文本自身进行语义关联分析,研究社交网络中评论的情感倾向性。用户在与互联网的交互中产生大量数据,这些数据中有很多是承载着用户情感的。无论是在微博的热门事件上,还是在网上商城的商品买卖上,用户的评论都是很有价值的,尤其是这些评论的情感倾向。这些情感倾向表达了人们对热门事件的态度和对商品服务的满意程度。对网络评论的情感进行分析,无疑是很有必要的。当前普遍的做法是使用传统的主题分类算法进行或者基于情感词典进行情感分类。这些方式没有考虑到大数据时代的网络环境,对评论的情感分类并不理想。基于词向量的词语特征表达方式,使用Skip-gram模型对评论进行词向量的训练,可以获取词汇间的语义关联。再通过句子生成模型能在不借助外部情感词典的基础上进行情感倾向性分析。实验的结果显示该算法的有效性。