文本语义分析与挖掘的若干关键问题研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:any_ray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的迅速发展,互联网上共享的文本呈海量趋势增长,包括数字图书馆环境下的大文本和社交媒体文本等。如何有效存储、管理、检索和使用这些文本数据,是摆在人们面前巨大的挑战和亟待解决的研究问题。文本语义分析与挖掘是解决上述问题的基础。互联网大环境下的共享文本具备特殊的属性:1)半结构化;2)多尺度;3)海量;4)复杂关联;5)多样化。本文针对文本的上述属性,结合人工智能、统计分析、自然语言处理、文本挖掘等技术,围绕语义特征选择(语义压缩)、主题词挖掘、主题模型聚类以及中医药文本语义挖掘四个研究内容对不同的文本语料库展开研究,以实现对不同尺度、不同领域文本的深入语义分析和理解。具体研究内容和成果包括:  (1)为了有效融入人为的语义认知,并克服以往研究对象仅局限于特定语种文档的缺陷,提出一种基于词汇语义相关度计算的文档语义特征提取,又名语义压缩。针对中英文语料库,提出HWSC(HowNet&WordNetSemanticCompression)算法实现每篇文档的代表性语义词汇的提取。该算法分别利用HowNet和WordNet知识库系统对中英文本进行词汇语义相关度计算,并在其基础上抽取重要主题的相关主题词汇,以此过滤掉语义不相关词汇,达到语义压缩的目的。  (2)文本数据的海量特性将导致主题浏览的困难。综合考虑单个主题词汇表达不完善、主题重要性标准不一等因素,提出一种融合词组发现和主题排序的关键主题词发现机制。在主题词组发现模型LDA_col(LatentDirichletAllocation_Collocation)的基础上进行词组发现,利用GibbsSampling算法进行参数的有效估计,并针对LDA_col模型的不稳定性进行改进,引入额外变量控制词组和前缀词汇的主题一致性。由于目前的主题模型输出都需要人工浏览去发现自己感兴趣的主题,而且不同用户对主题的重要性定义存在差异,因此为了满足用户不同角度的需求,提出两种重要主题排序机制,分别为基于主题覆盖度(TopicCoverage,TC)和主题相似度(TopicSimilarity,TS)的方法。  (3)针对文本内容的多尺度特性,提出能同时适用于普通文本和大文本的基于主题分析的聚类算法。该方法从主题分析的角度出发,使得聚为同类的文档含有相似的一个或多个主题。针对普通文档,提出一种基于LDA(LatentDirichletAllocation)模型的聚类方法。针对图书文档,利用数字图书的多粒度信息(包括目录以及章节正文),通过对正文信息的特征过滤,并对主题模型LDA进行改进得到LDAC(LDA-extendedClustering)模型,有效的提取目录和章节正文的主题信息,再根据各粒度主题信息中词汇的分布,得到不同图书的三层分布模型,即图书—主题—词汇概率分布结构。最终,根据三层概率分布结构进行相关度计算得到聚类结果。  (4)针对中医药文本,提出一种中药簇挖掘算法,即建立中药间的关联群组。首先对中医药文本进行结构化信息抽取,然后在其基础上提出一种中药配伍挖掘算法——SDE(Support&DependencyEvaluation)算法以及适用于中药网络图的簇挖掘算法——RWLT(RandomWalk&LabelTransmission)算法。为了挖掘配伍中药对,RWLT算法首先为药对计算属性相似度,以此构建中药网络图,然后利用随机游走机制建立类标(类别标签)传播路径,从而通过线性时间实现大尺度中药网络的簇挖掘。同时,在中医专家的指导下,建立两个尺度不一的中药网络图,不仅可以从全局角度展示所有药对间的复杂关联,也可作为该研究方向上的基准数据集。  综上所述,本文的主要工作是解决如何面向不同领域、不同尺度的文本进行语义理解,使得语义分析的结果更有利于计算机对文本的自动理解及其他文本任务,如文本浏览、文本语义检索、互联网话题检测与推荐以及中医药文本知识推荐与检索等。
其他文献
随着科技信息的发展,数字图书馆已经成为图书馆建设的主流方向。数字图书馆中存储的海量信息为数据挖掘提供广泛的应用空间和更高的技术要求。如何高效地利用数据挖掘技术挖
数据挖掘是在大量的数据中提取出人们可理解的、存在潜价值的知识、模式、规则或规律的过程。离群检测与聚类分析是数据挖掘领域中研究非常热门的两个研究课题。这两个课题相
无线传感器网络是由大量的传感器节点以自组织的方式构成的无线网络,其部署区域可能包括危险的工业环境如井矿、核电厂等,因此,在网络运行过程中节点的能耗成为最为关注的热
随着IT技术的飞速发展给我们生活带来大幅改变的同时,伴随而来的信息安全问题也给我们带来越来越大的困扰,特别是计算机软件和数字媒体这类极易被复制、被盗版的特殊商品的保
二十世纪九十年代,随着全球定位系统的应用,更远距离、更高带宽的无线数据传输系统的出现以及计算机和电子技术的高速发展,人类开始开发和测试更加复杂的水面无人艇(Unmanned
随着数据化社会的逐步建立,数据库信息系统在各行各业中扮演的角色也愈发的重要。数据库信息系统在保存了大量的数据的同时,也隐藏了诸多不易发现的有价值信息。在保证准确性的
随着科学技术的发展,人们对图像品质要求的提高,数字图像处理在人们生活中扮演了越来越重要的角色。而图像在采集、编码、传输等过程中,经常会受到噪声信号的污染,也对图像的
在日益多样化的网络应用需求下,传统网络暴露出越来越多的缺陷,使得以追求高开放、高灵活、高可扩展、高可管控为目的的新一代网络体系架构得到了广泛研究,然而在追求开放、灵活
人脸识别是根据人面部影像中的有效信息进行身份鉴别的一项技术,是生物特征识别领域的重要组成部分。凭借在国防安全、社会公共安全以及各行业中的应用前景,人脸识别的研究近
随着互联网爆炸式的发展,越来越多的人开始使用互联网,并且互联网中信息量变得越来越大,导致网络拥堵日益严重,降低了网络服务质量。另一方面,互联网中充斥的暴力、反社会、色情等