论文部分内容阅读
随着互联网与信息技术的高速发展,各行各业产生的数据也随之增多,这些数据往往能产生巨大的价值,如何挖掘其背后隐藏的核心数据成为了信息技术圈的核心议题。图作为一个经典的数据结构,由于其在描述数据及结构特性等方面的显著优势,被广泛使用在社交网络、本文检索、生物信息等领域。使用图来描述的数据信息被称为图数据,而挖掘图数据中有价值的、隐藏不为人所知的信息则称为图挖掘。在实际应用中,由于数据来源的差异及技术手段的限制,会导致图数据的不精确甚至缺失,不确定图被提出用来表示这种含有不精确信息的图数据,在针对种类数据进行分析处理时必须兼顾不确定性,因此针对不确定图的挖掘问题称为了图挖掘领域的新难题。稠密子图作为一个图中内部边相对密集的子区域一般被视为图的核心部分,如何从不确定图中挖掘出稠密子图具有重要的应用价值和理论意义。本文主要工作内容和研究成果如下:1.本文首先对传统图挖掘中的稠密子图挖掘进行了介绍,其中包括稠密子图的定义,稠密子图挖掘算法的研究背景现状等;接着介绍不确定图的研究背景及数学表达方式;最后介绍了基于不确定图的稠密子图定义及挖掘算法研究现状。2.利用目前的不确定图的稠密挖掘算法所发现的子图,存在着可靠度低、空间复杂度高、稠密度低等缺点。针对以上缺陷本文提出了β-子图及最佳β-子图的概念,并采用贪婪的思想提出了最佳β-子图挖掘算法,实验证明最佳β-子图较以往不确定稠密子图,在可靠性及稠密度都得到了显著提高。3.基于图论的关键词抽取算法在如今得到了广泛使用,但传统的无监督关键词抽取算法存在无法反应词汇语义信息、面对短文本时准确率低等缺点。本文结合word2vec提出了一种词间的文本局部相似度公式,并通过提出的顶点密度概念及候选关键词评价指标DEN,提出了基于不确定图的候选关键词抽取算法,并最终结合IDF提出了关键词评价的优化标准DEN-IDF。实验表明DEN-IDF较传统的关键词抽取算法,准确率得到了显著提升。