论文部分内容阅读
大数据时代下,人类社会产生的信息数据正以前所未有的速度增长。其中大部分是以网页形式呈现。由于Web信息资源具有半结构化、实时性、异构性和离散性等的特点,如何对Web资源进行挖掘分析、提取人们所需的特定主题信息,已经成为一项重要的研究课题。本文选取了招投标领域的网上数据作为研究对象。图由点和边组成,是一种常用数据结构,已成为复杂对象及其之间关系的建模工具。网上招投标信息包含了丰富的数据,利用这些数据可以构建出复杂的招标人与投标人关系网络图。图聚类是利用聚类技术在图中分析出内部联系紧密,外部联系松散的聚簇。已经在社交网络、蛋白质复合物检查中应用。在招标人与投标人的关系网络图中,可以利用图聚类方法,挖掘出有价值的信息。本文首先对图聚类和数据挖掘技术进行了深入研究,在此基础上把图聚类与数据挖掘方法相结合应用到招投标领域。建立了基于图聚类的招投标数据挖掘方法体系和模型,此模型采用了Louvain算法作为招投标数据挖掘算法。然后,把上述研究成果应用于招投标数据挖掘系统设计和实现中。在论文中主要围绕图聚类分析方法、数据挖掘技术、信息抽取方法、招投标数据挖掘系统设计与实现,进行了以下方面研究工作。1、提出一种对网页数据特别是网页中的表格数据信息抽取的方法。此方法主要通过人工给出关键字作为标记项,然后对网页样本进行学习,归纳出关键字所在网页标签的路径规则,从而得到网页数据的抽取规则。与以往DOM信息抽取方法比较,更能够适应非规范的网页结构数据。2、通过在招投标数据挖掘中应用二分图聚类分析方法,发现存在一些群体簇,在这些群体簇内部的节点都具有行业背景聚类特征,还了解到招投标关系网络中社团形成所需要的条件。该方法把招标人与投标人看作二分图中的不同类型的顶点,招标人与投标人之间的合作关系通过无向加权图来表示,用图的边权代表他们之间合作关系的紧密程度。3、在以上研究内容基础上,针对指定的招投标网站设计并实现了招投标数据挖掘系统。该系统采用功能模块化设计,能够较好地维护与扩展,满足了网页爬取任务和对招投标数据进行挖掘的要求。4、对系统功能模块和数据挖掘算法分别进行了实验验证,实验结果表明系统爬虫模块能够从指定网站上信息抽取到有效数据。经过与其他社团算法相比较,证明选择Louvain算法作为招投标数据挖掘算法比较适合。