论文部分内容阅读
电子商务在近二十年的蓬勃发展取得了世人瞩目的业绩,并以一种前所未有的方式改变着传统的商务活动的模式和格局,更深刻地影响着人们对商务的认识和理解,改变着人们的生活和工作方式。随着网络规模在全球的迅猛发展,Internet上的Web站点及网页数量在以爆炸性的趋势增长同时随着网络技术的不断进步,越来越多的Web数据库需要通过网络查询入口才能进行访问,学术界称其为深层网(Deep Web)。经相关研究机构和商业机构的调查,万维网中深层网的数据存储数量非常巨大,其中电子商务数据占了很大的比重。这些电子商务数据具有很高的商用价值。然而由于这些电子商务网站网页形式与内容开发的独立性,造成了Web数据库,特别是查询入口的异构性。正因为此原因,自动的从电子商务网站中获取有价值的信息和数据变成了一件十分具有挑战性的任务。本文针对深层网挖掘中目前还没有很好解决的如何让机器从语义上理解深层网中的入口信息问题,充分分析了深层网中电子商务入口中文本标签和查询元素之间的关系以及查询元素之间的关系。除此之外,从深层网入口的位置特征、布局特征和显示特征三个方面分析了深层网入口的视觉特征。通过大量电子商务网站深层网入口的观察的基础上得到了一些置信度很高的启发式规则,从而提出了基于深层网入口的可视化特征和本体工具WordNet分析深层网入口元素的语义关系来更好的挖掘出人们易于理解的深层网入口语义层次结构的方法。该方法首先需要对深层网入口页面数据进行预处理。然后,利用基于可视化特征的页面分割算法构建可视化模块树并利用可视化对树中的文本信息进行聚类及标签信息的识别。最后充分利用深层网入口中的标签信息间的语义关系构建出合理的标签树并通过查询元素与标签之间的视觉特征关系对标签树和查询元素进行匹配,从而提高了挖掘语义信息的准确度,进而提高了深层网信息的获取效率和覆盖率。此外本研究利用UIUC网站提供的研究数据对提出的方法进行了准确度的实验,实验表明,相对于以往的深层网入口挖掘方法,本文提出的方法在准确性方面具有更好的表现。最后对本研究进行了总结,并提出了未来继续研究的方向。