Deep Web集成查询接口生成技术研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:wangtaoxiansheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,网上蕴藏着越来越多的信息,而更多的信息被隐藏在网络深处,称之为Deep Web,俗称深网。为了挖掘Deep Web中的信息,Deep Web数据集成的研究成为当务之急。而其中一个非常重要的方面就Deep Web查询接口的集成。查询接口是Deep Web的唯一入口,而查询接口通常以表单的形式表示。在本文中表单是主要的研究对象,所以在前面部分首先对表单的基本知识做了介绍,然后列举了一些常用的分类算法。本文主要做了两个部分的工作:第一个工作就是Deep Web查询接口识别,将Web网页中的表单作为研究对象,利用一定的规则提取表单特征,构成表单特征向量,而后利用C4.5分类算法识别DeepWeb查询接口,也就是找到深网的入口。在实验中利用Weka平台对几种常见的分类算法进行了比较,验证了C4.5分类算法的优越性。找到深网入口后,接着对Deep Web查询接口进行分类,确定查询接口属于哪个领域,如:音乐,商业,新闻等,这部分工作的主要研究对象也是表单,提取表单的文本特征,以向量空间模型表示。然后利用朴素贝叶斯分类算法对Deep Web查询接口进行分类,以确定查询接口属于哪个领域。在这部分也通过实验对几种分类算法进行了比较(如:SVM,C4.5,NB),最后发现朴素贝叶斯分类算法精确度最高。
其他文献
延迟容忍网络(Delay Tolerant Network, DTN)是一种新型的自组织网络。这种网络具有高延迟、高动态拓扑、间歇性连通以及节点资源有限等特点,网络中的节点转发消息采用“存储
图像配准是医学图像处理中的基本处理方法。实现医学图像的配准,将多幅图像上的信息结合起来,在各种临床应用例如疾病诊断、术前评价和外科手术计划等方面有着非常重要的意义
新一代网络的变革式发展,也将网络安全带入了一个新的时代。病毒、木马、黑客攻击等各种安全威胁产生的非授权流量充斥着互联网。这些非授权流量一方面会侵犯网络用户自身的
在数据库事务管理中,并发控制机制是重要的组成部分,它是衡量一个数据库系统性能好坏和功能强弱的重要标志之一。网格技术的兴起,实现了对地理上广泛分布的大量异构资源进行共享
随着计算机及网络技术的同益发展,各高等园校的教学管理及行政办公的方式、方法和手段也发生着巨大的变化。而兴起于20世纪80年代的校园网,为学院的建设以及发展提供了更加富有
Agent组织是多Agent系统研究的重要问题之一,基于Agent组织的求解可以减少系统的内部冲突,协调问题求解,是一种有效地问题求解方式。将能力、角色等概念引入组织,构建了一个A
现有的多策略本体映射都有其固有的缺点,一方面不能动态的确定其权值,另一方面容易产生错误的映射关系。本文对此进行研究。首先,论文简单介绍了课题的研究背景,阐述了当前多
车辆牌照自动识别是智能交通系统中的关键技术。在高速公路收费,车辆检测,停车场监控与管理,路面行驶车辆监控等领域有着广泛的应用前景。本文对车辆牌照识别系统中汽车牌照
无线传感器网络作为一种新型无线数据采集技术手段,在未来具有无限光明的应用前景,对其进行研究具有非常重大的意义。传感器节点的软硬件资源非常有限,无线传感器网络的良好
学位
音频场景识别是语音及音频信号处理研究中的一个新领域,其目的是通过分析观测到的音频特征来判别该段音频数据录制时的背景环境。由于准确的识别音频场景和环境可以为如语音