DeepWeb查询接口模式匹配与查询结果语义标注研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：R_Edge

【摘要】

：

整个Web的规模和资源正在不断扩大、深化，其中Web数据库资源难以通过传统搜索引擎索引到，所以被称之为“DeepWeb”，其蕴含的信息量更大、质量更高、结构化程度更高、主题更专一

【作者】

：

陆维

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2015年期

【关键词】

：

模式匹配语义标注启发式信息查询接口搜索引擎 Web数据库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

整个Web的规模和资源正在不断扩大、深化，其中Web数据库资源难以通过传统搜索引擎索引到，所以被称之为“DeepWeb”，其蕴含的信息量更大、质量更高、结构化程度更高、主题更专一。因此，对DeepWeb资源进行大规模的信息集成具有重要的现实意义。　　DeepWeb查询接口是获取Web数据库信息的重要途径，同时DeepWeb查询接口模式匹配问题贯穿于DeepWeb查询处理过程的始终。因此，本文对同一领域的DeepWeb查询接口模式匹配进行了深入研究，主要研究成果如下：　　①本文抓住某特定领域属性在各个数据源中的共现模式，即具有组关系的属性通常会一起出现，以及具有匹配关系的属性几乎不会一起出现的特点，从整体着眼，同时匹配所有模式。相比于模式的两两匹配，这种整体性的匹配方法可以挖掘出隐藏较深的匹配知识；　　②针对已有的相关性度量未能准确地反映属性之间相关性强度的问题，为提高模式匹配的准确性和完整性，本文改进了组关系度量和匹配关系度量；　　③考虑到匹配得分阈值因依赖于领域而较难确定的特点，为保证算法的灵活性，算法取消了该阈值的设置。　　④最后，采用一种贪心策略从找到的所有候选的复杂匹配集中，识别出具有更高匹配得分和更丰富语义的匹配关系，从而找到特定领域真正的多分支复杂匹配集。实验表明，利用本文的模式匹配算法发现的特定领域的多分支复杂匹配具有更高的准确率和召回率。　　当Web数据库中的数据经查询处理后，以HTML页面的形式展现时，数据库相关模式结构信息完全丢失，而且目前的查询结果仅供人工浏览。为了使获得的数据具有更高的使用价值，这些数据必须是机器可理解和可处理的。DeepWeb语义标注作为DeepWeb数据集成中查询处理模块的一个重要分支，其主要工作是对从DeepWeb查询结果页面中抽取的数据添加相应的语义信息，使得计算机能够理解并处理这些数据，进而方便数据集成系统中后续模块的执行。因此，本文对DeepWeb查询结果的语义标注做了深入研究，主要研究成果如下：　　①通过分析Web数据库查询接口页面和查询结果页面数据的特征，归纳总结出一些启发式信息，即考虑一些领域知识和特定领域中某些属性在位置上的邻接关系，从而提出了基于启发式信息的语义标注方法；　　②逐条地将这些启发式信息对待标注的数据进行分析，从而找出每个待标注数据单元的语义词汇，并生成XML格式的标注文件。最后，将本文的方法对多个领域的DeepWeb数据进行语义标注实验，实验结果表明，本文提出的标注方法对于DeepWeb查询结果数据具有较好的标注效果。　　

其他文献

基于个性化信息需要的推荐系统的研究与实现

随着Internet的发展,各种信息飞速增长,人们对信息的反应速度远远低于信息的传播速度,大量无关的冗余的信息严重干扰了受众对相关有用信息的准确分析和正确选择,搜索引擎在一

学位

个性化信息需要个性化服务用户兴趣建模推荐系统VSMSVM

剩余能量感知的无线传感网络移动数据收集机制研究

物联网是科技和生活的结晶。在物联网生活中,各种智能设备已经成为了应用的主角,其中之一便有无线传感器网络,它受到的关注度越来越高,被广泛使用在生活、环保、军事等活动中

学位

移动数据收集剩余能量感知谱聚类数据转发树路径规划

改进的模糊聚类算法在入侵检测中的应用研究

当前信息化技术的高速发展给人们的日常生活带来极大的便捷。一方面互联互通的互联网所具备的开放特性在很大程度上方便了各种信息资源的共享,开创并且拓宽了共享资源的途径;

学位

入侵检测数据挖掘聚类分析FCM算法朴素贝叶斯

基于论坛数据的问答挖掘

论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。本文研究从论坛中挖掘

学位

论坛数据问答挖掘信息抽取标记序列模式基于图的排序

Hidden Web上的自动信息抽取

互联网中蕴含着大量可用的信息,但其中越来越多的内容需要通过填写HTML表单的方式才能获得。从用户和数据管理的角度来看,这是合理的,但是对于收集网络信息的自动化工具来说,

学位

Hidden Web自动信息抽取自动信息搜索信息过滤搜索引擎数据挖掘

基于Agent和数据挖掘的旅游突发事件预测预警研究

随着国内旅游规模和范围的逐渐扩大，旅游产业已成为许多地区的支柱产业。旅游业的发展极大地依赖于外部环境的稳定，各种突发事件可能促使旅游业产生突发性危机。本文依托国家自

学位

数据挖掘Agent技术旅游突发事件预测预警

网络钓鱼防范体系与技术研究

随着计算机网络的发展,在线金融服务得到了广泛的应用。然而互联网本身缺乏有效的控制策略,致使安全问题频发,网络钓鱼(Web Phishing)就是其中之一。网络钓鱼又称为网络仿冒,

学位

网络钓鱼网络仿冒在线金融金融安全图像分割网页分割网络安全

低速电动汽车锂电池SOC算法研究及应用

随着汽车工业的迅猛发展,带来的环境污染问题也越来越严重。电动汽车作为节能环保的代表受到广大人民的青睐。其中,低速电动汽车因经济性能好、充电方便等优势脱颖而出。本课

学位

低速电动汽车锂电池SOC估算电池管理系统扩展卡尔曼滤波

基于内容识别的智能导游系统研究

随着国民经济的持续增长，旅游行业正在迅猛发展，越来越多的人选择在闲暇的时候进行旅游。随着互联网技术的不断发展，互联网上的关于旅游的信息也越来越多。如何利用互联网上的信

学位

内容识别智能导游系统旅游行业互联网技术旅游信息搜索引擎图像识别文本分类

一种基于J2EE的新分布式多层架构——针对大数据量和复杂计算强度

随着多层应用的崛起,应用交付的变异越来越多,数据规模飞速增长,对计算机计算能力要求越来越高,新技术新思想不断出现,这些问题都对现存的架构提出了新的要求。针对这些问题,

学位

J2EE分布式多层架构Web ServiceMVC框架动态负载均衡

DeepWeb查询接口模式匹配与查询结果语义标注研究

其他学术论文