【摘 要】
:
随着网络技术的飞速发展,用XML表示与存储的数据量与日俱增,尤其在网络数据的发布,各组织间的数据交换以及电子商务等应用领域中。XML已经成为数据表示,存储与交换的标准,在X
论文部分内容阅读
随着网络技术的飞速发展,用XML表示与存储的数据量与日俱增,尤其在网络数据的发布,各组织间的数据交换以及电子商务等应用领域中。XML已经成为数据表示,存储与交换的标准,在XML信息的识别与整合应用中,XML数据的实体识别技术有着大量的需求。目前,在XML数据实体识别的研究中,主要的方法是基于距离度量和相似性函数,而且研究人员忽略了XML数据实体识别的优化问题。但在现实世界中,一方面,不同源数据集的表现形式往往不同,而且数据经常是非清洁的,相似的XML数据不一定表示同一实体,指代同一实体的XML数据并不一定具有相似性。另一方面,源数据集通常包含多个可区分的实体信息,在进行实体识别时,存在着很多无用的代价消耗,具有较大的优化空间。本文提出了基于语义规则的XML数据实体识别方法和基于双聚簇的优化算法。首先提出了“类树结构”,类树结构利用了描述实体的结点和XPath路径的语义,它是由比较符连接的,带有XPath限制的可比较结点对。其次,根据类树结构和一组语义规则集推导出若干用于实体匹配的“识别类树体”,“识别类树体”能够保证在源数据集非清洁时,得到较好的实体识别效果。然后,在XML源数据集的规模上,进行了优化。在两个XML数据集上进行实体识别时,首先为各XML树建立索引,并将索引相似的XML数据聚为一簇,而不在任何聚簇中的数据,无需进行进一步的实体识别操作。最后,实验验证了本文提出的算法在保证了准确率的前提下,具有较高的效率,并且优化算法取得了较好的优化效果。
其他文献
文本是信息的重要载体之一。随着计算机普及和互联网的发展,产生了海量的文本资源。其产生的速度已经远远超过人工对信息和知识的处理能力。通过计算机辅助,从而高效地从无结构
纸币清分机是一种综合运用了光机电一体化、模式识别、图像处理等技术的金融设备,可实现纸币的点钞、计数以及根据纸币的真假、残破程度、新旧等级和版别进行分选归类工作,用户
企业决策的制定往往需要分析人员对大量数据信息进行分析,根据分析结果为企业制定相应的决策。数据仓库与OLAP技术的广泛应用为决策人员提供了极大的便利。为了更好的服务于决
最优化问题融合了人工智能、计算机科学和数学等学科,在工业工程、经济和管理等领域有广泛的应用。线性和非线性优化问题是优化问题的两种基本形式。非线性优化问题很难在用
随着计算机技术的飞速发展,图像处理和计算能力得到了极大提高,计算机视觉也取得了较快的发展。视觉目标跟踪技术是计算机视觉领域的重点问题。目前虽然专家学者已经研究了很
近年来,3D人脸识别一直是当下模式识别领域的热点。3D人脸识别相对于指纹识别,虹膜识别等识别系统有着先天的优势,主要体现在操作简单方便,对目标具有相当小的侵犯性,甚至可
随着网络技术的发展及应用的普及,园区网结构和用户行为越来越复杂,管理也变得愈加困难。作为网络行为的主体,主机的使用者是网络行为的责任人,因此对网络用户的网络行为管理
科学技术的突飞猛进、世界范围的互联网络,使得人们获得的数据量急速增长,与人们生活密切相关的电信业也积累了海量的数据。数据挖掘技术的出现使得电信运营商得到启发,他们在行
随着人们生活质量的不断提高和传感器网络技术的进步,具有网络传输功能的智能物件不断融入人们的生活,成为生活必需品。智能物件大多采用无源供电,因此,智能物件数量的增加给
手语是聋哑人群体用来交流、学习的主要手段。许多国家和地区都将手语作为一门语言学来研究,并且取得了一定的成果。在计算机领域,研究者们根据手语语言学者的研究成果,将手