【摘 要】
:
随着信息技术的发展,XML成为一个热门的话题。XML的发展,也为基于Web的信息交换带来了新的希望。但由于XML数据是半结构化的,在搜索处理这些半结构化的数据信息时,尤其是在用
论文部分内容阅读
随着信息技术的发展,XML成为一个热门的话题。XML的发展,也为基于Web的信息交换带来了新的希望。但由于XML数据是半结构化的,在搜索处理这些半结构化的数据信息时,尤其是在用户需要查找与某一信息相关(但不完全一致)的数据时会产生很多问题。这就需要研究基于XML文档的近似搜索技术。近似搜索技术的基础是准确地度量所查询的信息与文档、文档与文档间的相关性与相似性,因此XML文档之间的相似性研究问题显得尤为重要。XML文档之间相似度的计算是文档检索、挖掘和文本聚类的基础,是信息检索和数据仓库领域的中心论题。本文介绍了XML文档相似性问题的研究背景,实际意义和该课题的研究现状,分析了XML文档相似性在数据综合、数据仓库和文档聚类中的应用。本文首先对XML的语法结构进行简单概述,XML文档的语法规则是应用和处理XML文档的基础。介绍了语义网和树的概念,然后重点对当前的XML文档相似性计算方法进行了总结。当前的XML文档相似性计算方法主要分为基于编辑距离的、基于信息检索的、边匹配、集合度量、模式匹配和结构信息内容(SIC),文中重点对以上六种方法进行了介绍和总结,说明了它们在不同领域中的应用和方法的不足。最后对XML文档相似性的研究问题进行了展望。
其他文献
改革开放以来,我们党带领全国人民在实践探索中建立并不断完善社会主义市场经济体制,充分发挥市场这只“看不见的手”和政府这只“看得见的手”的积极作用,极大调动了广大人
丁香酚(Eugenol CHO)是菖蒲属、樟科、肉豆蔻属等植物中的挥发油成分,通常为油状,淡黄色液体,中药细辛挥发油成分中60﹪为甲基丁香酚,有人报道它是柴胡中的主要成分.该研究室以
研究人员以红细胞膜上的葡萄糖运输蛋白(GLUT1)和阴离子交换蛋白(Band3)为研究对象,从结构和功能上研究机械应力(旋转流体、渗透压,药物诱导的细胞形变等)对它们的影响.根据
在土壤重金属生态风险评价过程中,明确土壤重金属的生物有效性不仅能够反映土壤重金属的真实污染程度,还能科学地反映土壤重金属污染对生物及生态系统的真实危害,是进行土壤重金
2月23日,党中央召开统筹推进新冠肺炎疫情防控和经济社会发展工作部署会议.习近平总书记在会上发表重要讲话,深刻分析当前疫情形势及其对经济社会发展的影响,明确提出统筹推
挥发性有机物(VOC),主要来源于建筑材料、室内装饰材料、生活和办公用品及室外工业废气等,对人类健康的危害正得到人们越来越多的重视。因此,制备能够检测不同VOC的气体传感器
3月13日,中共江西省委常委会召开会议,省委书记刘奇主持会议.会议传达学习习近平总书记在湖北省考察新冠肺炎疫情防控工作时的重要讲话精神,研究江西省贯彻落实意见.会议强调
习近平总书记29日在浙江考察调研.当天下午,他先后来到宁波舟山港穿山港区码头、北仑大碶高端汽配模具园区,了解港口和园区企业复工复产情况.防控新冠肺炎疫情的非常时期,随
机械制造技术在生产中得到普遍应用,对精密工件的表面粗糙度测量技术也提出了更高的要求。激光散斑测量具有非接触式、无损等优点,为人们所重视,已经加工制造领域得到了应用
3月7日,江西省委副书记、省长、省政府党组书记易炼红主持召开省政府党组会议,深入学习贯彻习近平总书记重要讲话和重要指示精神,进一步统筹疫情防控和经济社会发展,打赢疫情