基于HTML特征与层次聚类的Web查询接口发现

来源 :计算机工程 | 被引量 : 0次 | 上传用户:asdf716
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对各网站Web查询接口(WQI)因结构异构而难以被自动发现的问题,提出一种基于超级文本标记语言(HTML)特征和层次聚类的Web查询接口发现方法。利用HTML控件元素之间的层级结构、依附关系和HTML交互控件的终端特性,通过前序和后序遍历相结合的方式解析页面,建立合适的页面树状模型。按照查询区域交互密度的局部集中性定位并初始化聚类集合。将聚类集合中各潜在接口区域结构距离的相似性进行层次聚类,并对所得潜在接口中的交互控件选择合适的文本节点进行语义标注,得出完整WQI区域,利用接口中的文本特征过滤非查询接口
其他文献
高炉无料钟炉顶装料设备的技术及制造水平正处于发展和完善阶段。介绍了近年出现的新型无料钟炉顶装料设备的结构特点、性能优点、重要零部件的制造和试验要求。指出新型无料
交通运输专业的校企协作教育存在合作目标不一致、合作流于形式、人才培养走向“断头路”等问题。因此必须实施加强校企协作沟通协调机制、建立利益协调机制,打通校企协作“
随着对环境保护要求的日趋严苛,火力发电厂废水排放的限制条件被不断提高。有效的污水深度处理和回收利用已成为电厂节水的重要方式。本课题通过动态模拟试验和现场试验对某电
随着音乐课堂上各类教学方式的不断发展,器乐教学也逐渐得到大家的关注。本文将从音乐课堂的各类开展方式、器乐教学的利弊以及之后的展开方式进行阐述。
广播作为最早出现的电子新闻媒介重要的工具,几十年来利用独特的传播优势获得亿万听众的青睐,为新闻宣传作出了不可磨灭的贡献。如今,随着新媒体时代的到来,各种各样的新闻媒
以国外学术期刊出版中的媒介融合为对象,研究了学术期刊对新媒体的应用方式和基本经验。数字化、网络传播和新媒体应用已经成为国外学术期刊出版主流,建立网站、实现动态传播
【正】 文学在表现自我、再现生活的选择上总是由作家个人的生活经历和审美志趣所决定。再现生活倒也并不总意味着要排斥作家主观能动性的发挥,但再现生活的责任感却时时要求
如果拿臧棣本人曾经说过的一句话——“每一个时代的诗歌都会选择一些独特的诗人,作为折射它自身所隐含的深邃的艺术内涵的一面镜子”——来观察他迄今为止的诗篇的话,我们同样
消毒工作是贯彻预防为主的重要措施之一,也是防控各类畜禽传染病的主要环节。笔者就一些养殖场的消毒工作进行了调查,针对存在的问题和就如何搞好畜禽养殖场的消毒工作,提出自己
模糊聚类、识别与优选是系统优化模糊集分析理论的数学基础.通过以全体样本对全体类别加权广义欧氏权距离平方和最小为目标函数,建立了模糊聚类、识别与优选决策统一的理论与