基于多分类器的Deep Web入口发现

来源 :第六届全国信息检索学术会议 | 被引量 : 0次 | 上传用户:luoxingrobin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web入口发现是Deep Web数据集成的关键问题之一,本文应用主题爬行技术和本体技术,构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现特定领域Deep Web入口表单的自动发现。网页分类器在爬行过程中,借助主题爬行技术和本体技术进行领域内网页主题爬行;表单结构分类器对领域相关网页进行解析,并应用决策树算法判断其网页中是否存在查询接口表单,去除非搜索表单,将满足条件的表单加入表单数据库;表单内容分类器从语义方面识别特定领域Deep Web数据库入口的查询表单。最后将领域查询接口所在网页的URL 地址存储到数据库中,供其它模块调用。实验结果表明,本文提出的基于多分类器的Deep Web入口发现方法是可行的。
其他文献
冰浆生成器是直接接触法冰浆制取系统的关键设备之一,而体积传热系数作为衡量冰浆生成器性能的重要参数受诸多因素影响。本文基于单个气泡在连续相中的上升特性,定性分析了各种因素对体积传热系数的影响。
为了提高制冷机房部分负荷下的运行效率,本文对主要参数影响制冷机房总功率的基本规律进行了研究。通过理论分析得到了影响制冷机房运行功率的主要参数是负荷率、冷却水流量、冷冻水供水温度、冷却水流量和冷却水进水温度;通过在TRNSYS软件上建立改进螺杆式冷水机组模型和制冷机房仿真平台,模拟了制冷机房在变工况下的总功率的变化情况;通过降维分析法,得到了五个参数影响制冷机房总功率的变化规律和影响程度的主次顺序,
以船舶节能和环境保护为目的,在对船舶余热利用和转轮除湿空调发展现状进行总结的基础上,根据船舶空调的特点,提出了将转轮除湿空调应用到船舶上以便有效地利用船舶余热,实现船舶节能运营的方案;此外,对转轮除湿空调在船舶上应用可能遇到的技术难点和今后的发展方向进行深入地探讨。通过分析可知,转轮除湿空调应用到船舶上的方案是可行的,具有节能、环保的优点,今后研究的重点是吸附剂材料开发、系统优化、自动控制系统、结
由于传统的相似性度量计算方法在数据聚类、特别是高维数据聚类过程中存在的问题,基于数据重力的相似度计算方法被引入聚类过程。针对此类方法在表达类间相似关系方面存在的不足,本文提出一种新的基于语义引力及密度分布的聚类算法。一方面,将物理学中的质量和引力等概念引入到聚类分析中,将语义引力作为数据间相似性的度量方法,不但充分考虑了数据间的几何距离可分性,而且强调了数据间属性的相关性,使其对不规则分布的样本也
本文在分析术语特点的基础上,提出了一种基于统计和规则相结合的汉语术语语义分析方法。首先以词,词性,距离信息,上下文信息,词语在知网中的第一义原信息为特征,基于该特征训练得到支持向量机(SVM)依存分析模型,从而有效识别出了术语内部的依存关系;在依存分析基础上利用统计和规则相结合的方法进行术语语义分析。实验结果表明该方法的有效性,在大类语义关系和小类语义关系上正确率分别达到77.13%和69.05%
统计主题模型是近年来在文本信息处理领域发展起来的重要方法,由于模型结构的复杂性以及所需处理数据的巨大规模,所以迫切需求该类模型的高效求解算法。本文针对隐含主题模型LDA,研究了其变分求解算法的并行化方法。首先,提出一种新的动态负载均衡方法,相对于已有的基于静态负载均衡方法,性能有了显著的提高,并且对数据排序的影响表现稳定;同时,通过对统计量汇总过程的优化,克服了模型空间随并行线程数量线性增长的弊端
建立了面向观点挖掘的汽车本体知识库,可为挖掘汽车整体信息和特性信息观点提供强大的数据资源。本文以汽车领域知识为背景,根据汽车知识的关系,构建了汽车本体知识库的概念关系。在此基础上,利用Web 汽车评论真实语料库,自动获取了本体知识库中的核心概念。最后,采用OWL描述语言,构建了面向观点挖掘的本体知识库。
由于Web数据库具有自治性和异构性的特点,造成了各查询接口在内容、形式以及查询能力上都不尽相同,使得用户的查询请求受限于其给定的查询接口的表达能力,这给查询转换的准确性带来了更大的挑战。因此,对Deep Web查询转换进行研究,利用领域本体获取Deep Web入口表单与集成查询接口表单谓词的映射关系,分析查询重写产生约束映射规则,使得用户提交的查询条件转换成与各个Deep Web数据库查询接口相适
现有的论文标题译文通常由统计机器翻译或者通过辅助翻译得到,这两种方法对于标题的译文获取有明显的不足。本文在分析了汉语标题的特点及WEB译文获取技术后,提出了一种基于WEB检索的论文标题译文获取方法。实验表明,通过该方法获取的论文标题译文能够达到与Google在线翻译相同的质量。
在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法。投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的。传统投影寻踪技术计算复杂、编程实现困难,其本质问题是投影方向不易确定,且当投影方向包含的指标较多时计算尤为不易。本文提出一种