基于HMM的主题爬虫研究

来源 :重庆工商大学学报:自然科学版 | 被引量 : 0次 | 上传用户:yanjiajian7758
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于HMM的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。
其他文献
根据严格α-对角占优矩阵A的元素特点、非奇异矩阵A与A-B之间的关系以及矩阵范数的性质,借助严格对角占优矩阵的逆矩阵无穷范数的范围和矩阵分裂技巧,获得了‖A-1‖∞上界的
锅炉生产过程中产生粉尘、SO2、NOx等有害物质,对环境造成严重污染。本文综述了近年来常见的几种脱硫脱销技术,并在此基础上对各项脱硫脱硝技术的优劣势进行了简要分析。
目的:观察微小RNA-200c(miR-200c)调节自噬对肝癌耐药细胞HepG2/ADM化疗敏感性的影响。方法:肝癌及肝癌耐药细胞分为4组,即HepG2组、HepG2/ADM组、阴性转染对照组和miR-200c
对甘肃张掖国家湿地公园内的湿地植物区系进行了研究;结果表明:甘肃张掖国家湿地公园内的湿地植物多样性较为丰富,有72科165属251种,种类多样性较突出;地理成分复杂,分布类型多样,科
原卟啉原氧化酶(Protoporphyrinogen oxidase,PPOX1)是叶绿素生物合成途径中的关键酶,为深入探究苹果PPOX1基因的功能,该研究以苹果砧木垂丝海棠(Malus halliana)为试材,采用
日本已经进入少子老龄化社会。由于女性的高学历化和晚婚晚育及独身主义的发展,日本的出生人口自70年代中期以来不断减少。随着医疗技术的进步,人口寿命得到延长,日本老龄人