基于网页内容相似度改进算法的主题网络爬虫

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户:is_youfeeling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。
其他文献
【摘 要】校园安全问题错综复杂,但观其形式、究其原因,不外乎就是客观隐患、主观疏忽、管理不力及外部影响等方面。本文以厦门市启悟中学为例,探讨了如何做好校园的安全工作,从策略和途径方面分析了消除外部环境的隐患问题,并就校园警务室的作用做了具体分析。  【关键词】校园安全;合力;措施;警务室  学校是学生生活和学习的地方,校园的安全、学生的安全,是一件牵一发而动全身的大事情。学生安全,家长就放心,教师
平稳子空间分析是新近发展的一种信号处理和数据分析技术,能够从观测到的多维非平稳信号中分离出平稳源信号。标准的平稳子空间分析算法基于Stiefel流形上的梯度下降方法。针
蜕变测试技术被广泛应用于不同软件测试领域,但在实际应用中也遇到一些问题——缺少实用的蜕变关系构造方法,本文提出一种新的方法,使用RBF神经网络自动的预测函数可能满足的多
为了研究地震异常对地震预测及震后引发次生灾害的影响,收集整理1911年之前的历史地震数据,建立中国历史地震数据库。通过对地震及地震异常的关联分析建立复杂网络模型,根据网络
现有的个性化推荐通常会忽略时间信息对用户行为的影响,导致预测准确性较低。本文根据用户属性信息和用户评分信息,建立基于时序背景LDA与协同过滤的混合模型(TLDA-CF)。通过离
规划领域定义语言是第一届国际规划竞赛提出的问题定义语言,随着两年一次的国际规划竞赛的举办,其语言的描述方式和能力也在不断扩展。本文将现有规划问题的通用描述予以综述
针对旅行商问题提出一种离散粒子群算法。算法重新定义了速度及其与粒子位置的相关算子,设计了“距离排序矩阵”(保存距离城市由近到远的其他城市的矩阵),并根据它生成可动态变化
从视频中识别人体动作是目前计算机视觉领域一个具有挑战性的方向。本文采用文本处理领域的bag-of-words方法,将视频表示为文章。在视频中寻找局部区域内在时间与空间上变化最大的点,作为时空兴趣点,在兴趣点上采集的视觉特征,作为文章中的词汇。在此基础上引入主题模型,对于视频中的隐含主题进行分析。最终通过主题在视频中的分布,经过判别法则识别其中的人物动作。通过在公开的视觉数据集上进行测试,结果表明本
茶黄螨,即侧多食跗线螨,又叫白蜘蛛、嫩叶螨。茶黄螨食性杂,寄主多,繁殖快,世代重叠,主要为害黄瓜、番茄、辣椒、茄子、豆类等。受其为害,植株生长停滞,果实畸形,严重影响产量和品质,一
冬季气温低,病虫害的活动与为害大都处于隐蔽与静止状态。在冬季施用化学农药,要注意如下六点。