【摘 要】
:
HITS算法是流行的网页排序算法,然而随着互联网中数据量不断激增,在排序结果中该算法一方面存在偏重旧网页问题,另一方面存在页面排序质量问题,因此许多学者对算法做出了改进。针对偏重旧网页问题,也就是最终查询排名靠前的常常是在互联网中存在较长时间的页面。从时间维度考虑,由于页面的发布日期格式不规范,时间参数获取困难,所以本文考虑了在周期内爬虫爬取到网页出现的次数T,将时间次数T根据牛顿冷却公式给出时间
论文部分内容阅读
HITS算法是流行的网页排序算法,然而随着互联网中数据量不断激增,在排序结果中该算法一方面存在偏重旧网页问题,另一方面存在页面排序质量问题,因此许多学者对算法做出了改进。针对偏重旧网页问题,也就是最终查询排名靠前的常常是在互联网中存在较长时间的页面。从时间维度考虑,由于页面的发布日期格式不规范,时间参数获取困难,所以本文考虑了在周期内爬虫爬取到网页出现的次数T,将时间次数T根据牛顿冷却公式给出时间函数,作为时间权重。然而由于在互联网中用户的搜索行为日益增长,因此参考了N-Step页面排序思想,考虑到了用户在下一步进行页面选择时的概率,不仅仅涉及到页面本身的入链与出链数同样也包括与该页面存在链接关系的所有页面的链入与链出页面数,并进一步加入时间权重。作为权重因子融入到HITS算法中命名为Ti HITS算法(Timed HITS)。在不同查询主题下进行实验,将Ti HITS算法与原始HITS算法、TM-HITS算法进行对比该算法提高了搜索结果中最新发布网页的命中率,平均提高20%-40%,可见Ti HITS算法惩罚旧页面的有效性。在页面排序质量问题中,每个页面被分配相同的权重,导致给不同相关度的页面赋予不合理的权值,有学者提出了页面流行度权重与网站权威度权重,进而为每个页面赋予不同的权重值。综合两种权重的思想得到权威值高的页面取决于它的入链,因此本节提出页面权威度权重。从页面的角度出发,评估网页内容的粘性时突出的指标就是跳出率,进而本文考虑了网页跳出率因素,并将跳出率权重与页面权威度权重相结合融入到页面排序算法HITS中。需要注意的是对于新出现的页面来说,所接受的链接往往没有那些旧的页面多,因而得不到较高的等级。在前面提出的Ti HITS算法通过实验证明新页面的排名上升。因此除了在提出的新算法将两种权重融合之外还需进一步融合时间权重。最终得到Ti WBRHITS算法(Timed web Bounce Rate HITS)算法,在针对不同的查询主题实验过程中,利用爬取门户网站数据将Ti WBRHITS算法与HITS算法、IHITS算法进行实验对比。实验结果表明Ti WBRHITS算法比上述两种算法的查准率提高20%-30%。
其他文献
在世界经济一体化和金融全球化不断推进的背景下,我国的经济全球化和金融开放程度不断加深,跨境资本流动的规模也不断加大,资本账户开放已经成为必然趋势。银行业在我国的金融体系中占据非常重要的地位,随着对外开放程度的加深,资本流动的涌入,银行业流动性风险也在不断地增加,因此研究跨境资本流动和银行业流动性风险具有理论和现实意义。本文研究跨境资本流动对银行业流动性风险的影响,并研究资产价格在其中所承担的中介作
路径规划是让目标对象在规定的区域中避开障碍物的同时尽可能的以最短路径从出发点到达目标点。在移动机器人所应用的各个行业中,大多都会应用到路径规划技术。而且随着机器人领域的发展,多机器人协同作业也逐渐的走上了舞台。对于多机器人的研究一般多侧重于队形保持与冲撞解决,工作环境中的路径规划也是多机器人执行任务必不可少的一环。本文就单机器人与多机器人在静态环境与动态环境下的路径规划进行研究,此外针对多机器人的
近年来,已有相当数量的文献研究证明,我国部分非金融企业出现了一定程度的金融化现象,在非金融企业中,制造业是国民经济的主体,然而近年来,越来越多的制造业企业以增加金融资产配置的形式参与金融活动,2020年,2633家上市制造业企业中,有2025家企业配置金融资产,占比达到76.9%,金融投资金额达10930.96亿元人民币,2020年制造业企业的金融资产投资额约是2015年的2.44倍,约是2010
从古至今,集群作战是非常有必要的,比如狼通过集群活动进行捕食,来优化单体作战的不足,集群可以在较低的成本下提高活动作战的性能,灵活度等等。无人机是现代战争的新兴武器,现代战争中通过无人机集群间的合作作战来提高作战效率。无人机集群是以单一无人机的作战性能为基准,通过大量小型的无人机之间的协同作战交互,依靠群体智能的涌现能力并且是一个具有成本较低、功能分布细致明显的分布式智能作战体系,而未来战争中无人
智能机器人如扫地机器人、自动分拣机器人和配送机器人目前在家居和工业生产等领域代替人从事大量简单重复的工作,极大地提高了生产力,并在可预见的未来将进入更多的应用场景帮助我们进行生产生活活动。当前限制机器人应用的一个巨大挑战就是如何在更复杂的条件下如自然、城市和工厂等环境中进行稳定地运动。本文研究了如何在视觉信息的辅助下进行规划和控制四足机器人的运动,这使得四足机器人能够通过选择合适的触地点和身体姿态
当前电子商务飞速地发展,在线交易规模逐步扩大,尤其是在疫情的冲击下,实体店铺的发展遇到更大阻力,但是与此同时,却给了电商巨大的发展空间。但是在其发展的过程中,也不断地暴露着诸多问题:第一是信息篡改的问题,用户信息全部由第三方平台保存,用户对交易参与方信任评价的信息存在被篡改的风险;第二是信息泄露问题,尽管用户可以进行匿名评价,但这种基于第三方的平台只能实现面向公众的信息隐藏,而非真正的匿名;第三是
多视图立体视觉(Multi-view Stereo,MVS)是从一组已知相机参数的图像中,以立体匹配为主要线索来恢复场景的密集三维表示,从而构建三维场景,而多视图深度估计是多视图立体视觉中的核心。MVS作为计算机视觉的基本问题已经研究了几十年,广泛应用于测绘、影视、自动驾驶等方面。近年来深度学习在多视图三维重建中取得良好效果,成为视觉三维重建领域的研究热点。基于深度学习的多视图立体视觉方法与传统方
本文以偃师东山白云岩矿山智慧化生产为背景研究砂石生产过程中的粒度检测问题。砂石粒度是砂石产品质量的重要信息,不同粒径的砂石具有不同的用途,粒度一致性强的骨料具有更好的品质和更高的经济价值,因此对砂石粒度进行在线检测是实现砂石品控的前提。传统的粒度检测采用人工筛分,存在人为误差大控制精度低等问题,不满足实时性要求。本文设计实现了基于端到端的砂石粒度检测系统,通过工业相机采集传送带上的砂石图像,自动检
降水预报是天气预报的核心业务,其预报准确性对于农业、交通等领域具有深远影响。目前降水预报估计主要依赖于雷达观测的云团回波情况,因此降水预报的核心步骤为雷达回波外推,即基于过去一段时间的雷达回波数据预报未来云团的运动及密度。但是,云团运动涉及复杂的大气物理规律,为外推带来极大挑战。近年来,深度学习在气象预报领域,基于循环一致神经网络(Recurrent Neural Network,RNN)的深度模