基于信息增益的自适应主题爬行策略

来源 :计算机应用研究 | 被引量 : 12次 | 上传用户:sikongshan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
结合信息增益,提出了一种新的自适应主题爬行策略。利用维基百科的分类树和主题描述文档构建主题向量T,并在爬行过程中不断地进行自动学习,反馈更新主题向量空间中每个概念的权重,完善主题描述。实验结果表明,该方法具有增量爬行的能力,并在信息量总和上明显优于基于the interest ratio的自适应策略;且前者所爬取的网页更接近于与主题相关。
其他文献
针对一体化装置的故障预测难题,提出了一体化装置故障诊断模型。通过对模型进行分析,找出系统主要的故障元素及各子系统的故障概率,根据系统可靠性理论,从提高系统可靠性的角度出发,提出了可靠性规划方法,以各个装置分配备用装置的顺序为阶段和装置间所允许使用的总备用个数为状态变量,对主要故障元素进行可靠性规划。最后通过仿真分析,大幅度提高了一体化装置的安全稳定性,结果表明了所提方法的可行性和有效性。
针对和声搜索算法不能很好地求解多目标优化问题的缺陷,提出一种多目标和声搜索—分布估计混合算法(MHS-EDA)。该算法一方面利用分布估计的采样操作对和声记忆库内进行搜索,拓宽了和声记忆库内空间;另一方面对和声记忆库外进行外部档案搜索,实现群体间信息交换,从而提高了多目标和声算法的全局搜索能力。数值实验选取六个常用测试函数,并与多目标遗传算法、多目标分布估计算法、多目标和声搜索算法进行比较,测试结果
提出了SUT-H∞滤波算法,在修正极坐标系和直角坐标系中基于纯方位信息对目标实施跟踪。区别于以往的最小均方差为准则的估计方法,SUT-H∞利用了线性H∞鲁棒滤波准则。采用SUT线性化极坐标系的状态方程和直角坐标系的观测方程,并将其与线性H∞鲁棒滤波相结合,分别在两种坐标系下推导出SUT-H∞滤波算法。通过对MATLAB仿真结果进行对比分析,修正坐标系下的SUT-H∞滤波的稳定性和精度要优于直角坐标
为了利用产生式和判别式方法各自的优势,研究了基于属性分割的产生式/判别式混合分类模型框架,提出了一种基于属性分割的产生式/判别式混合分类器学习算法GDGA。其利用遗传算法,将属性集X划分为两个子集XG和XD,并相应地将训练集D垂直分割为两个子集DG和DD,在两个训练子集上分别学习产生式分类器和判别式分类器;最后将两个分类器合并形成一个混合分类器。实验结果表明,在大多数数据集上,混合分类器的分类正确
为了研究大城市私家车出行选择对物流配送方案生成的影响,综合考虑私家车驾驶者出行知识、获取的出行信息,建立了考虑自身风险规避、自身后悔规避与相对风险规避、相对后悔规
新闻网页和书签的推荐被认为是单类协调过滤问题。通常这类数据是相当稀疏的,仅仅一小部分数据是正例,在非正例数据中负例和没有标记的正例是混合在一起的,难以区分开来,因此,就如何解释非正例数据出现了歧义。为了解决该问题,提出了一种加权的带正则化的基于迭代最小二乘法的单类协同过滤算法。即通过对正例赋予权值1,负例赋予一个较小的正实数权值来反映数据的正负置信度。在两个真实的实验数据集上验证了该算法在性能上均
针对软实时任务的服务质量(QoS)控制问题,提出一种采用核密度估计预测控制的资源自适应调整方法。该方法首先结合资源预留策略建立软实时任务的服务质量模型,并采用核密度估计方法,在无法预知和假设具体作业执行时间分布的前提下通过滑动窗口样本预测当前作业的执行时间概率分布,反馈控制器基于预测值和上一个作业完成时获得的服务质量动态调整资源以保证当前作业服务质量。仿真实验结果表明,采用核密度估计的预测控制能有
针对组合测试用例生成问题的具体特点,结合组织进化思想及粒子群优化算法,设计了适合问题求解的编码方式及操作算子等,提出了一种基于组织进化粒子群优化的测试用例自动生成算法。该方法用于选择当前局部优化覆盖的测试用例,在此基础上构建满足两两覆盖的测试用例集。仿真实验表明,该方法能有效地降低测试用例数目。
为了探测视频高层复杂事件,架构了一个视频事件分析框架,采用本体和Petri网进行推理从而获取复合事件;运用视频语义本体标注算法分析低层视频语义,在高层构建一个视频事件分析本体,将低层本体映射到事件分析本体表示高层视频事件;通过本体和扩展Petri网结合的方法对监控视频中的事件进行图形化异步事件推理;最后用semantic Web rule language(SWRL)规则表示视频监控事件的探测。实
针对评分数据稀疏的情况下传统相似性计算的不足,提出了一种基于项目之间相似性的协同过滤算法。该算法结合用户对项目的评分和项目之间的兴趣度进行项目之间的相似性计算,在一定程度上减小了评分数据稀疏的负面影响。实验结果表明,该算法在评分数据稀疏的情况下,能使推荐系统的推荐质量明显提高。