【摘 要】
:
针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。论文提出了一种可动态自适应互联网信息的主题爬虫。其中,
【机 构】
:
广东环境保护工程职业学院,武汉大学
【基金项目】
:
国家自然科学基金项目(编号:61502350);2017广东高校省级重点平台和重大科研项目(编号:2017GKTSCX042)资助
论文部分内容阅读
针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。论文提出了一种可动态自适应互联网信息的主题爬虫。其中,可动态选择种子URL的TopicHub算法,相比于传统的静态种子URL的主题爬虫,抓取效率提升了7%以上,查全率提升了5%以上。另外,针对于静态本体库所存在的主题信息涵盖不全、领域知识变化更新等问题,提出了一种可动态扩充领域语义信息的结合静态本体库和动态语义的主题算法简称为SDTP算法。相比于传统的基于静态本体库的算法查准率提升了13%,相比于基于
其他文献
随着社会经济的快速发展,科技水平也在快速发展,石油的应用变得越来越复杂和广泛。人们的日常生活、企业的正常运营,直接影响到石油的整体生产,同时也为企业自身的安全和环保
<正>学校被安排在一个正方形的庭院和一个四分之一圆的庭院周围。水元素从屋顶经过一系列花园露台流到庭院后部的缩进建筑中,同时也为建筑带进阳光和空气。教室的最高两层形
根据个人开发及调试电动汽车的经验,从低压、高压、通信、电控4个部分阐述电动汽车的电气系统调试过程。
采用在线微透析-高效液相色谱-串联质谱联用方法,测定了糖尿病脑病大鼠大脑海马区的8种脑递质的含量,从脑中神经活性物质的角度研究五味子改善学习记忆能力的作用机制.实验结
目的 探究乳腺癌患者术后采用不同护理干预方法对上肢淋巴水肿的应用效果。方法 选取50例乳腺癌患者,都为女性,都接受乳腺癌改良根治术,并分为两组,甲组采用常规护理与心理指
本文对出口导向经济增长 (Export- Led Growth,EL G)假设命题的经验研究进行了文献综述与评论。以分析方法为主线 ,分别对跨国 (地区 )截面数据的研究、对单个国家的时间序列
毕业班管理工作是高校学生管理工作的重中之重。采用美国心理学家马斯洛的需要层次理论,分析西藏高校毕业生的需求层次,依照由低到高的关系,就西藏高校毕业班易出现的问题作
本文在参考国外研究方法的基础上 ,选取深沪两市 1 995-2 0 0 0年的股票交易数据 ,考察中国股市动量策略的赢利性特征。研究发现 ,在卖空机制存在的假定下 ,动量组合的形成和
本文在阐述有效保护率概念的基础上,通过对中国历次关税调整形成的关税有效保护率及其结构的计量测算和实证分析,揭示了中国的关税有效保护已经消除了不少结构性问题。但是,在6
目的:研究头皮针结合天井穴对卒中后肘关节痉挛瘫痪的疗效。方法:在统一诊断标准以及入选标准的前提下,统一针刺方法,采用修改的Ashworth痉挛评定级、Brunnstrom分级,Barthel