基于单类别文档分类的主题爬虫

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:shayuer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题爬虫设计中关于主题的确立可以采用手工设置关键词集的方法也可以采用构造分类器的方法。前者易于实现,但是依赖于专家的经验,具有关键词缺漏和权值量化不精确的缺点;而后者的主要缺点在于难以获取具有代表性的反例训练样本。针对上述情况,提出了一种基于单类别文档分类的主题爬虫,同时还将分类作用于超链接的anchor text。实验结果充分证明了该主题爬虫的可行性。
其他文献
文章以建筑机械设备的管理问题为研究对象,结合华润建筑公司回迁安置房项目作为案例,阐述了在建筑公司项目施工过程中的建筑机械设备管理存在的问题,并以此为契机形成基于PDCA模
赵无极说过,“艺术要耗费一生的精力来搞”,我对此深表认同。这些年,我一直在寻找着属于自己的艺术和生活。上山时,我忧郁过;下海时,我困惑过。孤独时,就产生了思想。假如我
近年来随着气象现代化建设的推进,气象部门建设了大量的自动数据采集仪器,这些自动设备实时获取多种类型的气象数据,随着时间的积累,资料的信息量越来越大,已经呈现出明显的大数据特征,现在如何使用好这些海量的数据成为气象部门一个迫在眉睫的工作。本文介绍了数据挖掘的方法,并通过3个应用实例来展示气象数据的挖掘应用。
在“10以内数的认识”的教学中培养学生的数感,要给学生提供具体、有趣的教学情境,让学生从中抽象出数字,再运用数字描述生活实例来理解数字的现实意义,最后通过数数、排序、
深度学习的意义在于培养学生自主的学习习惯,教师只需要在此条件下开展有关以学习习惯为基础的深度教学形式。毫无疑问,深度学习是当前符合新课改要求的较合理的一种教学方式
在高职高专生物教学中,科学史有着十分重要的作用,贯穿于生物科目的全过程。但是很多高职高专院校对科学史的应用不够广泛,忽视了科学史的作用,无法全面彰显生物学科的价值,