基于Web内容挖掘的医药类广告监控系统的实现

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:sunplusit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的迅速发展,庞大的网民规模吸引着越来越多的广告主将注意力转向网络广告市场,网络广告的数量急剧增长。但是伴随而来的是违法广告层出不穷,尤其是违法医药广告危害最为严重。由于网络上存在着巨大的信息量,仅仅依靠人工审查的方法难以应对网上海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络医药广告监控系统。本论文对网络爬虫、网页信息抽取、网页分类等技术分别进行了深入的研究,并提出了相应的解决方案,以这些技术为基础本文实现了一个网络医药广告监控系统,较好地解决了互联网中医药广告的监控问题。本文完成的主要工作如下:1.对现有的网络爬虫技术进行了深入研究,详细介绍了爬虫工作的原理。针对网页的构成,结合网页提取的开源工具提出了本文的网页信息抽取方法。测试结果表明本文提出的方法有着较好的效率和准确性。2.介绍了网页分类的现状和处理流程,详细讲解了网页分类中涉及的各个模块的理论。在此基础上,充分利用相关的开源工具,并针对χ2统计法在文本分类中的缺陷提出了改进的办法,搭建了判断网络爬虫所爬取的信息是否为医药类信息的分类模块,实验结果表明本文提出的分类模块有着较好的性能。3.设计并实现了一个医药类网络广告监控系统,可以完成对网络上医药广告的自动追踪处理,提供分布式计算支持,有着较强的操作性和良好的展示界面。
其他文献
目前,石油、煤炭等不可再生能源的枯竭,使风能、太阳能等可再生绿色能源越来越受到人们的重视。而变速恒频(VSCF)双馈风力发电技术因其效率高、逆变器容量低等优点得到了广泛的
多目标粒子群算法是一种用于解决多目标问题的新型优化方法,电力系统中的很多问题都具有多个目标。论文针对环境经济调度问题的特点,研究基于粒子群算法的各种改进算法对环境经
无线传感网络作为一个全新的研究领域,涉及了计算机技术、嵌入式系统技术、无线通讯技术、传感器技术、网络技术等多方面技术。在该领域,科学工作者在基础理论和工程技术两个
随着我国三网融合的加速实施,以IPTV为代表的多媒体业务得到了极大的发展,而多媒体业务具有高带宽消耗等特点,迫使人们不断发展和推广IP组播技术。组播路由是IP组播的核心问
我国房地产行业的腾飞使智能家居的观念逐渐被人们所接受,面对13亿人口的巨大经济前景,找出一种价格低廉、容易获取、稳定性高的网络设备应用于智能家居很有必要。信息技术的发
视频运动分割技术在图像处理,图像理解领域有非常广泛的应用。分割的准确性直接影响后续任务的有效性,因此具有十分重要的意义。此外,聚类算法是图像分割中常用的技术手段。本文
针对肺癌N分期中很难寻求到与癌组织病理特性相关的CT横断层图像特征这一问题,提出以纹理特征作为胸内淋巴结CT横断层图像的特征向量来诊断胸内淋巴结有无转移的新方法。首先
电弧炉炼钢是一个复杂的物理化学反应过程,具有高度的非线性、时变性和强耦合性。由于电极与炉料间的接触性短路、炉料的坍塌、炉料成分的气化以及金属熔液沸腾等原因,经常会造
AUV的精确跟踪控制能力对于AUV来说是一项很关键的行为能力。现有的传统控制方法大多对AUV的其他动态控制有着比较好的控制效果,而对AUV的跟踪控制往往并不能起到很好的控制
近些年来,本课题组在研究和实践中发现,由于系统布线困难和测试手段的相对落后,使得传统的建筑环境物测试方法在现代测试中已经不能满足测试要求,测试手段需要补充和更新,测