基于网页的关键词提取技术研究及其在广告领域的应用

来源 :南开大学 | 被引量 : 0次 | 上传用户:yxz_89
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络上大量信息以网页形式组织出现,如何更好的理解网页的内容,提取有用的信息,已经成为当今网络信息检索领域的核心问题之一。并且伴随着AdSense商业模式的出现,如何更好的理解网页中和广告相关的内容,提取与广告相关的信息,也已经成为网络信息检索领域一项新的研究课题。基于网页的广告关键词提取技术就就是针对这方面的研究和探索,它是关键词提取技术在网页和广告词领域的发展。 本文在对传统基于网页的关键词提取技术分析的基础上,从两个不同的方面对基于网页的广告关键词的提取技术进行了改进。第一种是基于 MainBlock的改进,它是根据网页本身结构的特点,把网页从对关键词所起到的作用上,把网页划分为不同的5个部分,去掉网页中对关键词提取起负作用的部分,保留起正作用的MainBlock部分,然后再从MainBlock中提取关键词。这种方法的提出是希望从最原始的网页上尽可能的过滤掉了对关键词提取其负作用的部分,从而提高关键词提取的准确率;第二种是基于关键词细特征(Multi-Feature)的改进,它是根据候选关键词本身的特点进行分析,并非从关键词的内容意义进行分析,而是结合每个候选关键词在网页中所处的位置和属性来分析,从而赋予了关键词更多更细微的特征属性,这样做的目的是希望使每一个候选关键词特征更加的丰富,在计算每一个候选词到关键词的概率上增加更多可以衡量的因素,从而从一定程度上保证了即使在某些特征上不能区分出真正的关键词和非关键词,但是在剩余的特征上,仍有可能帮助区分出它们,从而最终使关键词提取的准确率上得到提高。 实验证明,基于MainBlock的改进和基于关键词细特征的改进可以很好的提高网页中广告关键词提取的准确率。
其他文献
随着网络的普及,电子邮件与人们的工作生活联系日趋紧密,随之而来的垃圾邮件问题日益严重。目前,基于接收端的过滤技术被广泛应用。但是在接收端处理垃圾邮件无法避免垃圾邮件对
数据库管理系统(DBMS)软件是信息系统的核心,是国家战略必争的高新技术。实现信息化带动工业化需要自主产权DBMS,提高我国企业创新能力和市场竞争力需要自主产权DBMS,国家信息安
作战指挥是一个复杂的系统工程,在作战指挥过程中,指挥员必须根据敌我双方的态势,快速、准确地作出决策,以取得战争的主动权。然而,现代战争是立体战争,战争的突发性增加,破坏力增大
科技文献作为记录科学技术信息的载体,对其进行数字化是建设信息化社会的迫切需要。目前广泛应用的OCR (Optical character recognition,光学字符识别)技术可以将印刷体文献
在研究与工程领域中,有许多问题通常需要经过几个星期甚至几个月的计算才能得出结论,为进行这样的工作需要一个能在长时期内提供大量计算能力的环境,这就是所谓的HTC (High Thro
随着计算机网络和通信技术的发展以及多媒体应用的深入和普及,VoIP技术已经成为通信领域的关键技术之一。本文的目的是通过研究VoIP中的信令协议SIP,重点是SIP协议中信息处理的
网络结构模型构建是P2P核心研究领域之一,其中结构化P2P系统把计算机组织成一个具有良好的连接和路由规律的结构化拓扑来进行资源共享和查询,但是网络环境的动态性导致系统维护
多Agent系统(Multi-Agent System,MAS)是分布式人工智能(Distributed Artificial Intelligence,DAI)的一个主要领域,而多个Agent之间如何进行组织协调和协作以实现共同目标是MAS
长江防洪模型项目是世界银行贷款项目,主要通过实体模型试验、数学模型计算、原型资料分析等多种手段对三峡工程建成后长江中下游干流河道、湖区河网的泥沙运动、洪水演进和防
随着计算机技术、自控技术、通信技术的迅速发展,嵌入式系统在各个领域都得到了广泛的应用。而嵌入式操作系统的出现为嵌入式应用开发者提供了系统级的支撑环境,极大简化了嵌入