论文部分内容阅读
随着网络上大量信息以网页形式组织出现,如何更好的理解网页的内容,提取有用的信息,已经成为当今网络信息检索领域的核心问题之一。并且伴随着AdSense商业模式的出现,如何更好的理解网页中和广告相关的内容,提取与广告相关的信息,也已经成为网络信息检索领域一项新的研究课题。基于网页的广告关键词提取技术就就是针对这方面的研究和探索,它是关键词提取技术在网页和广告词领域的发展。
本文在对传统基于网页的关键词提取技术分析的基础上,从两个不同的方面对基于网页的广告关键词的提取技术进行了改进。第一种是基于 MainBlock的改进,它是根据网页本身结构的特点,把网页从对关键词所起到的作用上,把网页划分为不同的5个部分,去掉网页中对关键词提取起负作用的部分,保留起正作用的MainBlock部分,然后再从MainBlock中提取关键词。这种方法的提出是希望从最原始的网页上尽可能的过滤掉了对关键词提取其负作用的部分,从而提高关键词提取的准确率;第二种是基于关键词细特征(Multi-Feature)的改进,它是根据候选关键词本身的特点进行分析,并非从关键词的内容意义进行分析,而是结合每个候选关键词在网页中所处的位置和属性来分析,从而赋予了关键词更多更细微的特征属性,这样做的目的是希望使每一个候选关键词特征更加的丰富,在计算每一个候选词到关键词的概率上增加更多可以衡量的因素,从而从一定程度上保证了即使在某些特征上不能区分出真正的关键词和非关键词,但是在剩余的特征上,仍有可能帮助区分出它们,从而最终使关键词提取的准确率上得到提高。
实验证明,基于MainBlock的改进和基于关键词细特征的改进可以很好的提高网页中广告关键词提取的准确率。