论文部分内容阅读
随着互联网的日益普及和迅猛发展,互联网产业取得了前所未有的成就,互联网广告也表现出巨大的发展潜力和上升空间。因此,互联网广告技术越来越受到研究人员和业界人士的广泛关注。其中,网页广告是指用户在浏览网页时在页面上推荐的广告,由于其不依赖于特定的搜索引擎,因此具有更强的适用性。本文主要针对网页广告进行研究,而网页广告关键词的抽取是进行网页广告推荐的重要步骤,在整个广告推荐过程中具有重要作用。一方面,目前的网页广告关键词抽取大都基于传统的文本关键词抽取方法,并没有考虑网页广告关键词的特性;另一方面,当前的网页关键词抽取只考虑浏览网页的内容,采用通用化抽取策略,并没有考虑当前浏览用户的兴趣,做到个性化抽取。本文针对上述两点开展研究,主要工作和成果如下:
(1)提出了一种无监督的网页广告关键词抽取算法Ad-TextRank。
本文通过分析网页广告关键词的产生机制,即广告商根据用户查询热点进行提交,中间商抽取网页的关键词与广告商提交的关键词匹配,提出利用查询日志中查询词的概率分布来辅助关键词抽取。这种方法也是在考虑关键词要反映文档主题之外还要有广告价值的基础上提出的。Ad-TextRank方法在计算每个顶点权重值的过程中综合考虑词项在查询日志中的分布情况,采用类似熵值计算的方法,计算词项在查询日志中的概率分布情况。该方法在实验数据集上的评测结果优于传统的TextRank方法,抽取5个广告关键词的正确率提高了31.0%。这种借鉴查询日志的广告关键词抽取方法也为关键词在广告上的价值评估提供了研究思路。
(2)提出了一种基于用户兴趣的网页广告关键词抽取算法UAd-TextRank。
Ad-TextRank方法并没有考虑用户的因素,属于通用化的研究方法。实际上广告的目标是用户,针对个人的服务也是网络广告区别于传统广告的巨大优势。本文分析了近年来流行的社会化标签Tag资源,Tag资源具有高层语义特征并由用户标注,适合表达用户兴趣。本文考虑用户兴趣的变化规律,对用户兴趣进行建模。利用用户兴趣对原始文档进行扩展,构建带权重的无向词图进行迭代,在结果排序中融合兴趣权重,提出了个性化的抽取策略UAd-TextRank。在实验数据集合上的结果显示,个性化的抽取策略好于传统的TextRank方法,在关联文档中词项计算方法选择适当时,优于Ad-TextRank方法,抽取5个广告关键词结果的正确率比通用化方法提高了7.5%。
本文的工作有广泛的应用价值和一定的研究价值。首先有助于满足网络广告市场中用户、广告商、网站主和中间商各自的利益需求,形成四赢的局面。另一方面本文工作属于计算广告学范畴,计算广告的研究方兴未艾,个性化的策略还比较少,本文工作为进一步的研究打下基础。