【摘 要】
:
在过去的十多年里,互联网上的网站数量呈指数增长趋势,互联网上的网站数量已经突破1.5亿,而网页数量更是达到数百亿.用户往往需要借助搜索引擎和网页目录才能从这样海量的网页当中找到符合自己需求的高质量网页.传统的网页目录几乎都是采用人工构建的方法.这样的构建方法有着耗时多、不够客观、缺乏一致性以及无法及时反映新闻事件和热点事件等缺点.因此,开展网页目录自动构建方法的研究对提高网页目录的质量具有重要意义
【机 构】
:
清华大学智能技术与系统国家重点实验室北京 100084
【出 处】
:
第四届全国信息检索与内容安全学术会议
论文部分内容阅读
在过去的十多年里,互联网上的网站数量呈指数增长趋势,互联网上的网站数量已经突破1.5亿,而网页数量更是达到数百亿.用户往往需要借助搜索引擎和网页目录才能从这样海量的网页当中找到符合自己需求的高质量网页.传统的网页目录几乎都是采用人工构建的方法.这样的构建方法有着耗时多、不够客观、缺乏一致性以及无法及时反映新闻事件和热点事件等缺点.因此,开展网页目录自动构建方法的研究对提高网页目录的质量具有重要意义.本论文讨论和设计一种基于用户行为的网页目录自动构建方法.这种方法最大的特点是能够及时的发现最新的新闻时间和热点事件并在目录中以单独的类的形式表现出来.目录的构建核心步骤有高质量网页提取,网页关键访J提取以及网页聚类三步,每一步都是基于用户行为实现的.
其他文献
作为一种自然语言处理应用,文本聚类具有高维和语义相关的特点,属于无监督的学习方法.但由于缺乏类别信息,成功应用于文本分类的有监督的特征选择方法很难直接应用于文本聚类.为了将语义信息用于文本聚类和有效地进行特征选择,本文提出了一种基于协同聚类的两阶段文本聚类方法.该方法分别对文档和特征进行聚类从而得到特征与主题之间的语义关联关系,然后利用此关系来相互调整彼此的聚类结果;聚类分两阶段进行,第一阶段对训
潜在语义索引被广泛应用于信息检索、文本分类、自动问答系统等领域中.潜在语义索引是一种降维方法,它把共现特征映射到同一维空间上,而非共现特征映射到不同的空间上.在潜在语义索引的语义空间中,共现特征通过文档内部以及文档之间的特征传递天系获得.本文认为这种特征传递关系会引入一些不存在的共现特征,从而降低潜在语义索引的性能,应该对这种特征传递关系进行一些选择,削除不存在的共现特征信息.本文采用文档频率对文
文档聚类是实现话题检测与跟踪的重要方法.传统的硬聚类算法在处理边界数据时存在很大缺陷,影响话题检测的效果.针对这一问题,本文提出一种改进的基于容错粗糙集的聚类方法,利用某些文档特征项协同出现,构造特征项容错关系,扩充特征项的描述能力,最后用特征项容错类描述文档之间的相似关系,实现了话题检测与跟踪的过程.实验证明,该方法能够有效的处理边界数据,提高文本聚类的效果.
拒绝服务攻击(Denial of Service,DoS)和分布式拒绝服务(Distributed Denial of Service Artack DDoS)攻击对运行于Interact上的各种应用造成了很大的威胁.它通过消耗目标主机带宽或者目标主机各种资源而达到迫使目标主机无法向正常用户提供服务的目的.本文首先对传统的DOS、DDoS攻击方法及防御策略进行了简述总结,随后通过分析流媒体服务自身
互联网的发展为人们共享信息提供了前所未有的条件,然而这也为科技论文抄袭行为提供了便利,于是判定科技论文的原创性变得尤为重要.针对这一问题,本文提出并实现了基于信息检索技术的中文科技论文的原创性检查系统.本文采用n元文法结构作为索引单元,以概率模型为检索模型,利用开源的Lemur Toolkit作为基础建立系统.实验结果表明,该方法行之有效.
双语术语相似度计算在跨语言信息检索等领域有重要的应用.目前双语术语相似度计算主要有基于统计和语言学两类方法,其中,本文针对语言学中基于词典的术语相似度计算效果受词典覆盖面影响较大的缺点,提出基于词典的语义预测扩展相似度算法,并利用动态规划求解多对双语术语的相似度,从而选择正确的双语术语.实验结果显示该算法的准确率达88%,召回率达82%.
在信息检索领域,针对相关文档和用户查询之间的词不匹配问题,相关反馈和查询扩展可以有效提高检索性能.近来学者们将单词之问的关联关系融入到统计语言模型中,但都是利用WordNet或共现关系进行查询扩展,前者效果不明显而后者易引入很多"噪音".本文提出一种基于局部词语搭配关系的查询扩展方法,即从前N篇相关文档中反馈具有句法和语义关系的搭配单词加入原查询.在TREC数据集的试验结果表明:本文提出的基于词语
本文介绍了一个适用于新闻搜索应用的索引更新算法,称为基于汇集(pooling)的在线索引更新算法(POIU).它使用一种新型的混合式在线索引更新策略,通过在内存中对倒排表进行汇集,可以快捷高效地把短的倒排表成批地筛选出来,使得为数众多、增长缓慢的短倒排表能够在内存池保留下来,有利于更有效的合并更新.同时,本文说明了实现这个POIU算法所需的一种索引词表的高效缓存和查找技术.本文还对系统的实现情况和
本文通过构建文本的线性序列,并分析该序列相似度曲线的变化,针对增量式K均值聚类算法,提出一种基于相似序列的初始点和调整对象的选择方法.其中初始点的选择改进了聚类算法的性能,调整对象的选择降低了算法在迭代调整中处理的数据量.在不同的测试语料中本文采用该方法分别对传统的K均值和增量式K均值进行对比实验,进而证明该方法的有效性.
本文在KNN的分类框架下实现对科技论文的国际专利分类IPC自动标注.在对其中涉及的关键技术进行分析的同时,本文对多种相似度计算方法和ranking方法的不同组合进行了比较和实验分析.在NTCIR7的dryrun语料上的实验结果表明.BM25相似度计算方法和考虑相似度排名位置信息的railking方法的组合明显优于其它组合方法.