文本过滤技术的研究和实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:a3321697
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的高速发展,信息过滤技术已成为当今计算机信息处理领域最热门的技术之一.在该论文中,系统地介绍了作者作为主要人员参与研制的文本过滤系统FDFilter的主要框架和各部门实现算法.该系统参加了TREC10的自适应过滤子任务的评测,取得了第三名的好成绩.第二章对当今信息过滤领域的常用技术进行了综述.在第三章,对FDFilter信息过滤系统中训练模块的算法和数据结构进行了系统的介绍.训练阶段主要研究初始模块的创建、初始阈值的设置以及如何充分利用用户给出的主题描述信息.在对主题信息进行仔细研究的基础上,根据主题的描述信息实现了一个基于winnow的分类器,然后用此分类器辅助过滤系统取得了不错的结果.在第四章,讨论了系统的阈值和模板调整算法.在模板调整模块中采用了Rocchio反馈算法,实验证明这有很好的结果.阈值调整是自适应文本过滤中另一个非常重要的步骤.自适应文本过滤中训练正例少以及过滤过程中数据稀疏等问题,使得自适应文本过滤的阈值调整尤为困难.在FDFilter系统中,采用了面向精度的调整算法,该算法充分利用过滤过程中的精确率、平均相似度等可观测信息调整阈值;具有使用正例少、调整速度快、系统性能高等优点.第五章介绍作者在实现一些模块中采用算法和数据结构,包括语料格式处理、索引生成和压缩、特征抽取模块.并给出了系统在中英文语料上的评测结果.结果表明该过滤系统已经达到了国际先进的水平.
其他文献
该文在紧密联系大型钢铁企业的生产实际基础上,结合实际工程背景,提出了在大型钢铁企业中构建实施企业级数据仓库的整体方案.具体内容包括:首先介绍了数据仓库以及基于数据仓
信息化是高效管理的必由之路,许多机构(政府,企业等)经过近几年的信息化建设,已经初步具备了信息化的软硬件设施,在这些信息化过程当中,管理信息系统起着非常重要的作用,许多机构对自
学位
对于高分航空遥感图像的交通信息提取而言,对车辆目标的位置、朝向角和类别三要素的估计是开展后续一系列智能信息提取任务的基础和前提。对于现阶段常见的高分航空遥感图片而
维吾尔族和哈萨克族分别是新疆第一和第二大少数民族。维吾尔文与哈萨克文分别是新疆维吾尔族与哈萨克族群众在日常学习、工作和生活中使用的主要文字。新中国成立以来,我国的
社会化生产是人类社会生产力发展到高级阶段的必然形式。传统产业如机械制造业、化学工业、电子产业等都先后进入社会化生产阶段。在软件领域,为了解决“软件危机”问题,人们提
主题模型作为一种能够挖掘文本语义的技术受到了研究者的青睐,并且在业界得到了广泛的应用。在社交网络等领域中,主题模型是文本分类,检索以及推荐等应用的一项重要技术。  随
计算机系统的性能是评价计算机系统的重要指标,是用户和企业在选购和使用计算机系统时必须考虑但又很难把握的因素,这促使着性能评价作为一个新兴计算机技术并在不断发展。为了
沈阳海关计算机应用工作近几年发展较快,关区网络建设也已具有了一定的规模.依托此网络体系关区内应用了报关单联网数据传输,办公自动化关区连网等应用项目.沈阳关区网络应用
随着Internet/Intranet技术及应用的发展,很多企业建立了自己的计算机网络,并实现了与Internet的互联,网络安全就成为一个需要迫切解决的问题.防火墙作为保护企业内部网的主