论文部分内容阅读
互联网的迅猛发展和计算机水平的提高带来了信息过载问题,如何快速地从中获取用户所需要的部分,成为一个亟待解决的问题。文本过滤所研究的内容就是如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息,使人们更有效地利用信息资源。文本过滤涉及的知识范围非常广泛,综合了自然语言理解、人工智能以及知识论等领域的知识,其关键技术主要包括文本分词、文本特征向量降维、文本特征提取、用户模板和过滤阈值初始化以及机器学习等。
本文首先阐述文本过滤的基本问题,包括文本过滤的发展历史和研究现状、文本过滤的研究内容、文本过滤系统的性能评价指标以及与文本检索的关系等。然后,着重对文本过滤中涉及的关键技术进行深入地分析和探讨。主要包括文本过滤模型、中文分词技术、文本特征项的提取与权重计算以及文本过滤的主要方法,并提出了一种改进的基于词长的TFIDF特征项权值计算方法。最后,本文对自适应文本过滤中的机器学习进行了深入的研究,包括用户模板学习和阈值学习。在此研究基础上,本文设计了一个基于机器学习的文本过滤系统模型,并对系统总体框架、功能模块以及系统实现的主要方法进行详细阐述,最后,对该系统做了测试,实验证明,该系统具有较好的文本过滤性能。