基于机器学习的文本过滤方法研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:sunxunjun2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展和计算机水平的提高带来了信息过载问题,如何快速地从中获取用户所需要的部分,成为一个亟待解决的问题。文本过滤所研究的内容就是如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息,使人们更有效地利用信息资源。文本过滤涉及的知识范围非常广泛,综合了自然语言理解、人工智能以及知识论等领域的知识,其关键技术主要包括文本分词、文本特征向量降维、文本特征提取、用户模板和过滤阈值初始化以及机器学习等。 本文首先阐述文本过滤的基本问题,包括文本过滤的发展历史和研究现状、文本过滤的研究内容、文本过滤系统的性能评价指标以及与文本检索的关系等。然后,着重对文本过滤中涉及的关键技术进行深入地分析和探讨。主要包括文本过滤模型、中文分词技术、文本特征项的提取与权重计算以及文本过滤的主要方法,并提出了一种改进的基于词长的TFIDF特征项权值计算方法。最后,本文对自适应文本过滤中的机器学习进行了深入的研究,包括用户模板学习和阈值学习。在此研究基础上,本文设计了一个基于机器学习的文本过滤系统模型,并对系统总体框架、功能模块以及系统实现的主要方法进行详细阐述,最后,对该系统做了测试,实验证明,该系统具有较好的文本过滤性能。
其他文献
随着计算机通信技术和互联网的飞速发展,多媒体数据特别是数字图像逐渐成为人们获取信息的重要来源,成为人们生活的重要组成部分。但随着图像处理技术的发展,人们对数字图像
如今传统的Web已经不能满足我们的需要,Ajax技术的出现给传统的Web带来了巨大的冲击。同时Ajax框架及其应用模式成为普遍关心的问题。本文着力对其进行深入分析研究,发现Ajax框
随着Flash产业的发展与成熟,Flash存储器作为一种新的存储介质已经被广泛应用到计算机系统中,并有全面取代磁盘的趋势。由于与传统磁盘的读写特性不同,Flash存储器上的数据管理
本文在研究汉语句子相似度的过程中,针对汉语由语素构成词语,由词语构成语句的特点,分别对汉语中的义原、词语、句子三个层次的相似度计算进行了研究。并根据问句自身的特点,对问
时空数据建模技术已成为当前领域的一个重要研究方向,主要包括获取地理现象的空间、时间及属性的完整描述信息,实现时空数据的统一存储、管理,并按不同需求提取,完成时序、空间和
随着互联网的不断发展以及各种低码率视频压缩标准的提出,网络流媒体视频传输也日益普及,这给多媒体的版权问题提出了新的挑战,同时也为基于网络流媒体视频进行隐藏通信提供
无线传感器网络已经广泛应用于环境监测、目标追踪、地理路由等领域。大量低成本、多功能、微小体积的无线传感器网络节点可以布置在一定的区域形成一个大规模的、动态拓扑结
本文的研究来源于导师的课题《教育云平台的运营和管理研究》。主要研究跟教育云服务平台相关的管理和运营关键技术问题。《教育信息化十年发展规划(2011-2020年)》[1]对于国
图像和视频中的文本字符,是图像高层语义内容的一个重要来源,包含许多非常重要信息,如街道名称、商店名称、路标、交通标示等,这些信息对于图像和视频资料的自动注释、索引等方面
随着信息技术的飞速发展、市场竞争的日益加剧,越来越多的企业意识到单凭自身内部的资源整合已经难以把握快速变化的市场机遇,于是它们开始将注意力转向企业外部。这种由多个