文本内容的信息过滤技术研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:congmingwangzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互连网络的迅速发展,人们获得越来越多的网络信息,但同时也存在着很大的负面性,如各种迷信、色情、暴力、反动和其他非法信息的传播,内部网中机密信息的泄漏等,都已成为人们日益关注的焦点问题。传统的过滤技术,如基于关键字或基于IP地址的过滤等,不能有效的解决这些问题。 本文对文本分类和信息过滤技术进行了研究,提出了一种多特征选择方法。将机器学习和信息过滤技术相结合,设计出了自适应信息过滤系统。本文主要工作如下。 (1)概述了信息过滤的发展历史、研究现状和实际意义,以及数据挖掘、文本分类等相关知识。 (2)分析了信息过滤的相关理论。文本分类是信息过滤的基础,文章详细介绍了文本分类过程,文本预处理、特征选择、文本表示模型和分类算法等关键技术。对信息过滤的主要方法、信息过滤系统构成和模型也作了重点介绍。 (3)详细讨论了几种常见的特征选择方法。通过实验,对各种特征选择方法的效果进行比较,分析了影响文本分类器性能的几种因素。在此基础上,我们提出一种新的特征选择方法,即多特征选择法。实验证明,利用多特征选择方法进行文本分类,其精度优于任何一种单一特征选择方法。 (4)本文最后设计并实现了基于向量空间模型的自适应信息过滤系统。本系统对传统的信息过滤系统进行了自适应改进,通过修改过滤模板算法,让系统根据用户的反馈信息,自适应地调整阈值,达到提高过滤质量的效果。实验结果表明,改进后的系统过滤性能有明显提高。
其他文献
“数字化”引发了传统市场的变革、引发了营销传播实践与理论的又一场大革命!这场革命的起因是现代科学技术改变了传媒形态和传播规律,改变了受众接触和接受信息的途径和方法,
一直以来,项目管理似乎遵循着2^3法则:花费的时间是原计划时间的两倍;花费的经费是预算费用的两倍;承诺完成的内容是实际交付结果的两倍!为什么会导致这一状况?怎样改变这一状况?
公司保持多大的员工规模才是最优的?在过去的几年,很多大型国企用简单且直接的方式回答了这个问题通过主辅分离、组织扁平化的一刀切减员后,企业的员工规模已经大大缩减,趋于合理
企业面临灭顶之灾的威胁主要来自于两个方面:一是收不抵支,扭亏无期,资本减值,以至主动清算;二是现金持有量过低,且现金替代品调节效能差,不能偿还到期债务,以至被动破产。所以,企业为
2006年12月4日,对所有二滩水电人来讲,都是个值得庆贺且永生难忘的日子。因为就是在这一天,于2005年底正式开工的雅砻江锦屏一级水电站成功地实现了大江截流,比该项目可研预定工
时下,电子按摩器正作为保健用品走进千家万户。但据中国家电在线网报道,日前一名男子因连续使用按摩器4小时,造成机器过热引发火灾,男子的双脚也被灼伤。有关专家接受本报记者采访
报纸
在逻辑学中,悖论是指两种对立甚至是完全矛盾的命题,而它们各自却都是基于严谨的逻辑推理,单独来看,每个命题都是无可置疑的,但把它们放到一起,它们之间却不一致或不相容.在
这一期的《歌手》播放前的半个小时,我的朋友圈里已经开始有很多人在刷同一条状态了。   这条状态的內容是:“今晚之后,我家的赵雷就要变成大家的赵雷了。”   果不其然,《歌手》节目中,赵雷一首《成都》刚刚唱毕,朋友圈就开始了疯狂的刷屏,一夜之间,赵雷的微博粉丝从三十九万涨到现在的五十一万。赵雷的歌,赵雷的故事,赵雷的前世今生,好像一时间全部被网友扒出来了。有人说,赵雷红了就不再是以前的赵雷了,也有类
探讨了施工阶段工程变更签证对工程造价的影响,并提出了控制措施。
目的:探究药膳配合针刺对妇女围绝经期失眠症的作用。方法:选取吉林省中医院门诊就诊的围绝经期妇女失眠症患者66例,分为两组,观察组34例,对照组32例,对照组给予西药艾司唑仑