论文部分内容阅读
随着信息技术的发展和因特网的日益普及,网络上的信息量急速倍增,广大计算机用户深受信息过载和信息污染的严重困扰。网络信息过滤的出现与发展为人们快速、准确、全面地获取信息指明了方向。网络信息过滤技术是以一种系统化的方法,将用户需求与动态信息流进行匹配计算,从信息流中抽取出符合用户需求的信息并传送给用户。本文从过滤系统涉及的关键技术入手,所做的主要工作如下:1.对当前主要的汉语分词方法进行分析和研究,设计了一种简单高效的分词方法。考虑到中文自动分词是信息过滤的基础,分词质量的好坏直接影响过滤结果的优劣。我们针对语言丰富,新词量大且对速度有很高要求的网络环境的实际需求,对当前主要的汉语分词方法进行分析和研究,设计了一种简单高效分词方法。本方法最大特点是实现简单,分词速度快,且对新词识别能力强。对研究和开发具有一定的实用价值的中文自动分词系统具有一定的借鉴意义。2.提出了一种用于大规模语料的类别权重计算方法和一种单Web文本权重计算方法。针对目前很多系统不考虑特征的实际应用和侧重点,对特征权重不作区分计算的现状,本文提出了一种用于大规模语料的类别权重计算方法和一种单Web文本权重计算方法。这两种权重计算方法分别用在两个不同的环节。在训练用户模型时,面对的是整个数据集,特征的重要性是在整个文本数据集中的重要性,更侧重于特征的类别区分能力,适用类别权重计算方法,本文充分挖掘特征的类别信息(词频、文档频率、类分布等)来构造类别权重计算函数;流经网络的文档流在某一时刻是单个文本,更侧重于文本内容的表示能力,适用单Web文本权重计算方法,本文根据web文档自身的特点,例如根据特征词频和文本结构等特点构造权重计算函数。3.利用遗传算法进化用户模型时,对影响遗传算法早熟收敛的交叉和变异算子进行了改进,根据进化过程采取自适应交叉和变异概率,并引入基因扩展、增量遗传等措施更新用户模型,将用户模型的获取和更新融为一体。目前,在用户模型的研究上,大多数过滤系统把用户模型的获取和更新分离开来。本文对用户模型的表示、建立和更新环节进行了详细的分析和研究,将用户兴趣模型的获取和更新过程看作是一个学习→调整→再学习→再调整……不断进化的过程,因而可以把用户模型的建立和更新融入遗传算法的进化机制,从而获取高效准确的用户模型。为了充分发挥遗传算法的优势,避免传统遗传算法的缺陷,本文在应用遗传算法进化用户模型时,对遗传算法各个环节的实施策略进行了精心的设计和改进。主要对影响遗传算法早熟收敛的交叉和变异算子进行了改进,综合考虑群体的收敛状态、个体适应度及迭代次数等因素,根据进化过程采取自适应交叉和变异概率,并且引入基因扩展、增量遗传等措施更新用户模型。4.设计了一个具有三级过滤功能(基于URL的过滤、基于关键词的过滤和基于网页内容的过滤)的网络信息过滤模型系统,并对本文改进的算法进行了相关的实验和分析,取得了令人满意的测试效果。