基于微粒群和遗传优化的文本过滤关键技术研究

来源 :山东师范大学 | 被引量 : 6次 | 上传用户:xdjxbzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术的发展使得网络上的各种信息急剧增长,随之而来的还有大量的冗余信息和垃圾信息。这些信息不但影响Internet的使用效率和质量,而且影响网络的健康发展。在这种情况下,网络信息过滤技术应运而生,而通常所说信息过滤一般指对文本信息的过滤处理,本文相关研究就是针对文本信息过滤特别是中文文本信息过滤中存在的问题而提出的。国内外很多研究机构和个人针对信息过滤技术,特别是面向中文的信息过滤技术进行了大量的研究工作,也取得了很多成绩。但是,由于文本信息特别是中文信息特有的复杂性、多义性,导致文本信息过滤研究中仍然存在以下问题有待解决:(1)基于内容的文本信息过滤在分词后通常产生大量的候选特征项,如果把所有的候选特征项都用来进行文本表示会增加训练的时间和空间复杂度,并且影响过滤效果。因此,寻找适用于文本信息过滤的权重计算方法是一个需要解决的问题。(2)在抽取特征项集合基础上需要选择适当的优化算法生成类别过滤模板,目前建立过滤模板的方法都是对过滤需求的近似表达。因此,选择一种好的优化方法使得生成模板尽可能好的代表类别特征是一个需要解决的问题。(3)在模板匹配过程中都是整个待分类文档的匹配和分类,从而忽略了待过滤文本个性化特征。特别是在过滤网络文本时,获得的网络数据文本文档往往都有一些附加信息,如何整理和优化待过滤文本是一个有待于解决的问题。(4)由于过滤模板只能无限接近于真实模板,这就需要采用某种方法对过滤结果进行反馈处理从而调整过滤模板。如何利用馈结果及其对应的被过滤文档实现对过滤效果的改善是一个有待于解决的问题。本文以文本信息过滤为目标,针对文本信息过滤特别是中文文本信息过滤中存在的问题展开研究,主要创新点包括以下五个方面:(1)提出了一种综合计算文档权重、段落权重、句子权重和特征项权重的权重计算方法基于内容的文本信息过滤通常将过滤训练文档集转换为空间向量的形式供分类算法分析使用。但是,对训练文档集进行分词后通常产生大量的特征项,如果把所有特征项都用来表示类别,会增加文本过滤的时间和空间复杂度,且很多词对文本过滤的贡献极小,甚至会影响过滤效果。本文在研究相关特征权重计算方法的基础上,综合考虑待匹配文档的文档权重、句子权重、段落权重、特征项权重以及上下文关系提出了一种新的特征权重计算方法。(2)建立了遗传算法解决中文文本信息过滤问题的模型并通过理论和实验两个方面证明了其可行性无论采用什么方法建立的过滤模板,都只是过滤需求的一种近似表达。但是,针对某一专题的内容来讲,理论上都存在着一个真实的过滤模板,它能够准确地表达过滤需求,这个真实模板通过数学求解或实验方法是得不到的,只能通过对初始模板的调整使它不断逼近于真实模板。本文针对应用遗传算法解决中文文本信息过滤问题,建立了问题模型,并在理论上证明了可行性。同时,还根据在实际应用中存在的问题,引入了自适应策略解决应用过程中存在的问题。(3)给出一种以特征词概念为中心的逻辑段落结构并实现了基于逻辑段落的匹配机方法应用向量空间模型进行的匹配和分类中,往往都是整个待分类文档的匹配和分类,从而忽略了待分类文本中的段落特征。同时,目前针对于段落的匹配机制也往往是针对传统的物理段落,即给不同的段落赋予不同的权值,从而使用这些段落进行匹配,这就带有一定的机械性。因为这些物理段落往往较短或者本身包含的信息过少,甚至有些段落包含对于分类有副作用的信息。特别是在过滤网络文本时,获得的网络数据文本文档往往都有一些附加信息,如果使用这些段落实施匹配极其容易出现分类误差和匹配率较低的现象。本文从更加广泛的词义出发,建立一种以特征词概念为中心的逻辑段落结构,在此基础上实现了基于概念的语义段落的匹配机制,体现段落个性化特点,提高分类效果。(4)改进了传统微粒群算法并实现了基于改进微粒群算法的、结合协作过滤思想的模板动态更新要想获得更好的分类效果,必须使用大量的训练文本对系统进行训练。而训练文本从收集、筛选再到人工标注需要耗费大量的人力物力。待分类文档又名未标记文档,因不需要标注和整理,在使用过程中就可以获得,所以代价要小得多。如果能有效利用待分类文档来调整过滤系统,将会带来事半功倍的效果。本文在论述内容过滤和协作过滤两种主要技术的基础上,针对它们存在的问题,提出一种结合两种过滤技术的混合方法。该方法应用遗传优化生成服务器端初始模板,应用粒子群优化用户返回信息实现模板更新,并且针对传统微粒群算法进行了改进。(5)设计了基于上述改进策略的文本信息过滤模型并开发实现了系统结合本文提出的融合段落特征的权重计算方法、基于模糊遗传算法的过滤模板生成算法、基于概念的逻辑段落划分方法以及基于微粒群的反馈优化机制,引入分层过滤机制,面向应用提出了分层、分级、分策略的信息过滤技术系统构架,提高信息过滤模型适应能力和过滤效率。
其他文献
[摘 要] 知识经济是一种以知识创新为基础的新的经济形态,随着知识经济时代的来临,知识和技术必将成为体育产业的主要组成部分。通过对内蒙古旅游资源和少数民族传统体育的优胜分析,论述了知识经济时代对发展内蒙古地区有特色的体育旅游业的影响和促进内蒙古的两个文明建设的作用。  [关键词] 知识经济 体育旅游 民族体育 旅游资源    随着我国体育产业的兴起,体育市场的范围日趋扩大,体育产业由经济发达沿海地
气门漏气的原因与防止办法新疆工一师机械施工公司徐立汉气门有进气门与排气门,都是配气机构的重要零件,根据发动机工作过程的要求,定时开启或关闭进、排气通道,完成缸内换气功能
<正> JDF-2型防坠器的结构如图1。二对导轮3,二只小齿轮6及二只偏心夹紧轮8均由小轴7联于防坠器底板1。夹紧轮上铣有部分轮齿,与小齿轮6啮合。齿条5与支承轴4相连。支承轴套
<正> 1 引言众所周知,建筑机械(如挖掘机、装载机、轮式起重机等)的特点之一是传递功率大且通常采用内燃机作为原动机。近年来,为了提高建筑机械的传动效率,增强产品的市场竞
在市场经济日益发达的今天,经济已经渗透到社会生活的各个方面。当代大学生,作为未来主要的经济主体,由于中国传统观念的束缚以及当前的“应试”教育,只看重于书本上理论知识的学
本文概述了建筑机械减速器进行跑合的目的、机理和方法,着重介绍了对减速器跑合进行的模拟试验研究。
随着我国市场经济日渐完善,加强对商业秘密的法律保护就显得尤为重要。世界各国在《反不正当竞争法》中规定有关商业秘密的法律保护问题,我国也以《反不正当竞争法》为主要规定
<正> 伸缩臂驱动油缸是液压汽车起重机的重要部件之一。整机起重性能的优劣与该油缸的结构与自重直接相关。为提高起重性能,既要达到足够的起升高度,又要降低自重,使得这种油
滇西大反攻是第二次世界大战亚洲战场进行的一次局部性的战略大反攻,中国远征军强渡怒江,是亚洲战场诺曼底登陆的开始,它和欧洲战场上的诺曼底登陆相互配合,是中国战场最先进
目的:结合中、藏医药理论将藏药材ES与黄芪、麦冬、枸杞子、山药等中药进行组方配伍,运用降糖活性评价筛选其制剂处方,并确立藏药EH复方降糖颗粒制剂的最佳成型工艺,并考察其