论文部分内容阅读
计算机技术的发展使得网络上的各种信息急剧增长,随之而来的还有大量的冗余信息和垃圾信息。这些信息不但影响Internet的使用效率和质量,而且影响网络的健康发展。在这种情况下,网络信息过滤技术应运而生,而通常所说信息过滤一般指对文本信息的过滤处理,本文相关研究就是针对文本信息过滤特别是中文文本信息过滤中存在的问题而提出的。国内外很多研究机构和个人针对信息过滤技术,特别是面向中文的信息过滤技术进行了大量的研究工作,也取得了很多成绩。但是,由于文本信息特别是中文信息特有的复杂性、多义性,导致文本信息过滤研究中仍然存在以下问题有待解决:(1)基于内容的文本信息过滤在分词后通常产生大量的候选特征项,如果把所有的候选特征项都用来进行文本表示会增加训练的时间和空间复杂度,并且影响过滤效果。因此,寻找适用于文本信息过滤的权重计算方法是一个需要解决的问题。(2)在抽取特征项集合基础上需要选择适当的优化算法生成类别过滤模板,目前建立过滤模板的方法都是对过滤需求的近似表达。因此,选择一种好的优化方法使得生成模板尽可能好的代表类别特征是一个需要解决的问题。(3)在模板匹配过程中都是整个待分类文档的匹配和分类,从而忽略了待过滤文本个性化特征。特别是在过滤网络文本时,获得的网络数据文本文档往往都有一些附加信息,如何整理和优化待过滤文本是一个有待于解决的问题。(4)由于过滤模板只能无限接近于真实模板,这就需要采用某种方法对过滤结果进行反馈处理从而调整过滤模板。如何利用馈结果及其对应的被过滤文档实现对过滤效果的改善是一个有待于解决的问题。本文以文本信息过滤为目标,针对文本信息过滤特别是中文文本信息过滤中存在的问题展开研究,主要创新点包括以下五个方面:(1)提出了一种综合计算文档权重、段落权重、句子权重和特征项权重的权重计算方法基于内容的文本信息过滤通常将过滤训练文档集转换为空间向量的形式供分类算法分析使用。但是,对训练文档集进行分词后通常产生大量的特征项,如果把所有特征项都用来表示类别,会增加文本过滤的时间和空间复杂度,且很多词对文本过滤的贡献极小,甚至会影响过滤效果。本文在研究相关特征权重计算方法的基础上,综合考虑待匹配文档的文档权重、句子权重、段落权重、特征项权重以及上下文关系提出了一种新的特征权重计算方法。(2)建立了遗传算法解决中文文本信息过滤问题的模型并通过理论和实验两个方面证明了其可行性无论采用什么方法建立的过滤模板,都只是过滤需求的一种近似表达。但是,针对某一专题的内容来讲,理论上都存在着一个真实的过滤模板,它能够准确地表达过滤需求,这个真实模板通过数学求解或实验方法是得不到的,只能通过对初始模板的调整使它不断逼近于真实模板。本文针对应用遗传算法解决中文文本信息过滤问题,建立了问题模型,并在理论上证明了可行性。同时,还根据在实际应用中存在的问题,引入了自适应策略解决应用过程中存在的问题。(3)给出一种以特征词概念为中心的逻辑段落结构并实现了基于逻辑段落的匹配机方法应用向量空间模型进行的匹配和分类中,往往都是整个待分类文档的匹配和分类,从而忽略了待分类文本中的段落特征。同时,目前针对于段落的匹配机制也往往是针对传统的物理段落,即给不同的段落赋予不同的权值,从而使用这些段落进行匹配,这就带有一定的机械性。因为这些物理段落往往较短或者本身包含的信息过少,甚至有些段落包含对于分类有副作用的信息。特别是在过滤网络文本时,获得的网络数据文本文档往往都有一些附加信息,如果使用这些段落实施匹配极其容易出现分类误差和匹配率较低的现象。本文从更加广泛的词义出发,建立一种以特征词概念为中心的逻辑段落结构,在此基础上实现了基于概念的语义段落的匹配机制,体现段落个性化特点,提高分类效果。(4)改进了传统微粒群算法并实现了基于改进微粒群算法的、结合协作过滤思想的模板动态更新要想获得更好的分类效果,必须使用大量的训练文本对系统进行训练。而训练文本从收集、筛选再到人工标注需要耗费大量的人力物力。待分类文档又名未标记文档,因不需要标注和整理,在使用过程中就可以获得,所以代价要小得多。如果能有效利用待分类文档来调整过滤系统,将会带来事半功倍的效果。本文在论述内容过滤和协作过滤两种主要技术的基础上,针对它们存在的问题,提出一种结合两种过滤技术的混合方法。该方法应用遗传优化生成服务器端初始模板,应用粒子群优化用户返回信息实现模板更新,并且针对传统微粒群算法进行了改进。(5)设计了基于上述改进策略的文本信息过滤模型并开发实现了系统结合本文提出的融合段落特征的权重计算方法、基于模糊遗传算法的过滤模板生成算法、基于概念的逻辑段落划分方法以及基于微粒群的反馈优化机制,引入分层过滤机制,面向应用提出了分层、分级、分策略的信息过滤技术系统构架,提高信息过滤模型适应能力和过滤效率。