基于内容的Internet Web中文信息过滤

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:hexiaole632
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文研究的主要内容为基于内容的中文网络信息过滤。在论文的撰写过程中,首先深入研究了模式匹配中的一些经典算法,包括算法流程,匹配思想以及时空性能。并对英文语境进行了分析,了解到在英文中字母使用较平均的特点。经典模式匹配算法之所以有着良好的性能,正是由于其充分利用了英文语境的这一特点。但在对中文语境进行分析之后可发现,中文语言特点与英文有着极大的不同,主要表现为中文语境中汉字使用频率分布极为不平衡。因此将适用于英文语境的模式匹配算法直接移植到中文语境当中并不可取。本文充分利用了中文语境的特点,改进了经典的模式匹配算法,根据汉字使用频率调整了字符串匹配中的比较顺序,从而使得算法效率得到了提高,并通过实验加以验证,证实了改进的正确性与合理性。此外,中文语境中存在着一些更为独特的特点,本文针对其中的同音字、形近字这一现象,利用它们发音相似的特点,提出了一种利用拼音转换提高匹配准确率的方法。相比字符串直接匹配的方法,这种方法显得更加智能,更加面向使用计算机的人,而非计算机。同样,拼音转换的方法也通过实验得到了验证。最后,本文通过编程实现了一个小型的代理服务器,并将改进后的模式匹配算法与拼音转换算法嵌入程序代码当中。经过测试,算法不仅正确的完成了过滤功能,而且在性能上也有着良好的表现。
其他文献
以稻谷作为研究对象,基于农产品微生物理论,针对稻谷生产中贮藏、干燥等管理过程,测绘稻谷在不同温度状态下的吸附与解吸数据及参数,解析稻谷吸附与解吸等温线变化,利用系统分析原理和数学建模技术建立稻谷吸附与解吸等温线的计算模型,将模糊识别、进化算法应用于模型的优化,编制模拟软件实现稻谷吸附与解吸等温线的计算机模拟,为稻谷的加工、贮藏、管理提供科学的工艺参数。稻谷的吸附、解吸性能主要用吸附与解吸等温线来研
随着网络技术的发展,网络规模日益扩大,用户需求逐渐增加,现有的通信网络已经难以适应新的形势。目前国内外很多专家学者致力于研究并设计下一代网络,以解决现有网络的各种问
在信息网络化蓬勃发展的今天,人们的日常生活、工作、学习都越来越离不开互联网的支持。互联网的用户上网,大都是以获取信息,知识,资料以及社会交往等为目的的。因此,人们要
随着计算机技术的发展以及《食品安全法》的颁布实施,质量技术监督局依靠传统工作模式已不能满足新形势下对食品生产安全监管的需要。为此,有必要研究开发食品生产安全动态监
铁路叫班系统控制主机是新型铁路叫班系统的核心组成部分。在新型铁路叫班系统中,可以通过多种方式对整个系统进行控制,但无论采用哪种方式,都需要通过控制主机来直接或间接
汽车产业链是在新时代背景下产生的一种应对激烈市场竞争的新型组织模式,是汽车制造行业中汽车制造厂与经销商、供应商、服务站之间以产品技术和资本形成的一条价值关系链。
随着3G移动网络迅速发展以及智能手机的普及,全球已经正式迈入了移动互联网的时代。移动互联网代表的不仅仅是一种生活方式,更是一种产业模式。企业主迫切需要构建自己的WAP
随着海洋数字化时代的到来,海洋数据正在以TB级的速度增长,而研究人员可以收集和存储这样庞大的数据集以作科学研究。海洋数据是国家进行海洋开发战略的基石,对发展海洋事业具有
学位
本体(ontology)作为一种有效表现概念层次结构和语义的模型,自从被引入到计算机领域,就引起了国内外众多研究人员的关注,并被广泛应用到计算机科学的诸多领域。   现阶段
网格是当今分布式计算研究领域最为活跃的部分,它以虚拟组织VO(Virtual Organization)的形式灵活、有效地将不同管理域的异构资源组织起来,协同完成大型计算任务。任务调度是