【摘 要】
:
随着互联网在中国的迅速普及,现在每天中文网页都在以数以万记的速度增加,这无疑给我们带来了巨量信息。那么面对如此庞大的信息,我们迫切需要解决的问题是如何管理和利用这
论文部分内容阅读
随着互联网在中国的迅速普及,现在每天中文网页都在以数以万记的速度增加,这无疑给我们带来了巨量信息。那么面对如此庞大的信息,我们迫切需要解决的问题是如何管理和利用这些信息资源。为了有效地组织和检索网页资源,必须对网页进行合理分类。近年来,网页分类已成为信息领域的研究热点之一。如何针对中文网页的结构特点,将中文语言处理技术与文本分类技术更好的运用在中文网页分类上是一项很有意义的富有挑战性的研究课题。传统的中文文本分类技术中大多数使用中文切词系统对文本进行预处理,切词系统对于人名,地名,网页中的新词及中英文混用词识别能力较差。本文在讨论文本分类关键技术的同时,提出了一种序列数据挖掘方法来替代现有的切词系统。我们将每篇文本看作一系列以字为基本单位的字符串,用改进的PAT树技术为文本创建一个树存储结构,然后结合净频率计算方法挖掘出频繁出现的字串作为候选特征。实验表明,序列挖掘方法能从中文网页中更好地识别出人名地名,网页中出现的新词,以及常用动名词词组,名词词组等。面对海量的互联网信息,我们需要更多的类别来管理,单层的类别显得孤立,杂乱,庞大。具有层次结构的多层分类显然要比单层分类能更有效地管理文本。层次分类方法与单层分类方法相比,有自己的特点和技术问题。目前,国内外对层次分类方法的探讨还不是很深入。本文在研究国内外层次分类方法的同时,提出了一些解决层次分类问题的可能方法,并构造了一个自己的层次分类模型。最后,本文结合前面所提出的技术设计实现了一个基于序列挖掘方法的中文网页分类系统。实验表明,应用序列挖掘方法的分类系统与传统分类系统在分类精度相同的情况下,分类速度比传统分类系统快很多。
其他文献
文档的自动文摘是自然语言理解领域中的一个重要的研究方向。近年来,随着互联网的普及,网上的信息越来越多,为人们提供了丰富的信息资源。在数量庞大的网页中浏览自己需要的
二十一世纪是信息化时代,办公自动化、网络化、信息化已成为一种必不可少的必备条件,作为基础教学与科研基地的高校自然走在所有行业的最前列。随着高等院校“数字校园”工程进
本文为基于江苏省交通厅设立的“考核管理系统”的软件开发课题所做的前期研究工作,其实践研究成果将作为该考核系统开发的主要技术依据。 通过对考核管理现状的分析,结合考
随着以计算机技术、通讯技术为主的信息技术的飞速发展,嵌入式系统在各行业获得了日益广泛的应用。信息家电,手持设备,移动设备等嵌入式产品的迅速发展,使得嵌入式软件开发再度成
随着嵌入式产品需求的日益增加,嵌入式系统的规模也变得愈发复杂。传统的软硬件各自的开发模式使得目标系统资源优化不够,可靠性、安全性和实时性都难以保障,开发周期和成本也受
自从20世纪60年代末美国发射了第一颗地球资源技术卫星开始,遥感就进入了一个全新的时代。随着遥感技术的飞速发展,遥感影像的获取越来越方便,这使得获取到的遥感数据量呈现爆炸性的增长,形成GB、TB甚至PB级数据,如何有效的存储和管理这些数据并实现快速共享和分发已经成为空间信息科学领域和一些部门重点关心的问题之一。2006年国务院颁布了《国家中长期科学和技术发展规划纲要(2006-2020年)》,规划
随着计算(Computation)、通信(Communication)、控制(Control)等3C技术的迅猛发展,人类赖以生存的物理世界正朝着网络化、信息化的方向发展,信息物理融合系统(CPS)已经成为全
总线是计算机系统中各组件之间信息传输的公共通路,各个功能部件都是通过总线交换数据。PCI总线是目前非常成熟的局部总线,它在军用、民用领域均有广泛的应用。Wishbone总线
H.264是ITU-T和MPEG组联合专家组JVT制定的视频编码标准,这一编码标准可获得很高的编码效率,尤其是在低码率方面比MPEG-4有明显提高,适合低宽带、高质量网络视频应用的需要。
随着嵌入式技术的发展,嵌入式内核接口的标准化设计已成为一个不可忽视的问题,另外嵌入系统存储能力的迅速提高,对于复杂的数据资源的需要管理,嵌入式文件系统的研究和实现就显得