论文部分内容阅读
随着互联网技术的发展,人们越来越多的利用Web获得自己所需的资源。由于Web上各种资源非常丰富,包括大量的图片、文本等信息。如何把Web中非结构化的文本结构化,抽取支持高级应用的有用信息并载入数据仓库成为预处理的一个关键技术。本文以Web文本数据仓库中的预处理系统为例,重点讨论了预处理中的关键技术。首先介绍了基于主题方法的Web文本数据仓库的构建,并设计了其星型模型,从中得到需要从Web文本中获取的信息。然后论述了文档对象模型(DOM)和信息抽取技术,通过对HTML解析把非结构化的Web文本变成DOM,获得所需的标题、作者以及内容等信息,并为后续获得其他所需信息的信息抽取操作提供了结构化模型。在信息抽取过程中采用了文本分词、关键词提取、自动摘要提取以及文本分类技术。由于分词技术已经比较成熟,本文采用了中科院ICTCLAS分词系统;在关键词提取中采用基于词共现模型的方法;在摘要提取的过程中,使用了一种改进的基于统计的摘要提取技术,获得流畅的摘要,达到了较好的效果;本文还设计了一种二维的SVM-KNN的文本分类方法,解决了SVM中对核函数的依赖问题,并且采用了KNN算法的高准确性,获得了较好的分类效果。根据以上研究成果,本文描述了系统的设计方案和实现过程。