面向Web文本数据仓库的预处理关键技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：ya0000000000

【摘要】

：

随着互联网技术的发展，人们越来越多的利用Web获得自己所需的资源。由于Web上各种资源非常丰富，包括大量的图片、文本等信息。如何把Web中非结构化的文本结构化，抽取支持高级应

【作者】

：

马珊

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2011年期

【关键词】

：

Web文本数据仓库预处理信息抽取文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的发展，人们越来越多的利用Web获得自己所需的资源。由于Web上各种资源非常丰富，包括大量的图片、文本等信息。如何把Web中非结构化的文本结构化，抽取支持高级应用的有用信息并载入数据仓库成为预处理的一个关键技术。本文以Web文本数据仓库中的预处理系统为例，重点讨论了预处理中的关键技术。首先介绍了基于主题方法的Web文本数据仓库的构建，并设计了其星型模型，从中得到需要从Web文本中获取的信息。然后论述了文档对象模型(DOM)和信息抽取技术，通过对HTML解析把非结构化的Web文本变成DOM，获得所需的标题、作者以及内容等信息，并为后续获得其他所需信息的信息抽取操作提供了结构化模型。在信息抽取过程中采用了文本分词、关键词提取、自动摘要提取以及文本分类技术。由于分词技术已经比较成熟，本文采用了中科院ICTCLAS分词系统；在关键词提取中采用基于词共现模型的方法；在摘要提取的过程中，使用了一种改进的基于统计的摘要提取技术，获得流畅的摘要，达到了较好的效果；本文还设计了一种二维的SVM-KNN的文本分类方法，解决了SVM中对核函数的依赖问题，并且采用了KNN算法的高准确性，获得了较好的分类效果。根据以上研究成果，本文描述了系统的设计方案和实现过程。

其他文献

CRN中基于连续时间单重休眠模式的节能机制及性能研究

移动通讯数据以及超宽带视频应用的迅猛增长,导致网络基站的能耗急剧增长。这不仅加剧了温室效应等生态问题,也违背了服务提供商低能耗的追求。网络中的“节能”问题引起广泛

学位

CRN节能机制单重休眠排队模型性能评估系统优化

UML顺序图的形式化描述方法研究

统一建模语言UML是在多种面向对象建模方法联合的基础上发展而来的，由于其概念明确，图形结构清晰，建模方法简洁，易于掌握和使用，且不依赖于特定的软件开发过程，于1997年被对象管理

学位

描述逻辑计算树逻辑形式化UML顺序图

“我的湾大”校园文化创意产品设计

一个伟大的新时代需要改革创新来满足大众对新艺术审美的需求.目前,文化创意产品在市场上不断地惊艳亮相,这也正是时代不可阻挡的潮流趋势.我国高校正在逐步重视这方面的文化

期刊

高校文化创意产品产品应用

面向Web文本数据仓库的预处理关键技术研究

其他学术论文