面向web文本挖掘的中文文本自动摘要关键技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:Y290107881
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的快速发展,海量的Web数据资源已经成为人们获取知识与信息的重要来源。而随着Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息。目前,在现有数据集合中文本和超文本的数据量远远超过了结构化数据,最近研究表明,一个组织的信息有80%是以文本的形式存放的。随着信息资源的不断增长,人们迫切需要从海量的文本信息中有效地收集和选择感兴趣和有用的信息。在这样的需求驱动下,文本数据挖掘成为数据挖掘领域中的一个热点及难点。本论文的研究内容是面向Web文本挖掘的中文文本自动摘要关键技术的研究与系统设计。通过自主开发的中文文本信息提取系统,重点讨论了当前流行的Web文本挖掘以及中文文本自动摘要的核心技术,简述如下。中文分词技术:考虑到中文数据的特点,采用了基于“词元”的分词算法实现文本分词。中文文本的关键词提取技术:利用分词的结果采用基于统计学的方法实现关键词的提取。中文文本自动文摘技术:本文针对中文文本信息,在实现自动文摘现有方法的基础上,提出了一种基于统计方法分析文本,通过结构分析分主题提取摘要,利用启发式规则对摘要进行可读性加工的自动文摘方法。本文的主要工作和主要创新点在于:①提出了一种切实可行的自动文摘方法;②提出了选取构建文本向量空间项的新方法,利用若干最高权重关键词而不是全部单词,解决了信息分散的问题;③设计了新的主题划分方法,主题数随文本结构的不同进行动态调整,较科学的进行了主题划分;④提出了关键词的全局权重、局部权重和主题权重的概念,针对各类权重提出了适合的权值计算方法,解决了依赖大语料库的困难。针对以上研究成果,本文描述了原型系统的设计实现细节。
其他文献
报表是现代呼叫中心系统中十分重要的组成部分。呼叫中心对业务评价需求的高度关注要求系统提供灵活多样的报表功能。然而,传统呼叫中心一般仅提供几种固定的报表格式,越来越
微电子技术、计算技术、无线通信技术的发展,使得低功耗通信及传感能够集成到更小尺寸、更廉价、功耗更低的节点上,这促成了无线传感器网络(WSNs, Wireless Sensor Networks)
随着半导体制造工艺的不断发展,LED打印技术已广泛应用于实用彩色输出领域。而运动控制器作为LED打印机的执行模块,主要负责接收、解释主控制器发来的打印命令,配合对敏感元
合成孔径雷达(Synthetic Aperture Radar,SAR)图像的目标检测首先从SAR图像中提取出包含潜在目标的感兴趣区域,然后在潜在目标区域中对人工目标进行定位,实现目标与背景的分
人脸识别研究试图赋予计算机根据面孔辨别人物身份的能力,它在刑侦破案、证件验证、门禁系统、视频监视等领域中都有广泛的应用前景。虽然人类不需要任何训练即能识别出人脸,
在互联网发展异常迅速的今天,互联网上的信息和内容控制显得尤为重要,然而近几年出现的一类互联网穿透类软件,能够通过动态代理服务器发送加密信息,从而突破网络封锁。本文的
目标跟踪是计算机视觉研究的热点之一,它在诸如人机交互、自动导航、虚拟现实、医学诊断、自动对焦等许多领域均具有广阔的应用前景。本文的主要工作在以下几个方面:第一,讨
随着网络的发展,在中小型局域网中网络打印也迅速发展起来。同时,网络安全问题越来越受到人们的重视,随之出现的嵌入式网络安全设备也得到了广泛的应用。本文针对局域网内网
随着计算机技术的不断发展,互联网已经成为人们日常工作、生活中不可缺少的信息来源。而由于网络信息本身的特点,这些信息给用户的主要是定性的参考。特别在金融领域,一直以
随着计算机和网络技术的迅猛发展和广泛普及,企业经营活动的各种业务系统都立足于Internet/Intranet环境中。然而,企业网络环境的复杂性和多变性,以及信息系统的脆弱性,决定