基于双哈希关联后继模型(DH-IRST)的自动标记技术研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:BlueWindow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识社会的快速发展促使人们不再满足于简单的信息收集、整理和保存,而是渴望对大量承载着人类智慧的文本信息进行分析和挖掘。知识抽取应运而生,它是从信息集中识别有效、潜在有用、最终可理解的模式的过程。 知识抽取可分为数据准备、文本挖掘和分析评价三个阶段。当今的相关研究主要集中在文本挖掘和分析评价这两个阶段,对数据准备阶段的关注较少。数据准备阶段是知识抽取的基础,良好的数据格式和适当的数据标记使知识抽取事半功倍。自动标记技术是数据准备阶段的关键技术之一,可根据标记目标不同划分为结构化标记和文本检索标记。 本文的研究目标是探索一种较为完善的、高效的服务于文本知识抽取的自动标记技术。应用该技术可以对异构的文本数据集按照自定义结构模型,进行统一结构化标记;并且能够根据用户自定义的文本检索规则库,对结构化后的文本数据集进行特征标记。该技术将所有的中间处理结果以统一格式提供给用户,协助用户完成文本知识抽取中的数据准备工作,为进一步的知识抽取奠定良好的数据基础。 本文首先确定基于XML的标记实施路线,接着给出整个文本自动标记的处理流程,然后对标记流程中的核心问题——全文检索模型进行深入讨论。综合分析了多种现有的全文检索模型,在互关联后继树模型(IRST)的基础上提出一种改进模型——双哈希关联后继模型(DH-IRST)。并对新的DH-IRST模型分别进行模型定义、层次结构定义和数据结构定义。设计了DH-IRST模型的生成算法和检索算法,并和其他的全文检索模型进行比较分析。 文中还给出结构化标记的流程,并针对两种不同的文本数据源分别定义文献模型和话语模型,然后对结构信息抽取规则进行描述,给出了结构化标记算法。紧接着提出基于规则库的批量检索标记方法,对规则库进行定义,并且讨论了规则库建设的具体方法和技术手段。文章的最后展示了原型系统的实验过程和结果。 本研究尝试提出双哈希关联后继(DH-IRST)全文检索模型,经过实验证明DH-IRST模型在检索效率和检索完备性方面较传统检索模型而言具有较大性能优势,能够更好地服务于文本自动标记过程。同时,本文还提出了基于检索规则库的批量标记方法,能够更高效地为特定专业领域的知识抽取提供数据支持。
其他文献
随着互联网技术的发展、大数据时代的来临,人类享受着信息爆炸带来的巨大机遇,同时也面临着“信息过载”的挑战。个性化推荐技术继网页分类目录和搜索引擎技术之后,成为当前解决
在现代企业中,考勤是非常必要并且是非常重要的一项工作。随着电子技术的发展,新的考勤方法出现了。计算机考勤系统作为企业管理系统的一个子系统,能通过计算机网络来提供准确的
随着网络技术的不断发展,网络游戏己经成为电子游戏产业中增长最为迅速的游戏类型。据预测,2006年全球网络游戏市场年增长率在100%以上,增长潜力巨大。正因为如此,网络游戏已经成
随着分布计算和网络技术的不断发展,传统的数据库技术已越来越不能满足数据共享和互操作的需要。作为数据共享与集成主要手段的多数据库与中间件技术由于其广泛的适应性、投资
Internet上以Web服务为主,具有信息量多、结构复杂、负载重等特点。一些统计数据表明,Web服务器有可能成为Internet应用的瓶颈。通过采用某些技术,减少网络流量,降低对网络带宽的
在信息化高速发展的今天,电子商务在国家经济活动运作中发挥着越来越重要的作用,而数据在传输及应用过程中的安全是其重要作用的一个基本保障!公钥基础设施PKI是目前网络安全建
随着信息世界的快速发展,系统与软件安全问题在个体与国家等不同层面越来越被重视。多年来,安全研究员们针对内存泄露类攻击提出了多种防御技术,这其中栈不可执行技术、地址
在交通、信息高度发达的今天,一般的航空公司每天也要处理几万张飞机票。而在中国,纸质机票须保存5年以上。飞机票上的信息,如机票号,票价,座位等级等等,必须录入数据库保存,以便日
近年来,智能交通系统应用越来越广泛,道路旁安装的众多监控摄像头记录了大量的交通场景。如何从这些交通监控视频中分析提取出交通场景的语义,是构建智能交通系统的核心环节
IPv6是由IETF设计的下一代因特网协议,它对IPv4作了大量的改进,不但很好地解决了地址短缺问题,同时还具备无状态地址自动配置、服务质量、安全性等多方面的优点。虽然目前IPv6规