【摘 要】
:
随着互联网的快速发展,网络上的信息呈爆炸式增长,如何快速而准确地获取用户感兴趣的信息,这一需求推动了信息抽取的发展。信息抽取最常用的方法是模式匹配法,为了减少自动抽
论文部分内容阅读
随着互联网的快速发展,网络上的信息呈爆炸式增长,如何快速而准确地获取用户感兴趣的信息,这一需求推动了信息抽取的发展。信息抽取最常用的方法是模式匹配法,为了减少自动抽取模式过程中的人工干预,本文设计并实现了一个基于句子聚类的中文信息抽取模式自动生成系统,主要包括三个模块:网页关键词抽取、句子聚类和模式自动生成。在网页关键词抽取阶段,本文探索了如何获取网页关键词,在考虑中文文本结构特征和中文词性特征的基础上,提出了一种改进的TFIDF方法。实验结果表明该方法明显优于传统方法,能够抽取到令人满意的结果。在句子聚类阶段,本文对CURE算法进行了改进,用于句子聚类。通过对传统CURE算法的分析,根据事件的特征,对代表点选取和小类合并机制进行了改进。解决了CURE在代表点选取时容易把边缘孤立点作为代表点的问题,并且在小类合并时考虑了簇的整体特征,使簇的合并更加合理。本文最后阶段,从每一类中自动提取抽取模式,包括模式定义、特例模式生成和模式泛化三个步骤。首先通过对聚类后的句子集合进行统计,预测事件所描述的对象和主要内容,据此来确定待抽取项,并对句子集合中具有代表性的句子进行句法分析,定义抽取模式;然后根据抽取模式从句子集合中迭代地选取特例模式;最后从语法和语义两个方面对特例模式进行泛化。实验结果表明,本系统减少了自动抽取模式过程中的人工干预,效果和性能基本达到了设计目标。
其他文献
互联网是二十一世纪最具活力和创新的产业,它深深的扎根于人类社会的每一个角落中。人们享受互联网带来的便捷生活的同时,却忽视伴随而来的安全问题。近年来网络安全事件层出
无线传感器网络节点采用电池供电,一般工作环境恶劣、复杂,处于无人值守状态,节点能量无法得到补充,节点的计算、存储和通信能力都非常有限。无线传感器网络路由协议的首要设计目
甲骨文是我国最珍贵的文化遗产之一,具有极其重要的文化遗产保护和历史研究价值。随着现代科技的迅速发展,将甲骨文数字化处理可以更好的保护和继承这一传统文化。本文根据国
人脸识别一直是模式识别与机器学习领域中备受关注的热门话题。近年来,人脸识别技术取得了很大的突破,提出了很多高效率高准确率的人脸识别方法。但这些方法在实际应用中并没
随着各行各业内部管理的软件化和业务网络化,软件行业需要更适合的软件过程来管理和开发出更加适合的软件。目前,国际通用的软件过程RUP过程有固有的软件开发规范和预定义角
自从智能化时代到来后,模糊控制和神经网络就已成为学者们热点研究的学科,而且近几年随着对智能化要求程度的提高,建立在二者基础之上的模糊神经网络也逐渐的发展和完善起来
模式串匹配是计算机科学中一个基本、重要的研究问题。随着信息技术的高速发展,它在Internet网络信息搜索、数据流挖掘、网络入侵检测、计算生物学等领域中的应用越来越广泛
矿产资源定量预测是地质学和数学、信息技术、计算机技术相结合的产物,它建立矿产资源与地质条件之间的定量关系,从而使矿产资源预测更加客观、更加准确,效率也大幅提升,同时
随着人工智能的快速发展,伴随其而来的相关技术与应用应运而生,以人工智能为基础的产业蓬勃发展,其中图像识别与目标跟踪技术在各个领域应用广泛,特别是在安全监控与增强现实
网络管理涉及的问题很多,管理的范围很广,随着网络规模的扩大和网络复杂性的提高,网络管理的难度也日益增加。网络管理业务是有一定流程的,尽管不同的功能域可能存在不同的流