【摘 要】
:
Internet的迅猛发展使得网络上聚集了越来越多的文本信息。关于文本信息处理的诸如检索、分类、聚类、抽取等技术有了很大的发展,但是从多个文本中自动提取人物的信息并没有引
论文部分内容阅读
Internet的迅猛发展使得网络上聚集了越来越多的文本信息。关于文本信息处理的诸如检索、分类、聚类、抽取等技术有了很大的发展,但是从多个文本中自动提取人物的信息并没有引起研究者的广泛注意,其过程和方法也没有统一的结论。
传统的人物信息提取方法存在一些不足,比如提取的人物信息内容不明确、组织混乱、输出无规范等。文章介绍了自动文摘、信息抽取、本体和事件等技术,分别讨论了各自在人物信息抽取中的作用。在总结众多研究者已有工作的基础上,分析了人物信息提取存在的主要问题,并提出了人物本体模型,利用本体和事件技术来解决上述的一些不足。本研究主要贡献如下:
1.在大量收集、整理人物语料的基础上,详细分析了人物信息的特点,提出用人物本体模型利用属性和事件表示人物。该模型通过人物属性和人物事件能够完整、准确地描述人物信息。
2.在充分了解本体描述语言和本体构建工具的基础上,定义了人物本体的构成,包括属性和事件,其中事件又有其构成要素。最后用RDF语言描述人物本体,并使用Protege手工构建了七类不同职业的人物本体,使其便于进行人物信息的管理和抽取。
3.对收集到的人物语料,研究了实现过程中人名的识别和人名指代的处理;给出了人物属性抽取的具体实现,提出采用监督式机器学习的方法来抽取人物的属性,即手工标注一定规模的语料,然后训练出分类器判断人名和属性是否存在搭配关系。并将抽取结果填充到人物本体中。
4.研究了人物本体中人物事件的抽取,提出基于事件模板的人物事件抽取算法并进行了系统设计。最后探讨了如何组织抽取到的人物属性信息和人物事件信息从而生成传记。
其他文献
图形用户界面(GUI)越来越广泛的在软件系统中使用。基于GUI软件的测试也变得日益重要。手工测试让测试人员感到单调乏味,成本高。随着GUI软件规模的扩大和软件复杂度的提高,
软件产品线通过管理领域共性和可变性开发领域特定的可复用资产,以生产和维护功能类似的软件产品家族,是实现软件大规模定制生产的有效途径。如何在领域特征分析的基础上,实现产
随着人类基因组计划的完成,对基因功能的揭示成为后基因组时代的研究热点。而基因调控网络的研究正是从全局的变化中探索基因功能,研究基因之间的相互调控表达关系。 研究基
随着Internet、虚拟现实和协同设计等技术的飞速发展,越来越多的三维数字产品在互联网上传播,其版权所有者正面临着越来越严重的非法占有、复制和篡改等侵权行为,三维模型数
随着医学数字化影像设备在临床工作中日益广泛的应用,临床上每天都会产生大量医学图像数据。如何有效地识别图像特征和根据图像特征检索医学图像是当前迫切需要解决的问题,为
近年来,随着网络和数字多媒体技术的飞速发展,传统媒体的内容逐渐数字化,比如电子商务等。然而,随之而来的是数字媒体常常会受到恶意拷贝、删除、修改等非法行为的侵袭,数字
随着计算机技术的飞速发展,有限元法无论在理论还是应用上都取得了巨大的成功,已经成为工业工程设计与分析的重要工具,越来越多的庞大而且复杂的工程设计是用有限元法来模拟的。
随着计算机、通信、多媒体以及网络技术的迅速发展,出现了越来越多的数字图像资源。如何在这海量的数字图像中快速有效检索出我们所需要的图像数据越来越被人们所关注,基于内
RoboCup是一个国际联合项目,宗旨是促进人工智能,机器人技术,以及相关领域的发展。RoboCup整合了大量的技术,为人工智能和智能机器人的研究提供了一个标准的问题。项目的最终
随着多媒体技术和互联网技术的迅速发展,数字图像的安全问题变得十分突出,也成为信息安全的一个重要研究方向,其主要包括数字图像的加密、隐藏、数字水印和图像分存等课题。目前