论文部分内容阅读
随着互联网技术的快速发展,Web已经成为一个拥有海量数据且在不断增长的信息源。由于Web页面具有无结构性、多样性和动态变化性等特点,人们很难从Web上获取真正感兴趣的信息。从海量的Web页面中准确获取全面的人们所关心实体的事件信息,为市场情报分析、电子商务以及舆论分析等应用提供支持,成为了目前的热点研究问题。Web信息抽取技术面向大规模的Web数据,将抽取出的无结构或半结构化的数据转换成结构化的数据,为人们提供了有效获取信息的途径。基于本体的Web信息抽取是一种将本体以及信息抽取相结合的技术。充分利用本体对特定领域描述信息的Web信息抽取技术表现出了很大的优势,提高了信息抽取的准确率。如何良好地构建面向特定领域的本体,以及如何充分发挥本体的作用进行Web信息抽取的问题有待解决。本文以市场情报领域为背景,针对基于领域本体的Web实体事件抽取的问题展开了相关工作,主要贡献概况如下:(1)在分析现有的本体构建方法基础上,提出了适用于特定领域的本体构建方法,有效降低领域专家的参与程度,从而提高构建效率。在该方法的指导下,通过借鉴电子商务网站的知识和复用现有本体,本文构建了市场情报领域本体。针对实体间关系会随时间变化的问题,本文提出了动态实体关系模式。(2)改进了基于本体的Web实体事件抽取框架,充分利用了本体中丰富的概念、实例和关系。结合本体中事件结构的特点,本文在进行事件抽取时采用分类的策略,首先将句子按照事件类别进行分类,然后根据不同的事件抽取模板结合抽取规则进行事件抽取,实验证明事件抽取的可行性和有效性。本文提出了一种改进的DAG-SVMs多类分类方法,实验证明该方法具有良好的分类精度和分类速度,与一般分类算法相比获得了更高的查准率和查全率。