基于领域本体的Web实体事件抽取问题研究

被引量 : 0次 | 上传用户:lostlovestefan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,Web已经成为一个拥有海量数据且在不断增长的信息源。由于Web页面具有无结构性、多样性和动态变化性等特点,人们很难从Web上获取真正感兴趣的信息。从海量的Web页面中准确获取全面的人们所关心实体的事件信息,为市场情报分析、电子商务以及舆论分析等应用提供支持,成为了目前的热点研究问题。Web信息抽取技术面向大规模的Web数据,将抽取出的无结构或半结构化的数据转换成结构化的数据,为人们提供了有效获取信息的途径。基于本体的Web信息抽取是一种将本体以及信息抽取相结合的技术。充分利用本体对特定领域描述信息的Web信息抽取技术表现出了很大的优势,提高了信息抽取的准确率。如何良好地构建面向特定领域的本体,以及如何充分发挥本体的作用进行Web信息抽取的问题有待解决。本文以市场情报领域为背景,针对基于领域本体的Web实体事件抽取的问题展开了相关工作,主要贡献概况如下:(1)在分析现有的本体构建方法基础上,提出了适用于特定领域的本体构建方法,有效降低领域专家的参与程度,从而提高构建效率。在该方法的指导下,通过借鉴电子商务网站的知识和复用现有本体,本文构建了市场情报领域本体。针对实体间关系会随时间变化的问题,本文提出了动态实体关系模式。(2)改进了基于本体的Web实体事件抽取框架,充分利用了本体中丰富的概念、实例和关系。结合本体中事件结构的特点,本文在进行事件抽取时采用分类的策略,首先将句子按照事件类别进行分类,然后根据不同的事件抽取模板结合抽取规则进行事件抽取,实验证明事件抽取的可行性和有效性。本文提出了一种改进的DAG-SVMs多类分类方法,实验证明该方法具有良好的分类精度和分类速度,与一般分类算法相比获得了更高的查准率和查全率。
其他文献
西方意识终结论思潮是在晚期资本主义的深刻嬗变中产生的一股社会思潮。在推动这一思潮产生的动力系统中,既有现实的政治、经济因素,又有深层的文化因素。具体地说,推动这一思潮
电动车已经成为解决环保和能源等问题的研究热点。首先介绍了电动车驱动电机的分类和特点,然后针对不同的电动车驱动电机,对世界上主要的电动车驱动电机开发商及其典型产品进
本文首次对地震体波斜入射情形下竖直、倾斜台阶地形引起的波型转换进行了数值模拟,结果表明:地震波的斜人射会使台阶上角点引起更强的转换面波;转换Rayleigh面波最大振幅可
在不作为犯理论研究中,学者们普遍认为不纯正不作为犯是难题,相关理论存有“未解之题”之称。不纯正不作为犯等价性理论的核心问题是找到一个较正确的、较完整的不纯正不作为
<正>目的通过大样本多中心、随机、双盲、安慰剂对照的临床研究,观察金尔伦(盐酸纳络酮)对急性脑梗死的临床疗效。方法观察8家医院150例急性脑梗死患者随机分为对照组、金尔
会议
<正>新中国成立70年来,中国共产党人始终坚持党风廉政建设和反腐败斗争,取得了重大成果,积累了宝贵经验。特别是党的十八大以来,我们党以猛药去疴、重典治乱的决心,以刮骨疗
立项查新作为科技活动中一项基础性工作,可以有效地避免科研中的重复浪费,保障科研项目的科学性、必要性、可行性和新颖性,提高科研资金使用效率,保障科研项目的高质量。文章就立
实例教学不是新兴的高中政治课堂的教学方法,它顺应了高中政治学科与时事政治紧密相联系的要求,但实例教育在实际教学过程中存在种种误区,导致其有很大的局限性。为发挥其积
提出了一种确定激光雷达几何重叠因子的新方法。研究了大气分子纯转动拉曼谱线强度分布特征。利用大气分子总的纯转动拉曼激光雷达信号结合瑞利-米氏散射激光雷达信号能精确