特定实体关系的识别和抽取及其系统的设计与实现

被引量 : 0次 | 上传用户：bailiankk

【摘要】

：

随着互联网技术的进步，互联网成为人们工作、生活上必不可缺的一部分。互联网最大的优势在于有海量信息供用户使用。然而，海量信息也带来了信息搜索的难题。搜索引擎的出现为用

【作者】

：

徐斌

【发表日期】

：

2013年期

【关键词】

：

信息抽取关系抽取搜索引擎特定实体

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的进步，互联网成为人们工作、生活上必不可缺的一部分。互联网最大的优势在于有海量信息供用户使用。然而，海量信息也带来了信息搜索的难题。搜索引擎的出现为用户提供了简单快捷的信息搜索途径。用户通过提交搜索关键词，就可以利用搜索引擎在海量信息中检索与关键字相关的内容，并得到内容页面的链接地址。但是，即使有搜索引擎的帮助，搜索结果的精确度依然很难让用户满意，尤其是当用户要搜索的是特定领域的特定信息以及它们之间的关系时，通常都需要在搜索引擎结果中去人工查找、分析。本文基于对用户日常工作的调研，对用户感兴趣的特定实体抽取问题以及特定实体间关系抽取问题进行了研究，通过分析固定格式网页的信息分布特点，将网页源文件直接作为字符流来处理，利用正则表达式匹配技术对特定实体信息进行抽取，另外根据对用户需求的分析，设计并实现了一个搜索关键词构造器，通过可配置的基础关键词和特殊关键词的组合，向搜索引擎提交不同的搜索请求，以获取更全面的非固定格式的网页搜索结果。在特定实体关系识别和抽取中，使用HTMLParser进行页面处理，提取通用搜索引擎返回的结果URL及URL指向页面的文本信息。使用中科院分词系统进行中文分词和词性标注处理，抽取出网页文本信息中的人名实体。使用正则表达式抽取文本中的电子邮件实体。最后根据中文姓名的拼音组合与邮箱前缀的关联特点，通过设定的抽取规则，抽取出特定实体间的关系。本文还设计并实现了一个可用的B/S结构信息抽取系统，系统采用JAVA语言开发，包括三个主要模块：用户接口模块、特定实体抽取模块以及特定实体关系抽取模块，用户通过接口模块能够调用其他两个模块的功能，实现信息的自动抽取。本文实现的信息抽取系统与用户传统的人工采集、分析工作相比，本系统可以大幅度降低用户的人工劳动，缩短信息的采集和分析时间，节约人力物力成本，提高工作效率，而且部署快速、维护简单，得到了用户的好评。

其他文献

社会转型期中国政治信任的动态建构及其路径

为纪念中华人民共和国建国60周年,2009年6月20日,由上海市政治学会、华东师范大学党委宣传部和政治学系联合主办的"社会转型中的政治信任"理论研讨会,研讨当前中国社会转型中

期刊

政治信任政治学广大人民群众社会转型期政治信任感动态建构

氧糖剥夺诱导原代大鼠星形胶质细胞miR-21的表达变化

目的研究原代大鼠星形胶质细胞氧糖剥夺不同时间miR-21的表达,探讨miR-21是否参与了缺氧缺血性脑损伤后星形胶质细胞的活性变化。方法原代大鼠星形胶质细胞随机分为正常组和

期刊

星形胶质细胞氧糖剥夺miR-21

双上尿路结石并尿毒症的围手术期护理

报告 96例双上尿路结石并尿毒症患者的治疗与护理。根据围手术期最易发生的危险因素 ,重点从 4个方面介绍护理经验 :(1)强调建立良好的护患关系 ,做好心理护理。 (2 )改善一

期刊

尿路结石尿毒症围手术期护理

基于FPGA的保险柜密码器设计与实现

设计并实现了一种基于FPGA的保险柜密码器,该密码器具有密码修改、语音提示、防止多次试探、报警等功能。经验证,本设计能够实现密码保护功能,稳定性高。

期刊

FPGAVHDLFSM

中国上市金融机构外汇风险暴露--基于汇改后数据的经验分析

2005年人民币汇率制度改革后，汇率日趋浮动，使我国企业暴露在更大的外汇风险中，商业银行作为特殊的金融企业，其面临的外汇风险暴露更应得到重视．本文在对外汇风险暴露度量及其影响

期刊

金融机构外汇风险暴露资本市场法现金流量法

两种生脉饮口服液的药理学研究

本文研究了两种配方生脉饮的药理作用。结果在耐高温、耐低温及协同戊巴比妥钠作用等方面,两者作用相同;在耐缺氧、抗惊厥及抑制小鼠自主活动等方面,人参方生脉饮的作用明显

期刊

生脉饮口服液党参方

基于PSR模型的青海湖流域生态环境保护效果评价

由于受人类活动与自然环境变化等综合因素的影响,青海湖流域内生态环境的调节和自我恢复能力大幅下降,流域生态安全问题严重。本研究利用2002-2010年的MODIS NDVI产品、青海

期刊

青海湖流域生态环境评价PSR模型MODIS NDVI

微磨削机理的试验研究

微小型元器件由于有着体积和质量微小、能耗较低、移植性和替代性好以及材料成本低等诸多优点，从而在许多行业中得到了广泛应用，因此越来越多关于微小件的制造技术和产品开发技

学位

微磨削电镀微磨棒表面粗糙度的预测模型钛合金和光学玻璃

胸腺肽对慢阻肺急性加重期的疗效及T淋巴细胞亚群的影响

目的探讨胸腺肽对慢性阻塞性肺疾病急性加重期的疗效及T淋巴细胞亚群的影响。方法将2013年5月至2015年5月医院收治的70例急性加重期慢阻肺患者按照随机数字表法分为治疗组35

期刊

胸腺肽慢性阻塞性肺疾病T淋巴细胞亚群细胞因子

昆虫多样性:一个被忽略的全球性重要问题(英文)

昆虫不仅是世界上最多的物种,同时也对生态系统功能和全球经济有着十分重要的作用。因此,昆虫多样性的保护对全球来说都有着十分重要的意义。然而,昆虫多样性常被"生物多样性

期刊

昆虫多样性研究不足中国北部

特定实体关系的识别和抽取及其系统的设计与实现

其他学术论文