基于海量网页的中文命名实体提取的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:qisucha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web上的海量网页集合中,蕴含着丰富的数据资源,要从这些海量数据中寻找有用的信息,命名实体提取是一种高效的便捷方法。当前对命名实体问题的研究不管是基于英文的还是中文的,所用的方法大都是针对“一篇篇”普通文档进行工作的,然而,由于Web内容的复杂性和异构性,这些学习方法对于海量网页中的命名实体提取来讲,并不是都很合适,而且也没有考虑利用其他辅助信息,因而效果和效率都还有可改进的空间。   本文对基于网页集合的命名实体提取进行研究,在分析网页集合特点基础上,对基于Web的命名实体提取方法和传统方法进行对比,分析二者具有一定的相似性,提出将传统方法中的基于统计模型的命名实体识别方法应用在网页集合中命名实体提取。当前命名实体识别系统中应用最多的是隐马尔科夫模型(HMM)和最大熵模型(MEM),在对比分析这两个常用的统计模型后,选出了较为合适的隐马尔科夫模型应用在基于网页集合的命名实体提取系统中,但是由于隐马尔科夫模型是一种生成模型,其成立完全基于严格的独立性假设,而且在对命名实体识别时只采用词性为观察值,在识别精度上还有可改进的空间。针对隐马尔科夫模型的这一不足,本文对其进行了改进,在模型中添加了上下文相关信息,提高了其识别性能。   本文根据提出的方法,设计并实现了一个基于网页集合的NE提取系统,系统采用统计加规则的方式对命名实体进行识别,首先从Web上爬取网页并对网页进行预处理,去除噪音,提取正文,并对正文进行分词;然后用HMM模型对预处理过的正文进行NE识别;最后针对网页中命名实体的特点,提取出了一系列规则对统计模型的初步识别结果进行修正。实验证明,传统的命名实体识别方法可以应用在基于网页集合的NE提取中,并能取得较为理想的效果。  
其他文献
随着社会的快速发展、知识大爆炸进程的加快,我国的教育培训机构数量不断增加,为了进一步开拓市场以及为不同需求的学员提供教育培训,教育培训的手段也由最初的面对面式授课
目的 探讨胸外科病人的安全护理措施.方法 回顾性分析2015年1月至2017年1月本院胸外科患者的临床护理资料,总结安全护理措施.结果 患者无1例发生法律和法定的规章制度允许范
我国唐代武则天(624-705)敕撰的《乐书要录》一书,是一本重要的有关古代乐调理论的书籍,在当时应该说是绝对权威的音乐著作,其所载的自然是古今音乐全盘的通论,可以认为是唐
随着智能手机的普及,移动互联网以及定位技术(如:GPS)的日渐成熟,使得出现了越来越多基于地理位置信息的应用和服务(LBS)。在这些应用中,充分利用了移动网络和地理位置信息,以及其
目的分析山东省潍坊市1992—2017年艾滋病流行特征及变化趋势,为调整潍坊市艾滋病防控对策提供科学依据。方法对潍坊市1992—2017年新报告的艾滋病病毒感染者/艾滋病病例流行病学资料进行描述性分析。结果潍坊市1992—2017年累计报告HIV/AIDS病例1 095例。根据历年报告例数和增长幅度,划分为传入期(1992—2004年)、快速扩散期(2005—2011年)和增长期(2012—201
目的 分析计划生育手术护理中的问题和应对策略.方法 选择接受计划生育手术的患者,共计50例,2015年10月10日至2016年10月10日为研究时间阶段,对患者予以宫内节育器放置、取出
过年了,照例要说些过年的话。过年的话是什么话?是祝福的话、吉祥的话,总之是好听的话。像我这种来自农村的人,小时候大都接受过老人们的言传身教,就说过年吃饺子吧,你若不小
2008年5月12日14时28分,四川省汶川县发生里氏8.0级强烈地震,造成重大人员伤亡,无数房屋垮塌,财产损失严重,通讯中断,同时给灾区的广播电视基础设施造成严重破坏。灾害无情人
目的 分析儿童呼吸系统疾病的相关情况,并对其临床护理方法与效果进行分析.方法 对于儿科收治的呼吸疾病患者的相关情况进行分析,在对其及时治疗的同时还要给患儿实施有效的
由于可以灵活部署、长期值守并且担任计算、通信、信息采集和控制任务,IP智能物件(IPSO)技术被越来越多的研究者们关注。目前,基于IP智能物件的实际应用已经展开,只是由于安全性