中文最长名词短语识别研究

被引量 : 0次 | 上传用户:lmtc5238
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
名词短语是文本主要的组成部分,很好的识别出名词短语可以很大程度上帮助把握文章所表达的主要意思。而中文最长名词短语亦是如此。中文最长名词短语应用于诸多自然语言处理任务中,如信息检索、文本分类、自动文摘、指代消解等,因此对于中文最长名词短语的研究是有必要的。本文对中文最长名词短语的识别作专门的研究,分别使用了隐马尔可夫模型和条件随机域模型对中文最长名词短语进行识别。本文先使用隐马尔可夫模型对中文最长名词短语进行识别。分别使用了传统的隐马尔可夫模型和二阶隐马尔可夫模型对文本进行中文最长名词短语进行识别。因为二阶HMM考虑了前一个状态的信息,增加了可预见性,所以二阶隐马尔可夫模型的结果好于传统的隐马尔可夫模型。但是总体的试验结果并不理想。这主要是由于隐马尔可夫模型的一些自身特点造成最长名词短语识别的效果不理想。针对隐马尔可夫模型的缺点,本文使用了条件随机域模型来对最长名词短语进行识别。相对于隐马尔可夫模型较强的独立假设等缺点,条件随机域模型则可以允许观察序列任意的依赖关系,而且特征并不需要特指究竟是是一个状态还是观察值。基于条件随机域模型的中文最长名词短语识别的识别最长名词短语的效果还是比较理想的。本文还将最长名词短语识别应用到了面向特定任务的指代消解中。中文最长名词短语包含了最长名词短语中的中心名词的修饰成分,这修饰成分中会包括中心名词的性别、颜色、数量、日期、方位等类型的描述信息。指代消解所需要则是上述一系列描述信息中的数量信息和性别等信息,因此可以使用最长名词短语识别,从文本中提取出相应的信息,帮助指代消解的工作。
其他文献
化疗作为肿瘤的主要治疗手段,虽然在近些年对于胃癌的治疗做出了巨大的贡献,但由于其毒副反应明显,且易形成耐药性,故而其在临床上的应用也受到了很大的限制,而中药的抗肿瘤
文章对我国31个省市自治区高等教育发展质量与高等教育发展数量现状进行分析研究,结果表明省际间高等教育发展质量与数量均存在失衡现象。究其失衡原因,主要为省际经济发展不
林语堂自称是个“一捆矛盾”的人物,其亦孔亦耶的人生信仰,亦中亦西的创作风格也使他在中国现代文学作家中显得与众不同。林语堂拥有小说、散文、词典编纂、文学研究等多重笔
通过分析大型城市地下综合体火灾险情人员疏散的研究瓶颈及火灾风险,对其存在的风险及规律进行研究. 同时应用计算机仿真软件和数值模拟等手段,在人员密度系数确定、人员疏散
创新是企业生存发展的不竭动力源泉。开发新产品、新技术、新服务,是提升企业市场竞争力,确保企业基业常青的重要举措。与此同时,我们也必须清醒地认识到,新产品、新技术、新
家庭农场的发展是时代所需,也是政策要求。在时代与政策双重推动下,现今家庭农场的发展呈现井喷之势,而这种迅速发展也不断暴露出我国农业科技服务体系中存在的问题,其中最明
1978年,中国农村贫困人口2.5亿,农村贫困发生率为33.1%,经过20多年来的反贫困实践,中国在消除绝对贫困方面取得了巨大的成就。到1999年底,中国农村尚未解决温饱的贫困人口已
京津冀协同发展是国家重大战略,而高等教育协同是其重要内容。京津冀高等教育协同发展在顶层设计、政府协同、高校合作等方面还缺乏系统性、整体性和互动性。推动京津冀高等
【正】 茅盾对于“只图一个形式上的‘长’”的长篇小说提出过批评,认为这样的作品,“不暇剪裁,不事组织”、“以多为贵,以长为务”、“信笔所之,东拉西扯”,在艺术上必然是
目的:通过研究早期应用阿托伐他汀对急性冠脉综合征患者血浆白介素—6(IL—6)、基质金属蛋白酶—9(MMP—9)、高敏C—反应蛋白(hs—RCP)的影响,以探讨阿托伐他汀在急性冠脉合