中文名词短语识别研究

被引量 : 0次 | 上传用户:a327581460
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
名词短语是汉语中的一种重要的短语类型,名词短语识别是自然语言处理领域中的一项基础且重要的任务。其正确识别可以简化句子结构、降低句法分析复杂度。基于上述名词短语识别的重要性,本文提出了基于词频统计模型的名词短语识别方法以及针对微博文本的基于条件随机场模型的名词短语识别方法,将统计与规则相结合,较好地完成了名词短语的识别任务。本文首先概述了名词短语识别的概念、研究背景以及国内外研究现状,并对现有的方法进行研究和分析。通过对目前主流方法的学习,决定采用规则和统计相结合的方法进行名词短语识别。提出一种基于词频统计,计算名词短语的共现频率及构词可能性的阂值,识别汉语基本名词短语的方法;根据词在名词短语中的不同角色,建立词表,加入未登录词的处理、规则模板及纠错处理,最后对结果中出现的问题进行分析并提出可能的解决方案。此外,在分析上述实验结果的基础上,对于当今热门的微博文本进行专项研究。提出一种基于条件随机场模型的中文微博名词短语识别方法,在对微博文本规范化处理基础上,标记微博训练语料中的名词短语,训练条件随机场模型,加入微博名词短语规则模板和停用词表,识别微博测试文本中的名词短语。实验表明,本文提出的名词短语识别方法是有效的。基于词频统计模型的名词短语识别方法,对建立的词频统计模型进行训练,并在测试文本上分别进行实验,在引入未登录词处理、规则模板处理及纠错处理后,平均准确率、召回率及F值分别为91.28%、93.22%和92.24%。在对微博文本的识别实验中,选取适合微博文本的条件随机场模型特征模板,加入规则模板等优化后处理,平均准确率、召回率及F值分别为95.01%、94.03%和94.52%,进一步提高了微博文本中名词短语识别效果。
其他文献
妈祖信仰文化是中国传统文化的重要组成部分,它在中国东部海域广泛流传,是重要的文化资源。蓬莱地区作为妈祖信仰文化存在的重要地域,对中国北方妈祖文化的传播和发展产生了
鸡毒支原体(Mycoplasma gallisepticum)核酸酶样蛋白MGA0676是重要的核酸酶样蛋白,具有核酸酶活性,可以内化进入宿主细胞诱导鸡细胞凋亡功能。为研究MGA0676诱导鸡细胞凋亡的分
近二十年来随着中国GDP的持续增长,工业行业的销售总额同样保持着持续增长,但近几年工业品的销售增长率却在逐年下降。从工业指数在GPD的占比的变化可以看出,消费品及服务业
随着我国社会主义市场经济体制的建立和完善,被全国推向市场的企业日渐增多,企业行为要求日趋规范、科学,评价、分析企业生存和发展基础的偿债能力水平,也就显得尤为重要了。
<正>金融危机也会带来好处,比如原油价格下降。二十几年来,维斯塔斯一直将自己目标定位为使风力发电成为可与石油和天然气相媲美的能源——这意味着成本和价格必须降低到消费
在总结文化的经济学分析、文化与企业家精神、企业家精神与经济增长主要研究成果的基础上,基于“浙江现象”,对文化、企业家精神与经济增长的内在关系进行了经验描述。
介绍了国内外学者对财务困境研究的各种观点,并对各类财务困境事项进行了分析。在此基础上,界定了财务困境的内涵,即财务困境事项包含严重亏损以及现金流量严重不足、不能支
在晋商五百多年的辉煌历程中,其商业文化是中国传统商业文化在明清时期的新发展。综观中国商业文化在中国传统社会中的发展,结合西方商业文化在资本主义兴起过程中的作用,可
改革开放以来,我国的经济建设取得了长足的进步,同时,电力企业的发展和行业的标准也在不断的更新。最新的标准化工艺是2010版本的,标准化工艺里面详尽的描述了整个当前的发展
现代经济生活中,企业为达到不同的目的人为进行会计报表造假,调整报表利润,使报表反映的错误信息误导各类决策者,从而导致各个市场行为主体乃至国家相关决策机构被误导而制订