基于统计模型的汉语句子主干分析

被引量 : 0次 | 上传用户:mtv138
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前随着互联网的快速发展,信息急剧膨胀,如何管理和查找信息成为信息科学一个难题。自然语言处理的句法分析所研究的不仅仅是如何获取句子的结构,还要研究在句法分析的各个层面如何利用句法分析的技术实现有效的信息组织和管理,以及精确的信息查询。句子主干分析是自然语言处理中的关键性问题之一,其主要任务就是自动识别句子的主干成分。汉语句子主干分析问题的解决对于机器翻译、信息抽取和自动文摘等自然语言处理领域都有着极其重要的意义。本文首先分析汉语句子主干分析的现状,指出汉语句子主干分析的困难和汉语句子主干分析的语法和语义意义,通过对汉语句子主干的语法特性进行分析,本文把最大熵模型引入句子主干分析。最大熵模型具有简洁、通用的优点,能够灵活的选择语言特征,它把语言模型和计算模型分开,使用最大熵模型可以不用关心语言内部的细节。本文经过分析汉语句子主干的语法、语义特征,选择了适合于主干分析的特征集合。鉴于汉语句子之间成分的相关性,本文在最大熵模型的基础上提出一种多层最大熵模型,该模型的底层最大熵模型利用句子里的上下文特征识别主干词候选项,高层最大熵利用底层最大熵模型的计算结果结合句子内的远距离特征和句子之间关系来对底层最大熵模型识别到的主干词候选集进行分析并得到最终的分析结果。本文在最大熵模型进行识别之前,利用汉语语法对分词和词性标注后的句子进行预处理,包括句子的断句、单句和复句的划分,简单的词组和短语识别,为最大熵模型提供主干候选集。由于缺少标注了主干的训练语料,本文提出一种基于语境相似度的最大熵模型的平滑算法,通过比较汉语词的上下文,得到词之间的语境相似度,利用语境相似的词对训练语料中未出现的词进行平滑,以提升模型在小语料的情况下的性能。实验证明本文利用多层最大熵模型对汉语句子进行识别的方法是有效的,在只有比较小的训练语料的情况下,模型取得比较高的识别准确率,在本文方法的基础上可以进一步进行组块的分析,本文提出的平滑算法也可以应用到隐马尔科夫模型等统计语言模型中去。
其他文献
语言和文化的关系是相互依存,相互影响,二者不可割裂。语言既是文化的重要载体,其本身也是文化的一种形式。语言和文化的关系可以是点到面,以语言而知文化,也可以是外在与内
测谎技术是将心理学、生物医学、侦察讯问学及电子电路技术与基本的计算机知识等多种学科融为一体,对个人内心隐瞒意图和状态进行探测的一门科学。犯罪知识检测(Guilty Knowl
作为一种非接触式的自动识别技术,射频识别(RFID)技术利用射频信号通过空间偶合(交变磁场或电磁场)实现无接触信息传递并通过所传递的信息达到识别的目的。同其它识别技术相
近年来,陕西省公路建设虽发展迅速,但大量运营中的沥青路面在车辆荷载和温度荷载等综合因素的影响下,使用性能势必会随运营年限的增长而降低。因此,必须实施及时、必要的养护
企业的所有竞争,归根结底都是人才的竞争,人力资源已经成为企业生存和发展的第一资源。在日益激烈的市场竞争环境中,企业如何合理地设计企业的人力资源规划体系,以吸引人才、
在普通核桃(Juglans regia L.)中存在着一类播种后1~2年就能开花结实的早实类群。本研究通过对不同杂交组合后代早实单株的开花结实特性的观察,研究了早实核桃花器官变异特性;
语音合成技术在当今是个前沿和热门的课题,本文针对语音合成系统中的语料预选开展研究,针对语料预选的特点,将CART决策树理论应用于预选过程,提出了基于二进制位的数据表示方
目的根据医疗服务行业的特点,探索一种适合医疗服务行业实际工作中可操作的顾客满意度测评模型,并探索个人属性对医院顾客满意度的影响。为医疗机构自行开展调查,并对调查结
大学生的社会公德意识是其道德素养的重要组成部分,直接关系到他们今后对待生活和工作以及对待社会的态度,影响其道德观、人生观和价值观。高校对大学生进行社会公德意识培养
黄芩是一味清热燥湿,泻火解毒,止血,安胎的常用中药。来源于唇形科植物黄芩Scutellaria baicalensis Georgi的干燥根。本研究对黄芩的常用饮片-黄芩片进行了软化和切制工艺的