基于HMM的单字估价值的中文自动分词研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:qazwsx07555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用领域的日益广泛以及信息处理技术水平的不断提高,自然语言信息处理技术一直倍受关注,如何提高计算机对自然语言的理解对计算机技术的发展有着非常重要的意义。由于中文自动分词是文本校对、信息检索、语音识别、文本挖掘、机器翻译等研究的前提和基础,所以中文自动分词已经成为自然语言信息处理技术的基础及核心工作。由于汉语句子构成的多变性和复杂性,中文自动分词已经是中文信息自动处理的“瓶颈”。中文文字的处理与西文文字的处理相比,一个明显的不同,就是汉语词与词之间没有明显的分隔标记。因此中文信息处理的首要问题,就是要将句子中一个个词给分离出来,这就是中文分词问题。本课题研究的主要内容,关键技术及创新点主要有以下几个方面:首先,本课题研究从单字在词中构词位置的角度进行思考,从而把分词过程视为单字在词中构词位置问题。基于大规模语料进行统计,统计出单字在词中各个位置的概率,形成单字估价值字典,为分词奠定基础。这种处理方法也是本课题研究的创新思想之一。由于汉语中词中字的个数主要集中四字词以内,五字以上的词相对较少,所以本项研究主要针对四字以内词中字的位置进行统计单字估价值。其次,隐马尔科夫模型的基本理论中要解决三个基本问题,其中第二问题是解码问题,把解码问题转化为分词问题。解决解码问题的Viterbi算法能够找到最佳解,其思想精髓在于将全局最佳解的计算过程分解为阶段最佳解的计算。利用单字估价值字典对待切分句子中各字按Viterbi思想进行估价,然后回溯切分,这样做的一个重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。从而能更好的解决未登录词问题和大部分歧义问题。这是本课题研究创新思想之二。最后,隐马尔科夫模型要解决的第三个问题就是学习问题,根据初步切分的结果进行分析,对错误切分结果进行规模性机器学习。学习字在词中的位置特征,把初始统计的单字估价值作为初始切分参数,然后建立调整参数模型,使计算机反复学习调整,优化单字估价值字典中估价值参数,调整后再进行切分。机器学习优化单字估价值参数这一思想是本课题研究创新思想之三。目前,对于分词这一领域很难统一标准。近年来也出现了许多准确率很高的分词软件,但未登录词问题和歧义问题始终制约分词,本课题研究主要从更好的解决登录词问题和歧义问题入手研究,以便更好更准确的进行分词。
其他文献
Springer Link是世界著名的德国施普林格公司出版发行的在线电子图书,主要提供学术期刊检索服务数据库,是世界排名第二的科技、医学网络全文数据库.
近年来,Web技术快速发展和广泛应用促使各站点积累了大量的业务数据,从这些数据中发现具有相似访问兴趣的用户群体具有重要的意义。论文研究了结合时间窗的访问兴趣聚类分析,
随着市场竞争的不断加剧,结合了大规模生产和定制生产两种生产方式优势的大规模定制孕育而生,成为当前制造业的主流生产模式,大规模定制生产解决了大规模生产与客户个性化需求之间的矛盾。与此同时,为使产品开发以尽可能少的技术多样性去实现尽可能多的功能多样性,各国学者提出了平台战略的思想。基于平台策略的产品开发是在对客户订单需求分析的基础上,构建产品平台开发出产品族,从而达到既降低产生成本又满足客户个性化需求
1978年5月,考古学家在随州城郊擂鼓墩发掘的曾侯乙墓共出土礼器、乐器、漆木器、金玉器、兵器、车马器和竹简1.5万余件,其中曾侯乙编钟最为珍贵,是由六十五件青铜编钟组成的
期刊
近年来,基于网络的各种考试系统得到了很好的应用,也日益受到考试部门的重视。基于网络的无纸化考试将逐步成为趋势,是实现以学生为中心的开放教育的有效途径。目前已经有一
互联网的蓬勃发展推动着网络应用的不断创新,使得网络所需承载的数据流量呈指数级增长,面临不同用户与应用对网络性能需求多样化所带来的挑战,设备厂商通常在其通信设备中添加更
随着经济全球化的发展,中国企业尤其是大中型企业在国际竞争中扮演越来越重要的角色。这对中国的信息化管理水平提出了更高的要求。作为集团公司最重要的战略资源,企业人力资源管理也需要向世界级管理水平看齐。为保证人力资源与日新月异的技术环境同步发展,优化人力资源管理的流程,实现人力资源管理全面自动化,实现传统的人力资源结构向人力资源信息化的转变,是目前信息技术领域研究、设计和实现的热点问题。面向服务架构(S
云理论是将模糊性和随机性有机结合进行不确定性推理的一种新理论,为处理不确定,不精确,模糊的信息提供了良好的解决方法。但目前国内外对于云理论及其应用的系统研究尚处于初步
鲁迅作品有其特殊的时代性,高职学生基础较薄弱,传统鲁迅教学难以达到立德树人的教学效果.笔者根据高职学生实际情况对鲁迅《伤逝》教学设计理念、教学方法、教学内容等进行
随着计算机技术、微电子技术、通信技术等科学技术的发展,特别是互联网(Internet)以其海量的信息资源、方便快捷高效的信息交流方式等技术的出现与发展,网络已成为人们学习生