应用条件随机场进行汉语分词和词性标注的研究

来源 :辽宁科技大学 | 被引量 : 9次 | 上传用户:rural1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。中文自然语言处理是让机器理解中文的核心技术。汉语分词和词性标注是中文信息处理领域内的一个重要课题,它的发展能带动其它相关语言学应用的发展。本文的核心工作可以概括为以下三个方面:(1)介绍了最大熵理论以及最大熵理论对自然语言理解的重要意义,并进一步介绍了以最大熵理论为驱动发展起来的条件随机场模型。条件随机场模型不仅克服了以隐马尔可夫模型为代表的“产生式”模型那样的严格独立假设,并解决了最大熵马尔可夫模型和其他“非产生式”模型所存在的标记偏置的问题。(2)对现有的一些汉语分词和词性标注算法和模型进行了比较、综合。在总结前人研究成果的基础上,对传统的几种模型加以比较,采用了基于条件随机场的汉语分词方法,使得汉语分词和词性标注结果的准确率有一定的提高。(3)根据汉语分词的特点及条件随机场所使用的特征,确定了一套基于条件随机场模型使用的特征模板,并对歧义词和未登录词的分词统计进行了详细的说明。分析、设计和实现了一个基于条件随机场模型的汉语分词和词性标注模块。
其他文献
随着我国信息化进程的深入和电子政务的建设,大量的社会和经济信息已经电子化。而由于国际政治经济的交流和发展,如何向世界范围内发布这些相关的信息成为一个现实需求。近年
自然界中生物体优胜劣汰,不断由低级向高级进化。人们通过观察这些适者生存的法则构成了一些优化算法。优化算法的本质是在众多解中寻找到一个最优的解,使得系统在满足一定约
由于Web上海量的信息处于不断的变化中,通用搜索引擎已经很难再为用户提供一个准确并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web并且试图服务于所有主题的查询请
随着用户对数据安全和数据有效利用的要求不断提高,备份系统对数据的处理已经不再是简单的数据拷贝,而是存在大量种类繁多、功能各异的数据处理。目前现有的备份系统虽然功能强
随着网络的普及,信息处理技术有了一些新的应用领域,例如,传感器网络,网上在线交易系统,股票行情实时监控。在这些应用中,数据不再是静态的,而是一种实时的、不稳定的流式数
随着信息技术的发展,彩色图像以及视频的应用更加广泛,由于图像的最终观察者是人,因此研究人眼的视觉特性,寻找一种模拟人眼视觉特性的显著区域提取无疑是一条重要的途径,如
随着计算机和互联网技术的发展,越来越多的信息被放在了互联网上,由于网络快速和便捷的特性,传统媒体和和交流社区还有企业都开始电子化,网络化,网络上的信息也越来越多的在
随着社会的不断发展,如何能够有力地保障人们的生命财产安全以及维护社会的持续稳定的发展,创建“平安城市”,建立起高效、科学的城市监控系统正在成为各级政府日益关注的建
移动机器人的研究和开发近年来受到了人们的高度重视。人们要求机器人在运动过程中能够根据周围环境的变化而自主的采取相应措施的能力也越来越强。因此,作为机器人智能的一
随着通信技术、宽带网络技术、音视频压缩技术以及计算机技术的发展,数字视频越来越广泛地融入于人们的生活空间中。由于视频数据自身内容的丰富性和多样性、结构的复杂性以及