基于平行语料库的无监督中文词性标注研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:yhmlivefor51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着计算机综合能力的日益强大和互联网的迅猛发展,自然语言处理已经成为信息处理领域一个引人注目的研究热点。词性标注是自然语言处理的重要内容,也是自然语言处理工作的一个非常有用的预处理过程,它的准确程度将直接影响到后续的一系列分析处理任务的效果。本文首先探索了基于单语料库的无监督中文词性标注。本文提出了一种基于条件随机场(CRFs)模型的无监督的中文词性标注方法,主要思路为:(1)利用词典对获得的已分好词的生文本进行词性标注;(2)采用已定义的规则对未登录词进行标注,获得初始标注语料;(3)利用CRFs对语料进行迭代标注,逐步优化标注结果。关于特征的选择,本文在探索了适用于无监督词性标注的上下文特征的基础上,提出了词语类别的特征,用于特征模板。本文以宾州中文树库为实验语料,考查了不同规模的标注数据对模型性能的影响,实验结果表明,本文提出的无监督词性标注方法提高了中文词性标注的性能。在此基础上,考虑到在词性标注过程中,往往很难根据词(其是兼类词)的上下文信息判断其词性,从而产生歧义,本文提出了基于平行语料库的中文无监督词性标注。主要思路为:(1)半自动构造了一个中英平行双语语料库;(2)使用GIZA++工具对词语进行双向对齐,并进行修订;(3)对英文语料库进行词性标注,以获得中文词语对应的英文单词的词性,并将其作为一个特征加入到特征模板。本文在多个语料上分别进行了实验,实验结果表明,通过获取句子对应的英文词性,能够进一步提高中文词性标注的性能,说明了本文提出的无监督方法对平行语料库进行词性标注的有效性。
其他文献
1989年Mallat提出多分辨率分析的思想,统一各种小波函数的构造方法,至此小波变换在图像压缩处理中得到了广泛的应用。而基于小波域的图像编码发展至今,已经提出了很多经典的
针对油田现场存在的通信设备铺设费时费力、现场调试设备难度大、成本高、现场作业危险等问题,本文搭建了数字油田井口参数仿真系统,设计了符合该系统的监控软件,模拟了数字
随着现今信息技术飞速的发展,计算机网络技术的逐渐成熟,人们对很多传统方式方法的合理性产生了质疑,并且尝试利用新兴的技术去改变它们完善它们。用来考核人才的考试手段同
人工内分泌系统是指在研究人体内分泌系统的信息处理机制的基础上,构造出体现内分泌系统信息处理特性的一类新的计算智能模型和方法。与神经系统,免疫系统一样,内分泌系统也具有
随着移动互联网的飞速发展,Android已经成为主流移动操作系统。与此同时信息安全越来越受到关注,加密作为一种信息保护的手段也在向前发展。在对称加密算法中,AES算法已经取
随着网络技术的发展和应用范围的扩大,人们越来越依赖于网络进行信息的处理。为了提高信息检测的处理速率,适应网络的高速发展,流分类技术应运而生,成为路由器、防火墙等网络
信息技术的发展,加快了现代家庭生活变革的步伐,人们对家居环境的安全性、舒适性和高效性提出了更高的要求。“智能家居”(Smart Home)、“数字地球”、“数字化舒适社区”、“
云计算作为一种新的IT资源组织、管理和交付模式,将物理的软、硬件资源逻辑化、动态调度和分配,并以服务的形式按需提供给最终用户,具有灵活、自动、高效、经济、节能的特点,受到
随着Internet的快速发展与普及,网络化软件正逐步成为未来软件发展的趋势之一。“软件服务”作为一种新的软件实体,承担着封装各种资源、完成计算并对外提供服务的任务,被认
多跳无线网络(Multi-hop wireless networks),如移动自组网(Mobile Ad hoc network, MANET),无线传感器网络(Wireless Sensor Network, WSN),无线Mesh网络(wireless mesh net