中文词义归纳研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:xiexiebinbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义归纳利用聚类技术自动从未标注语料中获取多义词的词义,从而大大提高语言工作者的工作效率。因此,词义归纳成为当今计算语言研究中一个最重要的课题。本文基于CLP2010提供的词义归纳语料,从特征向量的方法、图的方法和词义归纳集成三个方面对中文词义归纳进行了研究,探讨适合中文词义归纳的方法。具体内容如下:(1)基于特征向量的中文词义归纳。本文着重探讨了特征选择、算法等对系统性能的影响。选用词语、单个汉字、汉字二元组等作为特征,单个汉字特征能够有效改善中文词义归纳的结果,汉字二元组对分词中的错误有一定的纠正功能,对于单字词的多义词性能影响较大,而对多字词的影响较小。聚类算法中性能较好的是K-means和Rb算法。本实验系统F-score值为79.34%,与CLP2010的参赛系统比较,排名第一,特别在单字词的多义词中,结果为69.50%,远远超过大部分参赛系统。(2)基于共现图的中文词义归纳。图方法性能较好,但更适用于较大规模语料。因此,本章使用4年人民日报语料对CLP2010语料进行扩充,使用扩展的语料来描述源语料中各个节点的分布。使用权重阈值对节点进行过滤能够有效地改善系统性能,Part_Purity提高了大概20个百分点,此时所有多义词的词义数分布与标准分布更为相近。添加搭配作为节点,保证90.46%的Part_Purity同时,有效多义词数和平均有效实例数分别增加为93和27,优于无搭配的88和25。对比基于源语料和扩展语料的结果,扩展语料能够构建更为合理的图结构,其Part_Purity高出8个百分点。(3)词义归纳方法集成。本文使用二次聚类、投票以及迭代获取最优聚类结果三种方法进行集成。选用特征向量方法中两个较优和较差的系统作为基础系统,其中最优和最差的F-score值分别为79.34%,68.68%,而上述三种集成方法分别获得了79.28%,78.52%和79.05%的F-score值,这些集成方法对于性能的改善并不明显,但是具有较好的稳定性,能够有效地避免较差系统的影响。
其他文献
P2P技术快速发展的同时,也导致了网络阻塞、网络安全性和网络资源产权保护等问题的产生,因此,通过研究有效的P2P流量识别方法,用以解决上述问题成为重要课题。  论文通过对比机
近年来,大图数据特别是数十亿顶点规模的图数据大量涌现,这一趋势对图数据管理领域提出了全新挑战。图的存储方式直接决定了图数据的访问效率、图查询与挖掘的效率。如何采用合
21世纪软件产业飞速发展,软件组织如何进行卓有成效的软件过程改进,以减少软件开发过程中的阻力,按照预期的预算和时间成本投入开发出高质量的软件系统,越来越成为软件行业所
Z-Wave协议是无线传感器网络的一种新协议。由于Z-Wave网络中的设备大多是靠电池供电,而电池的能量是有限的,所以如何延长网络中节点的寿命和整个网络的生存时间已经成为了一个
为了保障分布式实时系统的可靠性,本文采用主副版本复制技术来提高系统的容错能力。在此基础上,结合首次适应分配算法,提出了一种基于异构的分布式实时容错调度算法。综合考
随着经济的发展和企业规模的扩大,企业对于信息化的投入逐渐增大,不同类型的系统被引入和运行。由于系统开发时间有差别,系统基于不同的开发平台、工具和语言,这样会导致系统之间
随着物联网的高速发展,无线射频识别(Radio Frequency Identification,RFID)技术的应用范围越来越广泛,快速多样化的发展对RFID技术的适应性、灵活性及可维护性有了更高的要求,RF
每年,数以万计学术论文的发表使得论文的规模达到了空前的高度。科研人员如何在众多的学术论文中找出感兴趣的论文成为困扰他们的一个棘手问题。早期,研究者主要运用传统的协
旋翼飞行机器人由于其垂直起降、定点悬停、低空低速飞行的飞行特性成为架空电力线路巡检的有效手段。电力杆塔作为输电线路最核心部分,对其图像数据采集的效果决定了整个巡检
云存储技术的发展使将文件存储在云端的人们的数量变得越来越大。人们将数据存储在云端的目的是为了节约存储设备的花费。那么如何保证数据在云存储中的隐私性和完整性就成了