简繁汉字系统的网络特性比较及简繁人名对挖掘

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:panda_chris
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来国内外已经开发不同版本的简繁汉字自动转换系统,基本满足了两岸四地日益频繁的经济文化交流与合作。对于开发较高质量的简繁汉字转换系统,需建立在简繁汉字比较基础之上,但目前简繁汉字差异性研究主要停留在字形和词的层面,还不够系统和全面,缺少从语言整体角度上系统分析简繁汉字的差异性;目前简繁转换系统还存在一些不足,如:对专有名词的转换,主要依靠简繁词库对照表进行,而现有简繁词库的规模还不够大且存在错误词对,由于缺少平行简繁语料,很难从语料中自动获取简繁术语对;对于人名转换问题,准确率还比较低。因此本文针对这些问题进行研究旨在从新的思路来促进简繁转换技术的发展,主要工作包括:  1)本文针对新闻语体语料,分别建立了简繁相同节点数及相同语料规模的词同现网络,并分别对两种网络做了复杂网络特性方面的系统比较。通过实验得出结论有:首先简繁汉语词同现网络都具有小世界和无标度的特性;其次通过对所得到的简繁汉字核心词典进行比较,发现简繁汉字核心词典具有一定通用性,但也存在一些差异,而且繁体汉字书面语还保留了一定的文言文特征;此外,通过对网络中的基元进行统计分析,得出简繁汉字系统在语义方面具有一致性。  2)首先我们借助简繁词向量表示和简繁语言之间的一种线性映射,实现对简繁术语和地名的转换,通过实验表明,该方法可以比较有效的对简繁词进行转换,证明我们的工作可以从语料中抽取简繁术语对,用于扩展和修正现有简繁词库对照表;其次我们利用简繁词转换矩阵与编辑距离加权结合的方法,实现对人名的转换。实验结果表明,我们的方法可以在仅编辑距离转换的基础上,进一步的提高人名转换的准确率。总之,对于简繁词和人名转换问题,我们可以利用词之间的语义信息来提高简繁汉字转换系统的转换质量。
其他文献
随着我国经济及交通事业的发展,汽车得到了广泛的应用,己成为现代社会的标志之一。但由于汽车发动机结构复杂,工作条件恶劣,使得汽车发动机故障率较高,维修保养费用较大。因
建筑环境特别是居住环境质量受到越来越多的重视,办公或居室内的温度、湿度、空气品质、噪声水平等等都是人们关注的问题。但是由于建筑环境中的信息来源复杂,信息格式并不一
随着数据库技术的成熟,数据应用的普及,以及互联网的高速发展,人类积累的数据量正在以指数级速度迅速增长。传统的数据分析和查询方法己不能满足人们对隐藏在数据背后的知识
文字形象化是通过分析文本资源的主题以及图像的特征信息,并以图形化方式将二者有机融合,呈现出具有特定视觉形象的一种可视化方法。文字形象化的目的是组合文本中不同文字,形成
伴随计算机视觉、自动化及信息通信科技的高度发展,无人机自主巡线作业技术也逐渐成为各行各业争相研究应用热点技术。无人机路径规划是实现无人机电力自主巡线作业的核心技
随着节能、降耗、减排等要求的日益提高,锅炉行业因为锅炉燃烧系统存在的缺陷或不足往往达不到高效低排放污染的要求,而燃煤锅炉是其中最大的源点。本文针对燃煤锅炉燃烧优化
在传统的农业中,除草剂的使用方式普遍为粗放式大面积喷洒,这样不仅造成了浪费,还造成了潜在的生态环境危害。为此,国内外提出了“精细农业”这个概念,在有杂草的区域喷洒药
神经网络是通过对人脑的基本单元-神经元的建模与连接,来模拟人脑神经系统功能的模型,是一种具有学习、联想记忆和模式识别等智能信息处理功能的人工系统。近几十年来,有关神经
随着科技的发展,越来越多的无人化平台被应用在工业和军事等领域中。无人化平台通常主要包括三个部分:管理计算机、现场控制器、有线/无线的通讯网络。本文着重研究与现场控
医用输液是我国药品中五大类重要制剂之一,临床应用十分广泛。但由于生产工艺或生产环境等原因,一些医用输液产品中可能含有玻璃碎屑、铝屑等异物,对病人身体造成极大危害。