自动中文术语识别若干方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cailing12530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动中文术语识别是自然语言处理研究和计算语言学领域中的重要内容,它的研究和实现具有重要的理论意义和实用价值.随着信息技术的飞速发展,大量新的术语不断涌现,如何识别它们变得越来越重要.完全靠人工来对大量文本中的术语进行识别非常困难,对自动中文术语识别的要求日益迫切.由于自动中文术语识别的研究结果可应用于术语的标准化、信息提取等诸多领域,它越来越受到人们的重视.同其他语言中的术语识别相比,中文术语识别研究有其特有的难点.该文从自动中文术语识别的统计方法入手,研究了基于规则的方法,讨论了决策树学习在自动中文术语识别研究中的应用.具体来讲,该文从以下几个方面进行了研究:(1)常用的统计模型在自动中文术语识别研究中的应用.该文对比了互信息、加权互信息等六种方法识别计算机领域术语的效果.(2)讨论了模式匹配算法在抽取候选术语时的应用.(3)分析了计算机领域内术语的组成特点,在此基础上研究了基于术语构成规则的识别方法.该方法首先对已有术语库中的术语进行分词和词性标注,将每个术语中各个词的词性符号按它们在该术语中出现的先后次序排列成一个词性序列.对术语库中各个术语的词性序列进行统计,按统计次数的大小进行排序,从而得到规则.(4)研究了决策树学习算法在自动中文术语识别研究中的应用,在考虑到前后相邻词等上下文信息的基础上研究了用决策树学习算法从样例中获取规则的方法.通过对样例的学习,得到一棵对应于规则析取式的决策树.应用这些规则及模式匹配算法,在训练语料中抽取候选术语.
其他文献
随着计算机网络结构的日益复杂,以及大规模、分布式高速网络的大量应用,整个网络所面临的安全威胁日益严重。入侵检测系统已成为网络安全的重要组成部分。许多网络中布置了大量
互联网已成为学习知识及开阔视野的最佳途径,它正在逐渐发展成为大众伸手可及的媒体传播手段和通讯工具;然而互联网也带来诸如色情小说、色情图像传播的问题。一些预防网络色情
随着计算机网络技术的迅猛发展,以及计算机硬件性能的大幅度提高,新的市场需求应运而生。特别是有关网络方面的需求更是层出不穷,从事宽带接入系统开发的一家公司向我们提出需要
本文研究的课题是目前仍未解决但关系到下一代电子市场发展以至成功与否的关键问题。 随着电子商务的发展,一些关键问题逐渐暴露出来。首先,面对全球数量庞大的在线企业,对一
本文首先讨论CSCW对数据库技术在移动性、保留历史记录等方面的要求,提出各种新一代数据库技术对CSCW的支持,并总结其各自的研究现状;针对移动CSCW的快速发展,本文又重点探讨时空
该文主要以音字转换问题为背景,以统计语言模型为基本框架,对汉语语言模型进行深入研究.该文的出发点为提高语言模型精度和自适应能力,最终改善应用系统的性能.该文在如下 四
本文作者研究了计算机网络系统集成理论与技术,包括:网络规划与设计、局域网集成、广域网集成、因特网集成、网络安全保密、VLAN技术、VPN技术等。在理论与技术研究的基础上,完
随着科学技术的日新月异,特别是互联网的快速发展,各种信息情报激增,人们可以通过各种手段快速获取大量的文本资料,但是如何对所获取的资料进行科学而有效的管理是摆在人们面前的
随着计算机网络通信的迅猛发展,密码协议的重要性越来越得到重视。而在众多的验证方法中,模型检测方法在对密码协议的验证中体现出了它的优势。  本课题研究的目的是采用模
近年来,数据挖掘已经引起了信息产业界的极大关注,这是快速增长的数据量和日益贫乏的信息量之间矛盾的必然结果,对数据挖掘技术进行系统、深入、全面、详尽地研究是全球信息化发