论文部分内容阅读
随着计算机应用领域的日益广泛以及信息处理技术水平的不断提高,自然语言信息处理技术一直倍受关注,如何提高计算机对自然语言的理解对计算机技术的发展有着非常重要的意义。由于中文自动分词是文本校对、信息检索、语音识别、文本挖掘、机器翻译等研究的前提和基础,所以中文自动分词已经成为自然语言信息处理技术的基础及核心工作。由于汉语句子构成的多变性和复杂性,中文自动分词已经是中文信息自动处理的“瓶颈”。中文文字的处理与西文文字的处理相比,一个明显的不同,就是汉语词与词之间没有明显的分隔标记。因此中文信息处理的首要问题,就是要将句子中一个个词给分离出来,这就是中文分词问题。本课题研究的主要内容,关键技术及创新点主要有以下几个方面:首先,本课题研究从单字在词中构词位置的角度进行思考,从而把分词过程视为单字在词中构词位置问题。基于大规模语料进行统计,统计出单字在词中各个位置的概率,形成单字估价值字典,为分词奠定基础。这种处理方法也是本课题研究的创新思想之一。由于汉语中词中字的个数主要集中四字词以内,五字以上的词相对较少,所以本项研究主要针对四字以内词中字的位置进行统计单字估价值。其次,隐马尔科夫模型的基本理论中要解决三个基本问题,其中第二问题是解码问题,把解码问题转化为分词问题。解决解码问题的Viterbi算法能够找到最佳解,其思想精髓在于将全局最佳解的计算过程分解为阶段最佳解的计算。利用单字估价值字典对待切分句子中各字按Viterbi思想进行估价,然后回溯切分,这样做的一个重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。从而能更好的解决未登录词问题和大部分歧义问题。这是本课题研究创新思想之二。最后,隐马尔科夫模型要解决的第三个问题就是学习问题,根据初步切分的结果进行分析,对错误切分结果进行规模性机器学习。学习字在词中的位置特征,把初始统计的单字估价值作为初始切分参数,然后建立调整参数模型,使计算机反复学习调整,优化单字估价值字典中估价值参数,调整后再进行切分。机器学习优化单字估价值参数这一思想是本课题研究创新思想之三。目前,对于分词这一领域很难统一标准。近年来也出现了许多准确率很高的分词软件,但未登录词问题和歧义问题始终制约分词,本课题研究主要从更好的解决登录词问题和歧义问题入手研究,以便更好更准确的进行分词。