论文部分内容阅读
国内开展的术语自动提取方面的研究都未以期刊论文的摘要为语料,而摘要作为一篇期刊论文概要性的陈述,其中包含了大量该学科领域内的术语,应当作为开展术语自动提取研究的重要语料。因此,本文希望通过对图书、情报和档案学领域内的期刊论文摘要,分别利用互信息和条件随机场模型进行术语自动提取方面的研究。本文首先介绍了研究的背景和意义,总结了术语自动提取的研究现状,明确了研究的基础,并给出了全文的框架结构。在第二章的部分介绍了术语的相关概念,以及术语的特征,包括领域特征和结构特征等等。然后本文对术语的表现特征、同义术语以及术语前后界进行统计分析。术语的表现特征中包括术语词频、术语词性序列以及术语词性词频;同义术语是通过利用编辑距离的方法统计得出;术语的前后界是通过统计出现在术语之前或者之后的词而得到。这些对术语特征的考察一方面为从语言学角度量化的研究术语内部提供了数据,另一方面也为之后的实验提供了语言学的知识。接着开展了基于互信息的术语自动提取方面的研究,介绍了互信息理论以及预处理的过程,实验主要是以二元词和三元词为考察对象,依据互信息计算公式,计算词语内部的关联程度,并设定不同的阈值,对结果进行统计。在首次实验结果不理想的情况下,对语料作进一步处理,第二次实验中准确率有了大幅度的提升,二元词和三元词的最高值分别达到了58.555%和58.814%。虽然在改进后,提取效果有所提高,但仍然不够理想,造成这种情况的原因在于基于统计的方法本身的局限性。最后开展了基于条件随机场的术语自动提取方面的研究,介绍了条件随机场模型、预处理的过程以及特征和特征模板的确定,分别用原子特征模板、增加了词性特征的特征模板以及增加了语言学特征的特征模板对基于字的和基于词的语料进行了实验,4轮实验的平均F值分别为91.927%、90.311%、90.681%和90.6818%。这说明基于条件随机场的术语自动提取效果要优于基于互信息的方法。