论文部分内容阅读
传统的双语词汇词典,一般由人工整理、编辑,具有权威度高、词条质量高的特点,但是其编制需要花费大量的人力、物力和时间。与此同时,随着互联网的发展和社会的发展,各种各样新的知识和话题涌现出来,每天都大量增加的新的词条,难以在短时间内通过人工添加到词典中去,造成了词典里的词条缺失、时效性不够等缺点。而随着互联网的发展,互联网所承载的信息量越来越大,页面信息越来越多,大量的双语词汇在网页页面中出现,从这些资源中,可以抽取大量有效的双语词汇。而且这些双语词汇具有词条新、专业术语翻译丰富等特点。如果通过一定的自动化手段,自动去收集整理这些有用的双语词条互译信息,积少成多,将会形成极为丰富的双语词汇资源。但是由于互联网信息的杂乱、非结构化和网页质量良莠不齐等问题,如何从非结构化的网页中去抽取双语词条是一个问题,而且因为抽取出来的词条并不一定是高质量的词条,所以将抽取的词条直接用来作为双语词条是不可行的。在抽取双语词条时,存在着(1)如何从网页文本等非结构化的数据中抽取双语词条。(2)如何去评估抽取的双语词条是否正确的。(3)对于抽取出来低质量的词条,是否可以进行加工后得到高质量词条等问题。针对这上面所列出的问题,本文提出了一种基于机器学习方法来抽取双语词汇,基于以前方法存在的问题,做出了如下的贡献:(1)首先,对于如何从文本这样非结构化的数据中抽取双语词条这个问题,传统的使用固定模式抽取词条的方法受限于人的先验知识所归纳整理的规则,本文提出一种基于模式挖掘的方法,首先使用固定模式去抽取种子词,再用种子词去抽取更多的模式,再用新的模式去抽取更多的双语词汇的方法,克服了固定模式带来的局限性,提高了召回率。实验表明,该方法提高了抽取双语词条的召回率,而且具有不受初始种子选取影响,迭代可以到稳定的收敛状态。(2)其次,对于衡量和判断抽取出来的双语词条是否正确的问题,分析了目前主要使用的各种基于单因素方法的局限性,提出了使用基于SVM模型来融合多种因素的方法,去判断双语词条是否为互译关系,实验表明,该方法提高了抽取双语词条的准确率。(3)最后,在词条抽取出来后,被判定为低质量的词条中,有相当一部分的词条可以通过截断得到高质量的词条,如果能正确判定词条截断位置,可以进一步地提高抽取的召回率。本文将词条截断位置判断的问题建模为一个排序问题,提出了使用监督排序模型来预测判定词条截断的位置。实验证明,与传统方法相比,改进后的方法提高了抽取出来的双语词条的准确率和召回率,取得了较好的效果。