论文部分内容阅读
随着英文学习者的数量急剧增加,对能够辅助英文学习的工具的研究显得日趋重要。然而英汉两种语言的思维差异造成了中国学习者在英文学习中会碰到很多问题,而且这些问题的类型与母语学习者碰到的有很大的不同,例如:介词误用、不定冠词(a与an)误用等。语料库搜索系统能够快速获得某种语言现象使用的基础数据,如相关词语搭配、相关例句、统计频度信息等,通过查询能够有效解决上述学习者碰到的问题,而这是通用的搜索引擎不具备的,因此英文语料库搜索具有重要的研究意义和实用价值。本文的主要工作和贡献描述如下:1.借助单词分布式向量表示的优势,本文提出了一种基于词性的词向量表示的相似度计算方法,区分单词的词性并使用不同的向量表示。该方法与M&C数据集的相关系数达到了0.847(向量维度1600),在词向量的不同维度上相关系数均高于不区分词性的单一向量表示方法。同时在相似词识别任务上,该方法在动词上的准确率要明显高于单一向量表示方法。2.本文提出了一种融合多特征的词语相似度计算方法,利用WordNet和语料库统计的相关特征,通过使用有监督的学习方法有效的融合多种特征预测单词间的相似度。该方法与M&C数据集的相关系数达到了0.872,高于本文选取的两种对比方法:基于知识库的方法和基于语料库统计的方法。同时与Moby thesaurus数据集的Top-k平均准确率实验结果也证实了该方法的有效性。3.本文提出了一种英文语料库搜索框架,主要包含例句检索、N-Gram检索和相似词检索,并根据该框架构建了一个英文语料库垂直搜索引擎。与传统的语料库搜索系统比较,本系统加入了数据更新的过程,通过从互联网中周期性地抓取相关网页并及时动态的更新语料数据;同时在搜索功能上具有区分单词不同词性的例句检索、能够限制单词词性及命名实体等属性的N-Gram检索和基于语义的相似词检索。