英文语料库垂直搜索引擎的研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:jackyray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着英文学习者的数量急剧增加,对能够辅助英文学习的工具的研究显得日趋重要。然而英汉两种语言的思维差异造成了中国学习者在英文学习中会碰到很多问题,而且这些问题的类型与母语学习者碰到的有很大的不同,例如:介词误用、不定冠词(a与an)误用等。语料库搜索系统能够快速获得某种语言现象使用的基础数据,如相关词语搭配、相关例句、统计频度信息等,通过查询能够有效解决上述学习者碰到的问题,而这是通用的搜索引擎不具备的,因此英文语料库搜索具有重要的研究意义和实用价值。本文的主要工作和贡献描述如下:1.借助单词分布式向量表示的优势,本文提出了一种基于词性的词向量表示的相似度计算方法,区分单词的词性并使用不同的向量表示。该方法与M&C数据集的相关系数达到了0.847(向量维度1600),在词向量的不同维度上相关系数均高于不区分词性的单一向量表示方法。同时在相似词识别任务上,该方法在动词上的准确率要明显高于单一向量表示方法。2.本文提出了一种融合多特征的词语相似度计算方法,利用WordNet和语料库统计的相关特征,通过使用有监督的学习方法有效的融合多种特征预测单词间的相似度。该方法与M&C数据集的相关系数达到了0.872,高于本文选取的两种对比方法:基于知识库的方法和基于语料库统计的方法。同时与Moby thesaurus数据集的Top-k平均准确率实验结果也证实了该方法的有效性。3.本文提出了一种英文语料库搜索框架,主要包含例句检索、N-Gram检索和相似词检索,并根据该框架构建了一个英文语料库垂直搜索引擎。与传统的语料库搜索系统比较,本系统加入了数据更新的过程,通过从互联网中周期性地抓取相关网页并及时动态的更新语料数据;同时在搜索功能上具有区分单词不同词性的例句检索、能够限制单词词性及命名实体等属性的N-Gram检索和基于语义的相似词检索。
其他文献
客户关系管理(CRM)是一种先进的管理理念,要求企业以客户为导向,整合内外流程,持续改进对客户的服务水平。CRM也是一种管理软件和技术,它将最佳的商业实践与数据挖掘、数据仓库、
本文研究和实现了一个图形化流程编辑器原型。在文中,首先,根据流程的定义,提出了自己对流程定义的理解并提出了一个流程模型。其次,研究和讨论了流程图的基本元素,并提出其元素的
随着人们对网络应用和服务的高效性、可用性和可靠性等诸多性能的要求不断提高,从网络管理的角度对网络服务的运行状况进行实时监控管理,是保障网络高效运行的重要环节。本课题
经过十几年的研究和实践,数据挖掘技术已经吸收了许多学科的最新研究成果,而形成独具特色的结构分支。其中,聚类算法作为数据挖掘工具集中的一个模块,具有广泛的应用价值。典型的
与机器进行语音交流,让机器明白人类说什么,这一直是人们梦寐以求的事情。语音识别的目的就是让机器听懂人类口述的语言,听懂就是机器通过识别和理解过程将人类的口述语言转化为
随着因特网的日益普及,信息的交流已达到了前所未有的深度和广度,其发布形式也愈加丰富,随之发展使得地理信息系统中的数据生产者和数据使用者之间已经截然分开了,面临着信任危机
数字房产是数字城市的基础工程之一,是“数字城市、数字地球”的重要内容。是每一个城市经济建设可持续发展的必然趋势。房产是城市组成中一个不可缺少的要素,而数字房产也就成
学位
电子政务是近年来我国进行研究和发展的热点问题。一个完整意义上的电子政务系统应由政府机关内部的办公自动化系统、政府部门间的网络信息共享与实时通信系统和政府对外信息
房地产管理局作为行使政府职能的一个重要部门,为了更好的能为经济建设服务,必须要顺应信息化的潮流,实行业务管理的计算机化。同时,随着房地产管理局管理水平的不断提高,也对管理