一种面向Web的英汉平行语料库的构建方法

来源 :金陵科技学院学报(社会科学版 | 被引量 : 0次 | 上传用户:A13573338539
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理领域各项研究的发展,平行语料库作为支撑自然语言处理技术的基础资源,发挥着越来越重要的作用。利用Web中的海量信息资源,采取信息抽取的方法,自动获取英汉双语平行语料资源。在获取过程中,首先确定抓取网站和制定词表,然后利用网络资源抓取工具GUN Wget自动获取网页中的英汉双语句子对资源,在对获得的平行句子对资源进行清洗和去重的基础上,利用条件随机场模型对汉语句子进行自动分词并导入数据库,最终完成大规模英汉双语平行语料库的构建。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
学位
随着航空航天领域与无线通信技术的快速发展,真空电子器件、大功率微波天线等复杂微波器件受到广泛关注并被应用到各个领域。由于设备小型化与需求精准化的趋势,军用领域与民用领域对高性能微波电子器件的渴求日益增加,器件的散热性能也逐渐成为了高性能微波器件设计中不可忽视的问题。对于微波电子器件而言,其电磁特性与热特性并非各自独立,从业者若想要设计出高性能的微波电子器件,必须要将温度因素纳入到考量范围内。但目前