论文部分内容阅读
随着自然语言处理领域各项研究的发展,平行语料库作为支撑自然语言处理技术的基础资源,发挥着越来越重要的作用。利用Web中的海量信息资源,采取信息抽取的方法,自动获取英汉双语平行语料资源。在获取过程中,首先确定抓取网站和制定词表,然后利用网络资源抓取工具GUN Wget自动获取网页中的英汉双语句子对资源,在对获得的平行句子对资源进行清洗和去重的基础上,利用条件随机场模型对汉语句子进行自动分词并导入数据库,最终完成大规模英汉双语平行语料库的构建。