论文部分内容阅读
互联网上信息浩瀚,但自动提取新闻标题并构建语料库的难度较大。本文自主设计了一个火狐浏览器插件,综合应用了DOM树、XPATH、文件读写、多线程控制等技术实现了VOA网站新闻标题的自动提取,另外利用工具Sele-nium实现了新华网新闻标题的自动提取。在此基础上,自建了2011年1月1日到2014年5月30日期间的VOA英文新闻语料库和新华网中文新闻语料库,并自编高频词提取算法对其进行高频词提取研究,为进一步完成新闻标题高频词解析、中美文化价值观异同比较的研究打下了坚实的基础。