中美新闻标题语料库的自动构建与高频词提取算法研究

来源 :江苏外语教学研究 | 被引量 : 0次 | 上传用户:Vilmar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上信息浩瀚,但自动提取新闻标题并构建语料库的难度较大。本文自主设计了一个火狐浏览器插件,综合应用了DOM树、XPATH、文件读写、多线程控制等技术实现了VOA网站新闻标题的自动提取,另外利用工具Sele-nium实现了新华网新闻标题的自动提取。在此基础上,自建了2011年1月1日到2014年5月30日期间的VOA英文新闻语料库和新华网中文新闻语料库,并自编高频词提取算法对其进行高频词提取研究,为进一步完成新闻标题高频词解析、中美文化价值观异同比较的研究打下了坚实的基础。
其他文献
从2017级开始山东省将采用新的高考招录模式(即两依据,一参考),等级选考科目同上海市一样采用6选3(种组合)模式,即从政史地理化生中自主选择3门作为选考科目,为了解决不同考
将前期理论研究形成的风险分类清单、风险量化评估的模型、风险动态跟踪管理的方法和流程开发形成了一套适用于国际工程承包企业的风险数据库和评估管理系统。本文对此系统的
很多中国企业在海外项目开展过程中,对相关风险没有识别、分析到位,以至于后续对风险管控缺失,造成严重经济损失。中国中车正加快全球市场布局,对于海外风险管理,需给予高度
采用GC/MS法分析了6-取代茚满酰异亮氨酸共轭物处理和未处理的K326烟叶中的挥发性成分,并对这些烟叶进行了评吸。结果显示:①处理烟叶内生成了3种在对照中未检出的成分:法尼烯