中美新闻标题语料库的自动构建与高频词提取算法研究

来源 :江苏外语教学研究 | 被引量 : 0次 | 上传用户：Vilmar

【摘要】

：

互联网上信息浩瀚，但自动提取新闻标题并构建语料库的难度较大。本文自主设计了一个火狐浏览器插件，综合应用了DOM树、XPATH、文件读写、多线程控制等技术实现了VOA网站新闻标

【作者】

：

凌建辉许蕾金晶

【机构】

：

东南大学外国语学院,南京大学计算机科学与技术系

【出处】

：

江苏外语教学研究

【发表日期】

：

2016年1期

【关键词】

：

互联网 VOA 新华网新闻标题语料库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网上信息浩瀚，但自动提取新闻标题并构建语料库的难度较大。本文自主设计了一个火狐浏览器插件，综合应用了DOM树、XPATH、文件读写、多线程控制等技术实现了VOA网站新闻标题的自动提取，另外利用工具Sele-nium实现了新华网新闻标题的自动提取。在此基础上，自建了2011年1月1日到2014年5月30日期间的VOA英文新闻语料库和新华网中文新闻语料库，并自编高频词提取算法对其进行高频词提取研究，为进一步完成新闻标题高频词解析、中美文化价值观异同比较的研究打下了坚实的基础。

其他文献

应用VFP实现山东省新高考选考科目等级赋分

从2017级开始山东省将采用新的高考招录模式(即两依据,一参考),等级选考科目同上海市一样采用6选3(种组合)模式,即从政史地理化生中自主选择3门作为选考科目,为了解决不同考

期刊

vfp等级赋分模拟考试代码科目

国际总承包工程风险数据库和评估管理系统分析与设计

将前期理论研究形成的风险分类清单、风险量化评估的模型、风险动态跟踪管理的方法和流程开发形成了一套适用于国际工程承包企业的风险数据库和评估管理系统。本文对此系统的

期刊

风险管理风险数据库风险评估管理系统国际工程

浅谈海外业务风险管理

很多中国企业在海外项目开展过程中,对相关风险没有识别、分析到位,以至于后续对风险管控缺失,造成严重经济损失。中国中车正加快全球市场布局,对于海外风险管理,需给予高度

期刊

海外业务风险类别风险管理

6-取代茚满酰异亮氨酸共轭物对烟草挥发性成分及吸味品质的影响

采用GC/MS法分析了6-取代茚满酰异亮氨酸共轭物处理和未处理的K326烟叶中的挥发性成分,并对这些烟叶进行了评吸。结果显示：①处理烟叶内生成了3种在对照中未检出的成分：法尼烯

期刊

6-取代茚满酰异亮氨酸共轭物烟叶挥发性成分K3266 - Substituted indanoyl isoleucine conjugate Tobac

中美新闻标题语料库的自动构建与高频词提取算法研究

其他学术论文