论文部分内容阅读
互联网门户网站的评论通常带有地理空间位置信息,对它们进行收集具有较高的决策支持价值.然而,随着网站页面内容 的复杂化以及网站门户服务器安全性的提高;单纯的抓取网页提取文本信息方式难以实现有效的地理位置信息提取,本研究提出了一种并行的网上新闻评论地理位置信息抓取方法,通过引入并行化、虚拟浏览器运行、位置模板技术实现了有效的网上新闻评论中地理 位置信息的获取.实验表明,通过本方法可以实现快速的海量的网页内容获取.