论文部分内容阅读
随着网络技术的发展,互联网上的信息量成倍增长,已经毋庸置疑的成为现今社会知识和信息的集聚地,它也理所当然的成为了人们获取信息的目标地。互联网作为为人们获取知识和信息的重要途径,提供给人们便利的同时也收集着人们对获取信息的反馈。各种不同的反馈构成了互联网上的舆情信息,又因为互联网的虚拟性和开放性,使得网络舆情信息比普通舆情信息的影响范围更广,互联网舆情信息已经成为社会民意的风向标,分析互联网信息就必不可少的要对互联网舆情信息进行研究。本文就互联网舆情信息的抓取和分类做了一定的研究,参考分析互联网舆情分析系统中网络爬虫的己有研究成果,深入分析了网络爬虫的一些关键技术,根据本论文的需求实现一个优化的网络爬虫,实现互联网舆情信息的抓取。本文分析了热点事件关键词在舆情信息研究中的重要作用,提出通过热点事件关键词来发现舆情信息,这一方式提高了舆情信息获取精度和获取效率。在一般的网络爬虫架构中加入锚文本匹配模块,该模块实现对网络舆情信息的有效获取。本论文主要进行的工作如下:第一,对互联网舆情信息挖掘技术的特点及难点进行分析并总结,分析网络爬虫在该技术中的地位作用。研究它的实现目标和实现方法,第二,分析通用网络爬虫技术的实现,研究主题爬虫技术、聚焦爬虫技术等,然后在此基础上提出适合本系统的网络爬虫实现目标。给出了爬虫的具体实现细节,其中包括网页的抓取及解析、网页内容的获取和去重、爬虫的爬行策略、URLS的去重等。第三,分析网页锚文本与内容的关系,提出并实现用锚文本匹配热点事件关键词这一方法。研究短句汉语的匹配问题,深入研究文本分类技术,主要包括文本分词,文本表示,特征选择和分类算法四个部分。实现网页内容的数据库存储,研究信息的索引和检索技术,该技术的实现能使用户方便的检索数据库中存储的信息。