论文部分内容阅读
社情民意调查就是为了得到社情民意而采用各种方法进行的调查。进行社情民意调查的目的是为了尽可能的了解当前的社情民意,为政府、企业提供决策所需的信息。没有调查就没有发言权,只有通过调查得到相对准确的信息才能为正确的决策提供保证。社情民意监测就是组织或者团体根据自身的情况,对自己关注的主题或者领域按照一定的规则进行有选择性的筛选和俘获各种社情民意的行为。社情民意的动态主动监测要求尽可能早的主动去发现社情民意的变化情况,以便组织及时做出相应的调整。
针对目前社会的实际需要,本研究以网络信息获取和数据挖掘理论为指导,采用网络爬虫等技术从网络上监测和获取满足用户需求的社情民意信息,然后在这些信息基础上做相关的数据分析和数据挖掘工作。主要采用数理统计方法和数据挖掘技术,对社情民意信息进行二次加工,对网民关注问题的趋势分析、相关问题的态度分析、潜在问题的预测分析等社情民意要素进行定性、定量分析,更加全面、深入地挖掘网络信息里面蕴含的社情民意信息,为政府相关部门、各企业提供相关的社情民意情报,从而为政府、企业的决策提供支持。构建社情民意信息库,并逐步实现了《社情民意的调查、监测和分析系统》。
本文首先分析现有社情民意的研究现状,接着阐述社情民意调查、获取和分析的理论和方法,在此基础上设计实现了社情民意获取引擎,并作为监测和获取社情民意的手段;给出了系统整体的解决方案和设计:对基于VIPS算法和坐标信息的论坛数据记录提取算法进行了研究和实验。
本文提出了一种基于VIPS算法和坐标信息的论坛数据记录提取算法,该算法克服了传统的网页数据提取方法可扩展性差、通用性差、工作量大等缺点,在保持了较高准确性的前提下,大大提高了可扩展性和通用性。