论文部分内容阅读
网络舆情反映了广大民众对各种事件的态度,是国家相关部门了解民意的重要渠道。Web信息抽取是舆情系统进行舆情信息分析的输入,它性能的好坏直接影响了舆情信息的来源及判断。随着互联网的快速发展,网页形式越来越多,为了快速准确地获取舆情信息,舆情系统对Web信息抽取提出了越来越高的要求。本文正是针对上述问题提出解决方案,以Web信息抽取技术为研究对象,针对当前各种网页形式进行深入分析,并且结合舆情信息处理要求,针对新闻、博客、论坛及微博四种不同类型的舆情信息来源网页,提出不同的抽取方法。主要研究内容有:1.研究新闻博客类网页信息抽取技术,采用通用网页正文提取技术,对新闻博客类网页正文进行抽取,并利用正则表达式提取其他数据项,该方法不依赖于网页结构,抽取速度快,准确度高,通用性好。2.研究网页聚类方法,提出一种基于网页结构的聚类方法。该方法结合论坛类网页标签特性,由于每个标签节点因层次不同对网页结构相似性影响不同,对每个节点赋予权值,采用加权余弦相似性公式计算两棵网页标签树的相似性。该方法有很好的聚类效果,时间复杂度为O(n)。3.研究基于网页结构相似性比较的Web信息自动抽取技术,提出一种论坛网页信息全自动抽取方法。该方法对每个抽取的论坛网站自动生成一个抽取模板,模板中利用信息熵、结构相似性等来有效地识别论坛中的的具体信息,利用模板完成对该网站中其他网页的自动信息抽取。4.研究微博类网页的信息抽取方法,提出一种结合标签属性和正则表达式的微博网页抽取方法。该方法综合考虑待抽取数据项的特征,利用标签属性及属性值定位,并利用正则表达式完成精确抽取。经过实验证明,本文提出的新闻、博客、论坛及微博类网页信息抽取方法,能够对海量的网络信息进行快速准确的信息抽取,召回率达到93%以上,准确率达到95%以上,并可将抽取数据转化为结构化数据存入数据库,满足舆情系统对分析数据的要求。