舆情系统中web信息抽取子系统的设计与实现

被引量 : 5次 | 上传用户:LILLER1010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络舆情反映了广大民众对各种事件的态度,是国家相关部门了解民意的重要渠道。Web信息抽取是舆情系统进行舆情信息分析的输入,它性能的好坏直接影响了舆情信息的来源及判断。随着互联网的快速发展,网页形式越来越多,为了快速准确地获取舆情信息,舆情系统对Web信息抽取提出了越来越高的要求。本文正是针对上述问题提出解决方案,以Web信息抽取技术为研究对象,针对当前各种网页形式进行深入分析,并且结合舆情信息处理要求,针对新闻、博客、论坛及微博四种不同类型的舆情信息来源网页,提出不同的抽取方法。主要研究内容有:1.研究新闻博客类网页信息抽取技术,采用通用网页正文提取技术,对新闻博客类网页正文进行抽取,并利用正则表达式提取其他数据项,该方法不依赖于网页结构,抽取速度快,准确度高,通用性好。2.研究网页聚类方法,提出一种基于网页结构的聚类方法。该方法结合论坛类网页标签特性,由于每个标签节点因层次不同对网页结构相似性影响不同,对每个节点赋予权值,采用加权余弦相似性公式计算两棵网页标签树的相似性。该方法有很好的聚类效果,时间复杂度为O(n)。3.研究基于网页结构相似性比较的Web信息自动抽取技术,提出一种论坛网页信息全自动抽取方法。该方法对每个抽取的论坛网站自动生成一个抽取模板,模板中利用信息熵、结构相似性等来有效地识别论坛中的的具体信息,利用模板完成对该网站中其他网页的自动信息抽取。4.研究微博类网页的信息抽取方法,提出一种结合标签属性和正则表达式的微博网页抽取方法。该方法综合考虑待抽取数据项的特征,利用标签属性及属性值定位,并利用正则表达式完成精确抽取。经过实验证明,本文提出的新闻、博客、论坛及微博类网页信息抽取方法,能够对海量的网络信息进行快速准确的信息抽取,召回率达到93%以上,准确率达到95%以上,并可将抽取数据转化为结构化数据存入数据库,满足舆情系统对分析数据的要求。
其他文献
中小学阶段是一个非常特殊的阶段,个体从儿童进入青少年阶段,其身心发展起了重大的变化。中小学生成长的这一时期又是人生中的一个激动且混乱的时期,也是人的行为、性格和智
离子液体又称室温熔盐,是指在室温或室温附近温度下由阴阳离子组成的呈液态的物质。作为一种新型溶剂,离子液体具有电化学窗口较宽,对无机和有机化合物都有较好的溶解性,蒸气压较
图书馆信息管理系统为图书馆数字化信息化的发展方向起到了指导和定位的作用,并直接影响着图书馆为读者提供服务工作的好坏和图书馆业务水平质量和效率的高低。本课题的研究
在口腔医学辅助诊断领域,人脸三维可视化及其结果能够真实的记录牙颌整形前与整形后引起的人脸面部的形态变化,便于口腔医生的实时诊断及术前术后预测。现阶段口腔领域的测量分
党的十九大报告中明确提出要“树立和践行绿水青山就是金山银山的理念”,这表明党和国家对生态文明建设的高度重视,生态文明建设的核心是要提高生态产品的供给。森林作为地球
身份认证技术已经在人们的生活中得到非常广泛的应用,但是随着科学技术的发展,安全性限制了传统身份认证技术的应用,随之产生了生物识别技术。生物识别技术包括:指纹识别技术、虹
传统产品责任将生产者、销售者的注意义务限定在产品投入流通之前的设计、制造、售前警示等一系列环节,随着产品责任法理论的进一步延伸和拓展以及司法实践的不断推进,生产者
中国加入WTO后,外资银行不断涌入中国,促使银行业的竞争日趋激烈。银行业迅速从以产品为中心(Product-Centric)的商业模式向以客户为中心(Customer-Centric)的商业模式转变。银行之
雅克·弗朗索瓦·安东·伊贝尔(Jacques Fran ois Antoine Ibert)是20世纪最重要最天才的作曲家之一,其创作涉及众多不同的音乐形式,包括歌剧、芭蕾、管弦乐、协奏曲、钢琴曲和
随着改革开放进程的不断深入,中国的银行业发展取得了很大的的进步。中国在加入WTO以后,我国金融市场对外开放程度逐步加大,外资金融机构不断涌入及其业务范围不断开放,使得我国