模板化Web文档的主题信息自动抽取方法研究

被引量 : 0次 | 上传用户：prajana

【摘要】

：

人类社会的发展经历了农业社会、工业社会、信息社会,正朝着智能社会发展。从某种角度上说,人类社会目前处于由信息社会向智能社会过渡的阶段。在这个阶段,信息依然是主流,是

【作者】

：

周星

【发表日期】

：

2010年期

【关键词】

：

Web文档主题元数据自动信息抽取启发式规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人类社会的发展经历了农业社会、工业社会、信息社会,正朝着智能社会发展。从某种角度上说,人类社会目前处于由信息社会向智能社会过渡的阶段。在这个阶段,信息依然是主流,是基础。人们的学习、生活和工作在很大程度上都依赖于互联网上的信息资源。网上的信息资源的载体形式多样,有文字、音频、视频、图形图像。但是,目前计算机对信息载体的理解能力还很低,而且计算机对信息载体的分析技术以文字处理较为成熟,语音处理、图形图像识别、以及视频识别都还处于起步阶段。另外,人们想在浩瀚的信息海洋中搜集信息,仅仅依靠人工的力量是不可行的,需要借助计算机快速的处理能力。因此,人们搜集信息的方式就主要表现为借助计算机,抽取互联网中Web文档的文本信息。信息抽取技术为人们搜集信息提供了极大的帮助,从很大程度上使人的角色发生了转变,从机械地信息复制者转变为制定规则的决策者。但是,在面向专业服务网的信息聚焦系统中,由于信息源网站数量巨大,人工地制定网页的解析规则(即信息抽取规则)是一个既花时间又很枯燥的工作。如何使人和机器优势互补,既发挥人的决策能力,又发挥机器的快速处理能力,使信息抽取的准确率和效率更高,这是本文研究的主要内容。本文提出了一个模板化Web文档的主题信息自动抽取的框架,该框架把主题信息自动抽取逻辑上分成了三个模块：抽取规则生成模块、主题信息抽取模块、自动反馈监测机制模块。其中最为重要的是抽取规则生成模块,它是整个框架的驱动基础。论文着重讨论了抽取规则生成模块的相关算法实现。抽取规则生成的整个过程分为三个阶段：文档预处理阶段、主题区域定位阶段和主题信息精确定位阶段。在Web文档预处理阶段,首先利用HTMLParser将Web文档转化为DOM树,再使用无关结点过滤算法,无效结点过滤算法对部分噪音信息进行过滤。在主题区域定位阶段,主要对主题信息所在的区域块进行定位,它分为两个子阶段,一是动态区域块定位,由于主题区域必然是动态区域块,所以首先利用DOM树匹配算法计算两个模板化文档对应的DOM树最大匹配值,分离出动态区域子树和静态区域子树,进而实现动态区域块的定位；二是非主题链接块过滤,首先定位出DOM树的重复区域,然后通过统计重复区域链接文字和非链接文字的个数过滤非主题链接块。在主题信息精确定位阶段,通过分析各个主题信息的多方面的特征制定出对应的启发式规则,根据启发式规则算法定位主题结点,并获得主题结点在DOM树中的路径作为抽取规则。本文最后给出了模板化Web文档的主题信息自动抽取系统的主界面,同时给出了两个新闻网站的信息抽取结果。另外,本文用析全率和析准率两个指标对信息抽取系统的性能进行了评价,结果表明该系统能够有效地代替人工进行模板化Web文档的主题信息的自动抽取工作,而且抽取效果很好,具有很好的应用推广价值。

其他文献

对B类电气装置接地问题的商榷

对《交流电气装置的接地》规范(DL/T621 -1997)中B类电气装置的某些规定提出了意见.认为配电变电所的接地关系到低压用户的用电安全,低压网络的接地故障引起的低压用户人身电

期刊

变电所接地用电安全防电击防电气火灾

傅斯年与周作人关系变迁之研究

傅斯年与周作人是“五四”新文化运动的先锋人物。傅斯年外号“傅大炮”,是北京大学“五四”运动的学生领袖,主办《新潮》月刊,提出中国的“伦理革命”。周作人则是北大教授

学位

傅斯年周作人关系变化

论中学生语文厌学情绪形成的原因及对策

语文,母语学习的学科,汉语传承的课堂。我们的汉语历史悠久,如今却受到各种冲击,学生宁愿用大量的时间学习外语、数理化,也不学习语文,更不愿阅读更多的文学书籍,学生轻视语

学位

中学生语文厌学原因对策

甘肃省物流产业发展存在问题及对策研究

随着经济全球化和区域经济一体进程的加快,现代物流作为一种先进的组织技术和管理技术,已经成为区域经济能否持续、快速、稳定、健康发展的重要因素,现代物流的发展对区域产

学位

区域物流区域经济产业结构基础设施预测

在线考试系统的研究与实现

随着计算机技术和网络技术的不断发展,传统考试已经不能完全满足数字化、标准化的考试需求,各行业部门更多倾向于采用网络在线考试系统完成各类水平测试。网络在线考试系统以

学位

在线考试B/S模式自动组卷试卷分析

我国个人所得税的征管效率评价与改进

我国个人所得税收入占税收收入的比重低,提高个人所得税征管效率是提高我国个人所得税收入的有效途径。本文将我国个人所得税的流失率作为评价个人所得税征管效率的指标,分析

期刊

个人所得税征管效率评价改进

基于拉曼光谱的硅片残余应力测试方法

随着TSV加工工艺出现,TSV填充后的硅的结构变化引起了人们越来越多的关注。由于微机械加工工艺(如溅射、光刻等)会在微结构中造成应力分布。已有的实验力学测量方法,难以适应

会议

硅片残余应力测试方法拉曼光谱

对基层国税机关重点企业税源专业化管理的思考

现行征管模式下,对重点企业实施集中、规范、专业化管理势在必行。当前,大企业集团化经营中的关联交易和跨国、跨地区经营行为日渐普遍,如何按照其经营特点、经营方式,实施"

期刊

基层国税机关重点企业税源专业化管理

水轮发电机组状态监测与故障诊断系统设计与应用

随着国民经济的快速发展,我国电力工业已进入大电网、大机组、高电压、高自动化的发展阶段,对电力系统稳定性和电能质量提出了更高的要求。随着,水力机组容量的不断增加,机组

学位

水轮发电机组状态监测故障诊断振动传感器

税源专业化管理试行中存在的问题分析及对策研究

文章以税源专业化管理为研究对象,首先对我国税源专业化管理试点现状与存在的问题进行了分析,提出了厘清认识误区;加快税收征管法制建设;充分发挥纳税服务在税收征管中的先导

期刊

税收征管税源管理专业化

模板化Web文档的主题信息自动抽取方法研究

与本文相关的学术论文