信息抽取中网站结构树生成方法的研究

来源 :北京工商大学学报(自然科学版) | 被引量 : 0次 | 上传用户：ABC20090907

【摘要】

：

随着Internet技术的发展和普及，Web上的信息量猛增，使信息抽取更具有挑战性．从网站的拓扑结构入手，提出了信息抽取中网站结构树的生成算法，该算法首先根据网页结点URL所在目录的层

【作者】

：

朱英瞿有利陈谊孙悦红

【机构】

：

北京工商大学计算机学院,北京交通大学计算机与信息技术学院

【出处】

：

北京工商大学学报(自然科学版)

【发表日期】

：

2006年5期

【关键词】

：

信息抽取网站结构图结构树编辑距离 information extraction website structure graph structure tr

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet技术的发展和普及，Web上的信息量猛增，使信息抽取更具有挑战性．从网站的拓扑结构入手，提出了信息抽取中网站结构树的生成算法，该算法首先根据网页结点URL所在目录的层次关系，去掉网站结构图中的部分回溯边；然后在宽度优先遍历的过程中去掉已经遍历过的重复结点，生成网站结构树．最后引入编辑距离对算法生成的网站结构树与实际的网站结构树的相似程度进行评价，两棵树的相似程度比较高，均达到了90％以上．利用生成的网站结构树可以对网站的内容页面（即结构树的叶子结点）进行聚类，最后进行信息抽取，大大提高抽

其他文献

基于Agent技术的信息协作系统实现

如何进行高效、动态的信息协作是B2B电子商务的核心问题.移动Agent技术突破了传统的分布计算模式的制约,对处于复杂网络环境下的大规模的信息协作系统建设具有重要的意义.研

期刊

协作系统移动AGENT技术分布计算复杂网络大规模信息动态企业群B2B电子商务产业链Mobile Agent information syst

197例中老年人脂肪肝生化检查特征及临床分析

近年来,脂肪肝检出率日渐增多,为了探讨其病因及防治措施,我们对青岛市湛山地区3年中体检检出脂肪肝197例的临床资料做一分析。1 资料与方法 1.1 一般资料 1006例受检者系本

期刊

非酒精性脂肪肝临床分析中老年人生化检查糖尿病性脂肪肝肝纤维化青岛市市南区AST/ALT比值防治措施肥胖症

型钢冷锯机设备系统升级应用

宣钢型材线原有的冷锯系统由于设计、操作、备件等存在的种种因素,设备功能精度老化表现比较明显,导致后期设备故障频发,严重制约生产线的稳产、高产及产品质量,同时也给维检

期刊

冷锯机故障率升级改造设计

2003年耳鼻咽喉专科分会学术活动计划表(7～11月)

期刊

耳鼻咽喉学术活动2003年计划表学术论文写作青岛市学术报告会并发症经验交流会市立医院

登上美军新航母

<正>深入航母"老巢"集指挥、训练、科研、后勤保障为一体的圣迭戈海军基地位于美国西海岸南部地区,在美国本土是仅次于诺福克的第二大海军基地,是美海军太平洋舰队最大、最重

期刊

飞行甲板专用电梯飞机起飞

青岛医药卫生杂志兼职编辑会议召开

为发挥基层科教、信息人员的传媒作用,2003年3月由青岛医学会青岛医药卫生编辑部主持召开了首届青岛医药卫生杂志兼职编辑成立会议。会前,青岛医学会青岛医药卫生编辑部在期

期刊

医药卫生青岛地区编辑部医学会期刊工作主要议题办刊方针存在的主要问题科技期刊信息报道

网络控制系统控制方法研究

由于在控制回路中引入了网络,给控制系统带来新的问题,其中最主要的问题之一是网络的时延问题,网络延时会降低控制系统的性能甚至引起系统不稳定.因此,许多研究者致力于研究

期刊

网络控制通信网络通信协议时延分析时延补偿networked control communication networks communication

IDC专家破解网通后市迷局

网通上市，令坊间对于网通资本层面的众猜测尘埃落定，然而网通业务层面呈现的谜团，并没有呈现化解迹象。网通上市当天，网通高层在接受媒体采访时明确表示了对于3G的审慎态度，令公众

期刊

网通业务后市中国IDC上市盈利点评采访审慎

基于数据包络分析的配电网投资决策研究与应用

摘要：基于数据包络分析技术和层次分析法，提出配电网投资决策研究与应用，以大数据技术支撑配电网投资决策的精益化管理，充分调动各项数据，实现配网运行和资产数据的融合，以支撑电网业务活动分析，提升电网企业配电网投资精准度。本文首先简述了配电网投资决策由评价指标的选取和投入产出模型的建立两部分组成，评价指标的选取充分反映电网公司管辖的各区域、各台区配电网的发展目标，投入产出模型基于数据包络分析进行客观评

期刊

户线变关系自动拓扑识别工频脉冲小时电压分布序列精准校验

高校公寓楼的节能探讨

近年来,国家陆续出台了《高校合同能源管理实施指南》、《高等学校节约型校园建设管理与技术导则》等文件,要求全面推进节约型绿色生态校园建设,完善节能措施、加强节能实践

期刊

宿舍楼耗水耗电能耗调查节能

信息抽取中网站结构树生成方法的研究

与本文相关的学术论文