信息抽取中网站结构树生成方法的研究

来源 :北京工商大学学报(自然科学版) | 被引量 : 0次 | 上传用户:ABC20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的发展和普及,Web上的信息量猛增,使信息抽取更具有挑战性.从网站的拓扑结构入手,提出了信息抽取中网站结构树的生成算法,该算法首先根据网页结点URL所在目录的层次关系,去掉网站结构图中的部分回溯边;然后在宽度优先遍历的过程中去掉已经遍历过的重复结点,生成网站结构树.最后引入编辑距离对算法生成的网站结构树与实际的网站结构树的相似程度进行评价,两棵树的相似程度比较高,均达到了90%以上.利用生成的网站结构树可以对网站的内容页面(即结构树的叶子结点)进行聚类,最后进行信息抽取,大大提高抽
其他文献
如何进行高效、动态的信息协作是B2B电子商务的核心问题.移动Agent技术突破了传统的分布计算模式的制约,对处于复杂网络环境下的大规模的信息协作系统建设具有重要的意义.研
近年来,脂肪肝检出率日渐增多,为了探讨其病因及防治措施,我们对青岛市湛山地区3年中体检检出脂肪肝197例的临床资料做一分析。1 资料与方法 1.1 一般资料 1006例受检者系本
宣钢型材线原有的冷锯系统由于设计、操作、备件等存在的种种因素,设备功能精度老化表现比较明显,导致后期设备故障频发,严重制约生产线的稳产、高产及产品质量,同时也给维检
<正>深入航母"老巢"集指挥、训练、科研、后勤保障为一体的圣迭戈海军基地位于美国西海岸南部地区,在美国本土是仅次于诺福克的第二大海军基地,是美海军太平洋舰队最大、最重
为发挥基层科教、信息人员的传媒作用,2003年3月由青岛医学会青岛医药卫生编辑部主持召开了首届青岛医药卫生杂志兼职编辑成立会议。 会前,青岛医学会青岛医药卫生编辑部在期
由于在控制回路中引入了网络,给控制系统带来新的问题,其中最主要的问题之一是网络的时延问题,网络延时会降低控制系统的性能甚至引起系统不稳定.因此,许多研究者致力于研究
网通上市,令坊间对于网通资本层面的众猜测尘埃落定,然而网通业务层面呈现的谜团,并没有呈现化解迹象。网通上市当天,网通高层在接受媒体采访时明确表示了对于3G的审慎态度,令公众
摘 要:基于数据包络分析技术和层次分析法,提出配电网投资决策研究与应用,以大数据技术支撑配电网投资决策的精益化管理,充分调动各项数据,实现配网运行和资产数据的融合,以支撑电网业务活动分析,提升电网企业配电网投资精准度。本文首先简述了配电网投资决策由评价指标的选取和投入产出模型的建立两部分组成,评价指标的选取充分反映电网公司管辖的各区域、各台区配电网的发展目标,投入产出模型基于数据包络分析进行客观评
近年来,国家陆续出台了《高校合同能源管理实施指南》、《高等学校节约型校园建设管理与技术导则》等文件,要求全面推进节约型绿色生态校园建设,完善节能措施、加强节能实践