一种基于标签路径聚类的文本信息抽取算法

来源 :计算机应用与软件 | 被引量 : 1次 | 上传用户：wtxsing

【摘要】

：

针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法。该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页.分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站实验表明,该方法获得快速和较高准确度的效果。

【作者】

：

刘云峰

【机构】

：

山西工程职业技术学院网络电教中心

【出处】

：

计算机应用与软件

【发表日期】

：

2010年11期

【关键词】

：

XPATH 网页分割信息抽取聚类阈值 Xpath Webpage segmentation Information extraction Clust

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

应用稀疏数组存储病案首页数据研究

病历数据性质特殊 ,一般数据模型用于其管理比较困难 ,因此需要研究寻找适合的特殊数据模型。病案首页是病历的一种摘要 ,病历数据的许多特性均反映到病案首页中。本文将介绍一种应用稀疏数组存储病案首页的存储结构设计 ,以及基于稀疏数组的病案首页系统如何利用稀疏数组的特性 ,使存储结构既能保证长久数据的应用连续性 ,又能不断适应结构变化 ,同时介绍其独特的数据存储体系和数据备份方案

期刊

病历管理医疗过程数据模型病案首页数据稀疏数组计算机管理医院管理Sparse array Master page of medical record

一种基于标签路径聚类的文本信息抽取算法

其他学术论文