一种基于标签路径聚类的文本信息抽取算法

来源 :计算机应用与软件 | 被引量 : 1次 | 上传用户:wtxsing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法。该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页.分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站实验表明,该方法获得快速和较高准确度的效果。
其他文献
病历数据性质特殊 ,一般数据模型用于其管理比较困难 ,因此需要研究寻找适合的特殊数据模型。病案首页是病历的一种摘要 ,病历数据的许多特性均反映到病案首页中。本文将介绍一种应用稀疏数组存储病案首页的存储结构设计 ,以及基于稀疏数组的病案首页系统如何利用稀疏数组的特性 ,使存储结构既能保证长久数据的应用连续性 ,又能不断适应结构变化 ,同时介绍其独特的数据存储体系和数据备份方案