基于标签路径聚类的文本信息抽取算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:liutengyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。
其他文献
针对GVF-Snake模型对虚假边界敏感的缺陷,在原模型基础上提出一种有效梯度向量流外力场的概念,并引入自适应性气球力。有效梯度向量流外力场是对GVF模型外力场的优化,它将演化曲线过程中曲线和梯度向量之间的夹角作为模型的一个新因素,降低演化过程中噪声和虚假边界对演化曲线的干扰。自适应性气球力的引入加快了演化曲线收敛速度。实验结果表明,与原模型相比,新模型曲线在演化过程中对噪音和虚假边界的抗性得到提
以甲基橙的降解为实例研究了TiO2光催化剂的使用活性、失活及再生等问题。在本实验备件下,新制光催化剂对甲基橙的降解率刁为61%;5、6、10、12次使用后,叼分别降至58%、48%、27%、13
随着网购市场与规模的不断扩大,国内百货公司开始建立自己的购物网站,但购物网站的销售不容乐观。对国内外百货公司购物网站的主页设计、商品分类以及商品查找与展示等方面进
针对迁移工作流异常的本地特性和工作位置的体系结构,提出一种基于事件-条件-动作(ECA)规则和案例推理(CBR)的工作位置异常处理模型。该模型采取主动检测和异常检测混合的检测技术