【摘 要】
:
网页新闻正文自动抽取属于信息抽取领域中的重要研究问题,现有基于行块分布进行新闻正文自动抽取的方法对短文本段落的新闻正文抽取效果较差。为了改善这种现状,提出了一种改
论文部分内容阅读
网页新闻正文自动抽取属于信息抽取领域中的重要研究问题,现有基于行块分布进行新闻正文自动抽取的方法对短文本段落的新闻正文抽取效果较差。为了改善这种现状,提出了一种改进的中文静态网页新闻正文自动抽取算法。该方法给出了较好的行块分割策略来构建行块分布函数,并提出使用最长公共子序列作为新闻正文内容起始行块和结束行块的快速定位方法的判别准则。最后在1 000个新闻网页上对算法的性能进行了实验验证,得出新算法的平均抽取准确率为95. 0%,平均召回率为96. 54%,正文平均遗失率为1. 6%,抽取单个网页的平均耗时为0. 13 s。实验结果充分说明了新算法能适应大规模的网页新闻正文自动抽取任务。
其他文献
目的分析下呼吸道病患痰标本中产ESBLs菌株的分布情况,并对菌株的耐药性进行分析.方法将2017年6月-2018年6月我院收治的下呼吸道感染患者的200份痰标本作为研究对象,对分离出
钢构架是锅炉的承力部件,它支撑锅炉本体的重量,并抵御地震、风及炉膛额定爆炸力等荷载。就金属耗量而言,一台300MW锅炉重量在7000多吨,构架重量约占总重的1/3,所以钢构架是
本文提出了一种基于柱状全景图的空间漫游视图拟合算法。其核心是基于固定点柱状全景图之间的空间关系并通过图像拼接技术和图像混合技术生成任意视点下图像。为实现漫游行进中视图信息的合理过渡,设计了固定视点柱状全景图分割后各部分的图像映射关系。实验证明该漫游策略可以满足虚拟漫游的实时性要求,同时具有规模扩展性。
信息论是数据挖掘技术的重要指导理论之一,是决策树算法实现的理论依据。决策树算法是一种逼近离散值目标函数的方法,其实质是在实例学习的基础上,得到分类规则。本文简要介绍信
提出了一种基于CAN总线和RS485总线的变频器控制系统。系统设计了以C8051F040单片机为核心的智能测控仪表,通过CAN总线组成的现场网络与远程控制中心实现数据交换,接受控制中
本文主要介绍网络代理程序的基本原理,代理服务器的工作过程,TELENT协议,SOCKS5工作流程,并通过一个基本的TELNET代理程序和SOCKS5代理客户端程序来说明客户端和服务器端的实现方
Web中数十亿的商品规格信息的自动挖掘,对电子商务领域的市场分析、商品推荐、售后服务等诸多领域有重要的应用价值。但目前的商品规格信息抽取方法尚未有效解决人工标注工作
<正> 一、以邓小平理论、党的十五大精神和江泽民总书记视察新疆和兵团时的讲话精神为指导,不断探索兵团工会工作新路子。邓小平理论是指导我们党的各项事业蓬勃发展的科学理