基于网页布局相似度的Web论坛数据抽取

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:www_073
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低的不足。该方法充分利用Web论坛网页布局结构上的特点,采用分级处理的方式,先识别出主题信息块、再利用待抽取数据的统计规律在主题信息块中完成抽取,整个过程不需要任何人工干预。实验结果表明,新方法对不同的BBS站点有很好的通用性,且具有较高的准确率和召回率。
其他文献
目的探讨气管狭窄的外科治疗问题.方法分析7例气管狭窄的临床资料,其中2例气促评分4级,合并糖尿病、严重心率失常.先行气管支架置入术前准备.7例均行气管狭窄段切除,气管端端
目的评估国产吻(缝)合器在胃癌根治术中应用的安全性和实用性.方法总结4年中采用国产吻(缝)合器在胃癌根治术中行消化道重建78例,共171次.其中远侧端胃癌根治术59例,近侧端胃
目的探讨鼻内窥镜下鼻中隔矫正术的优点及适应症.方法对87例鼻中隔偏曲患者在鼻内窥镜引导下行鼻中隔矫正术,其中32例合并鼻息肉、鼻窦炎同期行功能性鼻内窥镜手术.结果术后
我院自1986年10月至2003年10月,共收治自发性食管破裂病人22例,取得一些经验和体会,现报告如下.