节点频度和语义距离相结合的网页正文信息抽取

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：ChengpCN

【摘要】

：

提出了一种带有节点频度的扩展DOM树模型-BF-DOM树模型（Block node Frequency-Document Object Module）,并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上

【作者】

：

孟军刘秋水王秀坤

【机构】

：

大连理工大学计算机科学与工程系

【出处】

：

计算机工程与应用

【发表日期】

：

2009年1期

【关键词】

：

信息提取带有节点频度的文档对象模型树节点频度语义距离 information extraction Block node Frequency-Docume

【基金项目】

：

国家自然科学基金（the National Natural Science Foundation of China under Grant No.60673039）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出了一种带有节点频度的扩展DOM树模型-BF-DOM树模型（Block node Frequency-Document Object Module）,并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑：在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以

其他文献

乳山湾,塔岛湾增殖中国对虾适宜放流量的研究

根据１９８４～１９９２年乳山湾、塔岛湾中国对虾（Ｐｅｎａｅｕｓｃｈｉｎｅｎｓｉｓ）放流增殖结果，对增殖适宜量进行研究。结果表明：随着放流数量的增加，增殖对虾体生长速度参数下降，二者呈负相关关系，关系式为：ＫＬ∞＝３．７２７ｅ－４．０３２×１０＾－５Ｎ，（Ｒ＾２＝０．８０２）。从开捕时增

期刊

中国对虾放流数量乳山湾塔岛湾资源增殖Penaeus chinensis released number Rushan Bay Tadao Bay

中国对虾病虾体内同工酶表型变化的初步研究

应用对流免疫电泳及核酸探针检测技术筛选感染病毒的中国对虾病虾，采用不连续的聚丙烯酰胺凝胶电泳研究病虾体内工酶的表型变化。用分光光度仪对电泳带扫描分析表明，病虾体内４种

期刊

中国对虾暴发性流行病同工酶表型变化病害诊断Penaeus chinensisexplosive epidemicdisease isoenzyme

试论高校图书馆电子阅览室的管理对网络伦理道德教育的影响

分析了大学生上网现状以及网络对大学生群体影响的基础上,提出了高校图书馆电子阅览室应如何发挥自己的便捷功能,正确管理和引导大学生规范使用网络的教育职能。论述了加强网

期刊

高校图书馆电子阅览室大学生正确引导规范上网网络道德

保证作业下手的热特性实验研究

为获得冷环境下各个手指的温度变化情况,对7个成年人进行了在恒10℃温度装置的实验,结果表明:拇指温度略高于其余手指,其余手指温度基本一致;手指掌面温度略高于背面;手指温

期刊

手指温度场非稳态finger temperature field unsteady

NTRUSign无线认证和密钥协商协议

NTRU是一个快速、低开销的公钥体制，适合在资源受限的应用中使用。NTRUSign是基于NTRU的数字签名算法。基于NTRUSign算法，给出了一个无线认证和密钥协商协议。该协议的安全性基

期刊

无线认证密钥协商安全性NTRUSIGNwireless authenticationkey agreementsecurityNTRUSign

基于DWT／LMS直交自适应算法的非线性系统辨识

针对传统的最小均方(LMS)算法在信号处理中的不足,提出了在变换域LMS算法中实现离散小波变换(DWT)的算法,并给出了基于直交DWT/LMS自适应算法的非线性滤波器的结构.该方法实

期刊

离散小波变换直交自适应算法非线性滤波器非线性系统辨识最小均方算法Adaptive algorithmsComputer simulationCon

唐代宦官礼佛原因再认识

唐代佛教对宦官的影响十分明显。究其奉佛的思想根源，主要有佛教经典中所宣扬的帮助其恢复丈夫相的灵验故事对宦官的吸引，整个唐代社会浓厚的奉佛环境的熏陶，皇帝崇佛等政治因素

期刊

唐代宦官佛教原因Tang dynasty eunuchs Buddhism reason

一种移动机器人的全局动态运动规划方法

将遗传算法用于移动机器人的动态避障运动规划,使机器人在满足速度及加速度约束的前提下,按规划的运动规律运动,在实现动态避障的同时,从起始点到目标点耗时最少.为利用遗传

期刊

遗传算法运动规划移动机器人障碍回避Artificial intelligenceCollision avoidanceComputer simula

航天器交会对接位姿视觉测量迭代算法

针对航天器交会对接过程中利用单目视觉进行相对位姿参数确定问题,利利用由目标航天器上4个非共面设置的特征光标点和追踪航天器上单个CCD相机组成的交会对接航天器单目视觉

期刊

航天器相对位姿单目视觉LEVENBERG-MARQUARDT算法spacecraft relative pose monocular vision

中国对虾糠虾幼体病原菌（非01群霍乱弧菌）的研究

本文对中国对虾糠虾幼体的一种病原菌－非０１群霍乱弧菌作了研究报道。这种症的症状是病虾运动能力差，趋光性弱，镜检发现肠道肿胀。从垂死病虾中分离到５株细菌，经感染健康糠虾幼体得到

期刊

中国对虾糠虾幼体弧菌病Penaeus chinensis Shrimp larvae (Mysis 3) Vibrio cholerae (non -

节点频度和语义距离相结合的网页正文信息抽取

与本文相关的学术论文