【摘 要】
:
在分析Web页面文档对象基础上,提出了一种通过网页DOM树路径进行采集区域定制的算法,进而实现网页信息的定时或实时自动抽取。基于该算法过程,以中国船舶市场研究中心需求为
【机 构】
:
南京信息工程大学计算机与软件学院,东南大学计算机科学与工程学院,
论文部分内容阅读
在分析Web页面文档对象基础上,提出了一种通过网页DOM树路径进行采集区域定制的算法,进而实现网页信息的定时或实时自动抽取。基于该算法过程,以中国船舶市场研究中心需求为例,采用SSH(Spring、Struts和Hibernat)技术框架设计并实现了一个信息采集系统,其执行过程分为网站信息源定制、网页信息抽取和信息管理3个过程;采集后的信息将存放在关系数据库和文件系统中,以便支持查询和其他扩展应用。系统经运行测试可对大多数船舶行业网站进行信息抽取,且抽取效果良好。
其他文献
程序性死亡受体1 (programmed cell death protein 1, PD-1)是一种重要的免疫抑制分子,其通过与细胞程序性死亡-配体1 (programmed cell death 1 ligand 1, PD-L1)结合启动T
本文根据西安旅游产业现状和当今旅游产业发展趋势,提出了把医疗旅游作为西安旅游产业发展新模式的主张,分析了医疗旅游的特点、发展空间,并应用社会网络分析方法构建了医疗
<正>提高人的素质,必须加强学习,这已成为部队广大官兵一致的共识。然而,在现实生活与工作中,要做到持之以恒,真正学有所钻,学有所成,却很不容易。为什么对学习难以做到持之
阅读是一个自下而上加工与自上而下加工的结合的过程,即材料驱动与概念驱动的有机结合的过程,而在二语阅读中这两种过程是相互作用的。通过中英文阅读的测试对比发现母语的阅
目的探讨多发性脑梗死患者的梗死灶数目及位置对老年患者认知功能障碍的影响。方法选择2006年—2008年在本院神经内科住院的220例老年脑梗死患者。根据磁共振成像(MRI)表现计
通过参考和研究题库理论,采用经典测试理论模型,应用Active Server Framework技术,给出了一个基于Internet分布式应用程序技术的三层结构B/S模式的高校通用题库系统。 该
<正>随着中小学普及信息技术教育进程的加快,越来越多的农村中小学配备了多媒体教室。因此信息技术在初中数学教学中的应用就越来越广泛,越来越重要。在此谈谈我对农村
本文对当前世界涂料工业动态作了简单概括,并对新世纪涂料技术发展趋势进行了阐述。
<正> 小学语文教学大纲指出“小学语文教学的目的,是指导学生正确地理解和运用祖国的语言文字”。那么,教师怎样指导才能使学生做到“理解”和“运用”呢?刘献翠老师在教学中