基于HTML Parser的BBS信息抽取系统的设计与实现

来源 :自动化技术与应用 | 被引量 : 0次 | 上传用户:wenmin673594913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对目前BBS信息爬取时网页噪声严重的特点,研究BBS信息抽取的实现。应用ITTML Parser平台以及正则匹配技术,实现BBS信息的抽取、存储。设计建立了包含网页抽取模块、网页解析模块、数据库存储模块组成的信息抽取系统。实验结果表明,此方法能有效抽取BBS信息,减少网页噪声的干扰。
其他文献
经过十多年的发展,社会组织评估走到了一个方向性选择的路口。它所面临的问题有技术层面的原因,但更多的是制度结构层面的原因。评估信息失真、评估吸引力不足、评估公信力不
近日,阿根廷西北部一处墓地发现了一副3000年前铜质面具,与面具一同出土的还有14具人类遗骸。铜面具长约17.8厘米,宽约15.2厘米,
在大量文献检索的基础上,综述了花蕊石的形态、成分、养生保健价值以及注意事项,以期为全民保健提供参考资料。
局部软组织封闭注射是骨科和软伤科治疗疼痛的常用方法和手段,治疗效果好,可使患者疼痛症状在短时期内明显减轻。局部软组织封闭注射是一种无菌操作技术,在严格无菌操作下极少发
基于重庆市1500户农村居民连续跟踪调查数据,运用描述性统计法对比分析了农户对农村社会医疗保险满意度,同时建立多元回归模型、采用加权最小二乘法(WLS)实证分析了不同视角
为了进一步顺应社会发展的需求,有效提升软件工程管理效率,努力加快软件工程与CMM的融合,也是软件产业发展的必然趋势。本文在对软件工程发展历程及发展现状进行分析的基础上
识别文档图像中的文字,有助于人们管理和使用信息。MODI作为Microsoft Office内建的免费文字识别组件,使开发人员可以方便地,以较低的成本处理文档图像。本文通过研究MODI组件的OCR模块的特点和二次开发,以及与其他商业OCR软件的对比,验证了MODI在文档图像处理方面具有较高的可靠性和应用价值。
介绍了五电平拓扑下的直接瞬时转矩控制原理,在此基础上,建立基于五电平的开关磁阻电机直接瞬时转矩滞环控制策略Matlab/Simulink仿真模型,重点介绍转矩滞环控制器、开关表的
介绍磁控式动态无功补偿装置(MSVC)的结构组成,重点划MSVC控制系统进行分析,通过在某矿区变电站的应用,证实MSVC控制可靠,能稳定系统电压,功率因数高,损耗少,谐波低,供电质量明显改善,保
提出了一种可以实现红外全景环形光谱成像的新型傅里叶变换成像光谱仪结构,该成像光谱仪以共焦双曲反射镜组作为全景环形集光器,利用Schwarzchild物镜进行准直,结合弹光调制