【摘 要】
:
随着计算机的普及和互联网的发展,网络已成为人们查找信息的重要渠道。Web作为巨大的数据源,从Web中抽取信息是当前信息研究的热点之一。随着我国高校招生规模逐年扩大,给高校学
论文部分内容阅读
随着计算机的普及和互联网的发展,网络已成为人们查找信息的重要渠道。Web作为巨大的数据源,从Web中抽取信息是当前信息研究的热点之一。随着我国高校招生规模逐年扩大,给高校学生的培养及就业带来了诸多压力。我们希望从互联网上获得大量的就业信息,对专业建设和就业有一定的指导意义。互联网的这些海量信息中,大多都是半结构化的HTML格式。HTML结构的文本并不严格,语义也不清晰,人们无法快速准确地找到需要的信息,所以如何快速准确地获取这些数据是亟待解决的问题。因此,我们分析了就业信息网站中HTML网页的特点,提出一种新的基于HTML结构的Web就业信息抽取模型。该模型由HTML结构预处理模块、表格定位模块和信息抽取模块三个模块组成。首先我们利用JTidy对获取的Web页代码进行清洗并转化为XML文档。再经过XML解析获取Web页的DOM树。最后通过大量的观察,我们形成启发规则来定位“真”表格,设计实现了算法;考虑到表格的跨多行、跨多列的布局会导致各个数据单元和相应属性无法一一对应,本文对表格进行标准化处理,使每一行或列都具有相同数目对齐的单元格。在多个网站进行实验的结果表明,本文提出的Web信息抽取方法能够有效地抽取网页中的就业信息数据。对于Web就业信息抽取和指导今后进一步的研究方向等方面都有着重要的意义。
其他文献
党中央关于推进国家治理体系和治理能力现代化的科学论断,是当前国家治理的行动指南。我国正处于海洋事业快速发展阶段,海洋治理环境日益复杂,这不仅需要我们在技术上占领制
目的:随着人口老龄化进程的加速,中国社会逐步进入老龄社会。一系列的老龄问题接踵而来,老年抑郁就是对老年人的晚年生活影响较大的一种疾病,对社会、家庭都有巨大的影响。本
目的:1.观察乌灵胶囊治疗伴有情绪障碍慢性耳鸣的有效性及安全性;2.评估慢性耳鸣的严重程度与情绪障碍及睡眠的关系;3.评估乌灵胶囊对于耳鸣症状及焦虑、抑郁和睡眠的改善情况。方法:选取2017年12月至2019年3月在延安大学附属医院耳鼻喉科门诊就诊的80例伴有情绪障碍的慢性耳鸣的患者,随机分为实验组及对照组,实验组男性23例,女性17例,平均年龄45.15±13.040岁,病程13.95±12.4
建国以来,语文课程改革在不断地进行着。工作在语文教育第一线的教师自觉地为这场改革付诸实践,进行探索,并为之取得了一定的成效。其中,窦桂梅更成为全国小学语文课改的领军人物
语境是人们运用语言进行交际时的各种语言环境。它不仅指上下文语境,还包括情景语境、社会文化语境与认知语境。并且,随着时间和空间的变换,人的心理认知能力也会随之改变。
随着张艺谋电影《金陵十三钗》(2011)的热映,人们积极而热情地讨论着剧中的“十四位妓女”,进而引起大众对于妓女这一特殊群体的广泛关注。2012年又一部描绘秦淮八艳之一的电
用CuSO4、H2O2、NaClO和HgCl2四种化学消毒剂对小桐子种子进行表面消毒,探讨不同消毒剂对小桐子种子萌发和幼苗生长的影响,结果表明:CuSO4消毒不仅效果好,而且还可以提高种子
徐志摩是中国现代文学史上重要的作家。他的留美留欧经历及所处的与传统文化决裂的“五四”时代 ,使他的诗艺深受西方诗学的影响。但是徐志摩对中国传统文化与诗歌有着精湛的
依据《体育传统项目学校管理办法》的基本理念,采用文献资料法、问卷调查法、专家访谈法、数理统计法、逻辑分析法,就成都市跆拳道传统项目学校的开展现状,对16所跆拳道传统项目