Web新闻发表时间在线抽取方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:xieqi509
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web搜索中,网页的发布时间起着十分重要的作用,因为搜索的返回结果通常都是基于时间的。此外,Web新闻的发表时间也常用来定位新闻事件的发生时间并用于进一步追踪新闻事件进展。然而,Web新闻网页多源、海量、异构的特性使得发表时间的格式千差万别,而且新闻网页中除了发表时间以外还包含其他时间信息,如网页正文以及相关推荐中的时间信息。因此,Web新闻发表时间的抽取问题具有重要的研究意义和应用价值。实例分析发现,Web新闻网页的发表时间分布与该新闻网页的链接URL地址和其对应的DOM解析树中的文本节点有着潜在关联,为此,本文探索了基于网页链接URL和DOM树文本节点的在线Web新闻发表时间抽取问题,并展开以下研究:(1)根据Web新闻网页的URL地址隐含时间信息以及Web新闻发表时间是该网页相应HTML文件的DOM解析树的其中一个文本节点的内容这两条重要线索,设计了一种基于规则的在线Web新闻发表时间抽取方法。首先,为了区分时间节点与非时间节点,统计了大量Web新闻网页实例并进行分析,挖掘出二者的特征与不同之处并作为规则和限定条件用以从大量文本节点中抽取时间节点;其次,为了从URL以及时间节点中抽取时间信息,构建了用于抽取Web新闻发表时间的正则表达式。实验结果表明,该方法是一种高效的Web新闻发表时间在线抽取方法。(2)鉴于基于URL抽取出的时间信息不够精确(仅能精确到日期),为提高Web新闻发表时间抽取的精确度,设计并实现了一种基于文本节点特征融合的在线Web新闻发表时间抽取方法。该方法把抽取目标对准文本节点,深入挖掘与分析时间节点和非时间节点的各种特征,构建了文本节点特征系,然后进行特征选择与特征融合,构造出一个区分能力更强的综合特征,用以从文本节点中精准地抽取出时间节点,进而从时间节点中抽取出Web新闻网页的发表时间并规范化输出。实验结果表明,该方法是一种精确的Web新闻发表时间在线抽取方法。
其他文献
以NPP-VIIRS夜间灯光为数据源,对河北省各地级市能源消费数据与夜间灯光数据进行相关性分析,确定相关系数最高的二次多项式模型作为能源消费的回归模型,根据夜间灯光数据计算
污水再生回用在中国有着巨大的市场空间,以缺水的北京为例,已经全面启动8个污水厂的再生水回用工程,且出水指标参照国家地表水Ⅳ类标准制定北京市再生水回用标准,再生水将成为充
为节约宝贵的化工原料——纯碱。本文从工业生产的角度,阐述了以价廉易得的硫酸钠代替纯碱生产硅酸钠的工艺配方、工艺条件、主要设备、窑炉的结构及实际生产中的操作要点和
选择合适的预测模型来预测物流需求,对升级和优化物流产业具有重要的战略意义。常见的物流预测方法有:增长率法、移动平均法、时间序列法等,由于实际的物流预测数据常常具有多
目前,供外国汉语学习者使用的汉英学习词典数量不多,其中的语用信息比较缺乏,不够系统。因此,为他们编写的学习词典中系统地提供语用信息非常必要。为了提供汉语语用知识,词
中国共产党政治协商文化内涵丰富,是对中国共产党的核心领导地位、新型政党制度中政党互动和政党关系等的心理感知和行为展现。它潜藏着"由心到行"的价值逻辑,即中国共产党政
少数民族习惯法是少数民族日常生活中不可缺少的组成部分,是约束日常行为规范,维护有序状态的重要依据。文章以壮族习惯法“寨老制”为例,就村民自治的特点分析论述了少数民
<正>中国建材联合会——党组织引领上下联动坚决打赢疫情防控阻击战当前,疫情防控进入更复杂、严峻的关键时期,中国建材联合会坚决贯彻落实习近平总书记在中央政治局常委会上
在区域种植产业结构调整中,需提出具有可行性的项目,以推动产业的可持续发展。本文结合安泽县实际情况,对草莓种植项目的可行性进行了分析,从气候条件、草莓经济价值、规模种
“一带一路”倡议和“16+1合作”提出以来,中国农产品贸易发展迎来新机遇。中国作为农产品贸易大国,农产品进出口贸易规模大,但市场结构不平衡、不合理,极易遭到贸易伙伴国农业结构调整、贸易壁垒、农产品价格波动及周边国家同类型农产品激烈竞争等因素的冲击。而中国积极与中东欧国家在“一带一路”及“16+1合作”框架下开展农产品进出口贸易能够起到分散市场风险、开拓农产品贸易新市场、保障农产品有效供给、满足高品