【摘 要】
:
Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高
【机 构】
:
天津大学计算机科学与技术学院,天津大学管理学院
论文部分内容阅读
Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性。
其他文献
目的:研究报道CSN(COP9 signalosome)信号小体家族中的CSN6在胶质母细胞瘤中过表达与肿瘤进展密切相关,同时有临床数据证明抑制PD-1/PD-L1免疫治疗策略可能为胶质母细胞瘤的治疗提供新的思路。CSN信号小体可能与肿瘤相关蛋白的泛素化调节相关,有研究证实CSN家族成员可以使PD-L1蛋白稳定性增加引起乳腺癌的免疫逃逸。但是CSN6是否通过影响PD-L1蛋白的稳定性,进而调控胶质
随着我国经济的高速发展和城市人口的不断增加,城市生活用水和排水量越来越大,大量的污水未得到完全的处理就排入水体,使得一些作为水源水的水体出现微污染。 本课题是针对目
中国不可能完全抛弃其自身的传统而成法治国家,而中国古代的法律传统在司法活动中有着最为直接的体现,并且有的传统至今仍影响着我们的生活.<名公书判清明集>收集了大量的宋
意识形态领域,网络如同"双刃剑"。网络新技术的迅猛发展,使意识形态传播拥有了新的技术载体与新的传播渠道,增强了意识形态的辐射力和影响力;网络作为多维传播工具,使意识形
传统的瓷砖粘结固定方法主要是应用玻特兰水泥砂浆,即首先在瓷砖的背面涂复10到25mm厚的水泥砂浆,然后将其按压在工作位置,这就是人们称之的“厚床”法。这种方法逐渐被“薄
生物衰老(aging)是自然界一种复杂的、具有不同器官和系统的一系列特定变化的生命现象,它是生命运动的自然过程,存在于任何生命的任何时期,只是不同情况下其速率与程度有所差
从可溶性蛋白指数估算菜籽饼粕氨基酸利用率中国农业科学院畜牧研究所李建凡菜籽饼粕是我国重要的蛋白质饲料资源。菜籽饼粕蛋白质含量在35%~40%之间,但由于加工工艺的差异其质量相差
对修正案表决程序和顺序表决程序在相互偏好信息完全不知和相互偏好信息完全已知这两种情况下的投票次序效应进行了研究 ,分析了具有不同偏好的投票人在不同偏好信息假设下的
中草药具有防病保健、促进生长、几乎无残留和无耐药性的优势,在大力发展绿色产品,追求产品品质的发展趋势下,中草药作为一种绿色添加剂逐渐引起人们的重视。文章综述了中草
在世界文化多元共生的时代背景下,中国传统文化是实现我国民族梦、国家梦之本源,是提升国家软实力之根基。作为中国传统文化之核心,儒学延绵数千年,在我国传统社会意识形态领域占