基于模板化的Blog信息抽取

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:hualing_xue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Blog(博客)可以称为在线个人日志。作为一种新兴的媒体,Blog目前已经成为一种在Web上表达个人观点和情感的一种非常流行的方式。那么如何从Blog中快速准确地抽取有用的信息(话题发布时间、话题题目、话题内容、评论内容等)就成为了Blog应用中一个非常重要的步骤。提出了一种基于模板化的Blog信息抽取方法,该方法通过分析Blog网站的HTML源代码,然后提取出网站的模板,并根据该模板对Blog网页进行信息抽取。对来自国内10个著名博客网站进行模板的提取,并对这10个网站中的7374个Blog网页进行了实
其他文献
因为传统GDP无法衡量经济伦理中的资源消耗多少、生态环境状况、经济效益高低、资源配置优劣、分配公正与否、幸福指数高低等等的局限性,仅单纯追求GDP增长带来的种种经济和社
经济全球化浪潮促使我国饮料工业的产业结构在全球范围内调整升级,生产要素在全球范围内优化配置,企业体系在全球范围内联合重组,消费市场在全球范围内拓展延伸,产业组织在全
目的探讨冠心病合并非酒精性脂肪性肝病(NAFLD)患者胃饥饿素(Ghrelin)/肥胖抑制素(obestatin)比值变化及临床意义。方法收集冠心病患者112例作为研究对象,根据是否合并NAFLD
目的:了解某医科大学本科生课外科研活动的开展情况,为学校课外科研教改管理提供依据。方法:采用随机抽样调查的方法对某医科大学的367名学生进行自填式问卷调查。结果:所调查大
防伪技术是一门涉及光学、化学、物理学、电磁学、计算机技术、光谱技术、印刷技术、数码技术、包装技术等诸多领域交叉的学科.常用的防伪技术有防伪油墨、防伪纸张、防伪不
针对面向对象的XML数据的对象迁移问题,提出基于集中式和分布式两种存储模式下的对象迁移方法,解决了对象标识符模糊性问题。集中式存储模式对象的OID是唯一的,但是在集中式
摘要:当今时代,是我国高新科技迅猛发展、物质财富高速增长,中华民族日益走近世界舞台中央、不断为人类做出更大贡献的崭新时代。科教兴国一直是我国的基本国策,党的十九大报告更明确了建设教育强国是中华民族伟大复兴的基础工程,必须把教育事业放在优先位置。然而科学教育和人文教育发展的不平衡却是各国普遍存在并随之带来一系列社会问题的世界性难题。整合科学教育和人文教育,提高大学生的人文素质是我国当前高等教育改革的