基于主题描述模型的相关性判断在网页信息抽取中的应用

来源 :情报学报 | 被引量 : 0次 | 上传用户:hutianyi199052
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取是从海量网页获取有价值信息的重要方式,对目标网页内容进行主题相关性判断是提高信息抽取效率和准确性的关键环节.目前的相关性判断主要采用人工筛选和文档训练的方法,这其中存在效率低、重复训练等问题,而本文尝试针对抽取任务引入主题描述模型用于网页内容的主题相关性判断.从任务的主题描述模型的角度出发,计算模型中的关键词基于标记信息的加权频率,将网页内容进行量化表示,然后分析关键词加权频率关于任务主题描述模型的变化来判断网页内容的主题相关性.最后通过对比该方法在国防产品信息抽取中结果,实验证明该方法大大提高了
其他文献
在不影响实际设备使用的前提下,基于储能的需求响应旨在通过平缓需求曲线,减轻电网压力、降低整体发电成本。此外,储能也有希望促进新能源的并网。以纽约城市大学能源研究院开发
文章首先简述了六西格玛管理的应用,进而详细分析了实施六西格玛管理中的人才配备陷阱、项目管理陷阱、实施力度不够陷阱以及急于求成的心态这4个方面的常见陷阱,以帮助企业搬
采用正交试验设计,通过制作石蜡切片以及光学显微观察系统研究了植物生长调节剂对油茶芽苗砧嫁接愈合及嫁接苗成活的影响。结果表明:GGR6、IBA、芸苔素内酯能够明显促进愈伤组
目的探讨艾司奥美拉唑治疗2型糖尿病合并胃食管反流病临床疗效。方法 92例确诊为2型糖尿病合并反流性食管炎患者,随机分为治疗组和对照组,对照组给予奥美拉唑(国产)每次20mg,每
<正> 全球化、市场化、世博会是长三角热的三个基本动因。而长三角作为一个板块的迅速崛起,以及苏浙沪三省市新的经济关系及各自的战略取向,最终使“合作”成为一种内在冲动
用图结构表示文本,能更好地反映文本内部的结构特征,体现文本内的语义关系及词语在上下文中的语序关系,在此基础上,本文提出了一种基于最大公共子图的文本相似度计算方法,应
摘要微博机制和转发预测是当前学术研究的一个热点,具有重要的科学研究意义和经济社会价值。本文总结了基于图论的微博机制,对微博转发优化查询算法和预测技术的最新进展进行了
本文采用人工免疫算法进行关联规则挖掘,通过权值设置发现在事务数据集中有意义的二进制关系,将挖掘工作集中在那些有着特殊权值的有意义的关联项,避免了挖掘工作在大量的无