基于语义的林产品贸易Web信息抽取研究

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:wsp1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的迅猛发展以及互联网信息技术的应用普及,信息推送服务在电子商务领域已经得到了广泛的应用。Web信息抽取技术在信息推送过程中实现了对Web信息源的提取和结构化存储,抽取结果直接影响了推送给用户的Web信息质量。林产品贸易领域也随着林产品需求量的持续增长逐渐建立起了自己的网上交易平台和电子商务网站,由于这些网上交易平台或网站发布的信息组织结构不规范,存在许多除林产品贸易供求内容外的页面链接导航和商业广告等信息,不能直接判断出用户感兴趣的内容,从而无法实现林产品贸易Web信息推送服务,因此如何利用Web信息抽取技术从林产品贸易Web信息中抽取用户想要的、感兴趣的内容已经成为林产品贸易Web信息推送服务的一项重要任务。本文针对现有Web信息抽取技术存在的准确率不高、自动化程度较低以及通用性较弱等不足,结合林产品贸易Web信息推送中对Web信息抽取技术的需要,充分分析并利用林产品贸易Web信息的特征,结合语义识别的基本原理,构建林产品贸易语义词典,利用所需抽取的日标信息在网页中的布局特征,结合信息熵理论利用语义信息熵方法对目标信息自动定位,抽取目标信息,在此基础上结合模板抽取方法对未被抽取到的目标信息进行二次抽取,并将所有抽取结果以结构化的形式存储于数据库中。实验结果证明该方法能够降低人工干预,抽取结果完善且准确率很高。论文最后指出了本研究在本领域中存在的不足之处以及需要进一步改进的问题,并将这些问题作为今后的研究方向。
其他文献
亚里士多德认为事物发展的原因有四:物质原因、形式原因、动因和目的因.人类的行为具有一定的目的性,未来对人的吸引比过去对人的激进更重要.备了三十年的课,写过许多教学目
随着经济全球化的发展和高科技领域技术创新的竞争加剧,知识产权已经被各个国家和企业作为重要的战略性资产对待,在专利和标准化领域的竞争也越来越激烈,而技术专利与技术标准的
无论是在针对全体公民的科学传播和科学普及中,还是针对中小学生的科学教育中,科学素养都是一个涉及到目标确定、内容规划和评价监测的重要概念。两个领域的众多研究人员和实践
条带法开采是解决“三下”压煤问题的主要途径之一。目前,对于条带开采时条带煤柱的稳定性研究还不够。文中,对煤柱稳定性进行了试验研究,探讨煤柱受力状态,分析煤柱的合理尺寸,为
矿石的镜下结构研究进一步确证,挪威加里东造山带块状硫化物矿床中的磁黄铁矿绝大部分是沉积-成岩作用的直接产物,并在其形成之后经历了多期次的变形和退火。还有一部分磁黄铁矿
由于横断山的阻隔,形成了云南封闭半封闭的地理环境,也因此而形成了人文环境中的意识横断,超稳态的文化结构,多民族杂居带来的文化融合,“慢半拍”的生活节奏和观念意识,形成
在当今国际社会,“汉语言”正日渐升温,汉语言愈来愈受到西藏农牧区人们的重视.我国的汉语言文化源远流长,中国的诗词艺术、书法绘画、文学作品都集中地展现了汉语言文化的博
我国是一个多民族的大国,各民族的风俗习惯蕴涵着本民族丰富的生活色彩和生动的文化底蕴.特别是我们西藏孕育着深厚的民族文化、这些丰富的民族文化在当地精神文明建设和社会
心理教育课不同于一般文化课,特别是小学心理健康课,面对的学生思想单纯,所以它的授课方式有着一定的特殊性,其授课内容、方式、语言等等都与一般的文化课有很大的区别.而且
作为2011成都双年展的特邀展之一,A4当代艺术中心继上月底举办“光谱:当代独立动画”展后,“2011A4独立动画电影周”又在10月12日在四川大学江安校区拉开帷幕。本次电影周分为“