专利地图服务系统的研究与应用

被引量 : 2次 | 上传用户:mgkmnr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利技术是一个国家地区各行业间竞争的重要筹码之一。基于专利文献等非结构化信息的挖掘和分析形成的专利地图,可以帮助企业了解行业动态并改进现有的技术。此外,因为专利文献多以非结构化的形式存在,并且数量十分庞大,传统方式十分耗时,因此本文利用Hadoop平台的MapReduce框架处理这些海量的非结构化信息。本文在对相应的需求和技术分析后,建立了包括数据采集、文本分类和专利信息可视化三大部分的三层架构,重点是研究文本分类和专利信息可视化两大部分。数据采集主要是人工采集和自动采集,自动采集主要利用网络爬虫技术,根据设定的主题和关键字,定期从数据源处采集数据,并通过网页排重和数据清洗,得到所需的专利文献。考虑到专利文本的特殊性,本文将专利标题和摘要作为专利的原始文本。预处理和分类是文本分类的两个重要步骤,针对专利文本非结构化的特点,本文分析了文本预处理的各阶段包括中文分词、去除停用词、利用信息增益进行特征选择和文本向量化过程,并计算了所需的词频、文档频率等相关的统计量,同时结合MapRedece计算模型,设计实现了将整个文本预处理过程并行化处理的方法,并通过实验表明时间得到了很大的提升。根据本文的特点,对KNN进行了优化,提出了将类中心向量法和KNN相结合的方法,算法的主要思想是,在训练阶段先将专利文献根据均值法取得每个类的中心向量,作为初级分类器,然后测试文献与其进行相似度计算,找到距离最近的M个子类(M为系统手动输入的阀值),然后在将文本与M个子类中的文本进行计算,并用KNN算法找到最近的K个专利文本,以此来判别测试文本的类别,通过降低进行计算的训练文本的数量,减少计算量。本文通过实验也验证了改进算法在不降低准确性的情况下所需的时间比KNN少。专利地图的展示,对分好类的专利文献,采用均值法将其表示成一个类对应一个向量文本即类别—中心向量,然后对各个类别分别进行相似度计算,对取得的值在地图上用线表示,类别表示为地图上的圆圈,从而根据类别间的关系揭示专利之间的关系。最后本文初步实现了专利地图的构建系统,实现了专利的技术网络图,通过专利地图的制作可以全面且方便地为我们提供我们关注领域的专利情况,可以让我们更加清晰的了解该技术领域的专利信息。
其他文献
由于现代经济全球化,英语在人们获取信息和进行国际交流时扮演重要角色。基础教育阶段的英语教育是学生开始接触英语的重要阶段。由于应试的压力,导致了老师在课堂教学过程中
利用机器视觉和人脸识别的地铁分流预警系统,有针对性的将乘客疏导和分流,有效地解决拥堵问题合理利用人力资源,符合智慧城市、智能生活的趋势。
语境教学在第二语言教学过程中至关重要,尤其在非目的语国家。但是,由于目前非目的语国家的语境教学效果不够理想,特别是韩国高中汉语课堂中语境教学的使用频率不高,因此目前
换热器是一种使两种或者多种流体之间进行热量交换的设备,经常应用于石油或者其他化工产品的生产过程中。由于换热器,尤其是列管式换热器应用非常广泛,不同的产品、不同的环
网络广告因具有传统广告无可比拟的优越性而获得了迅速的发展,文章全面分析了网络广告的特点,并对企业可采取的网络广告策略进行了分析与探讨,试图寻求企业提高网络广告宣传
宪法是一个国家和地区的基本法,集中体现着该国家和地区的政治、经济、思想、文化等特点以及本国家和地区政治力量对比关系,还能够起到规定本国根本政治制度、经济制度、文化
在当代建筑室内空间中,自然材料的肌理被广泛运用。随着设计多元化的发展,人们更崇尚文化品质与自然趣味,以及材料使用的低碳生态性,在这种设计趋向下,自然材料肌理的活力被
证据在刑事诉讼进程中扮演着举足轻重的角色,谁掌握了充分有力的证据,谁就能在诉讼中胜利。证人证言作为一种被普遍使用的证据,其在诉讼中扮演的角色无疑很重要,它有助于正确
甲苯是最为常见的挥发性有机污染物之一,针对土壤与地下水挥发性有机污染问题日益严重的现状,本文以甲苯为研究对象,采用原位土柱物理模拟试验,通过降雨与土壤参数监测以及土
长期以来,我国中小学教学存在一个普遍问题,那就是教学应试化,缺乏科学有效性。新时期我国开始推进新课程改革,实施素质教育,要求教师树立正确有效的教学理念,科学的掌握教学