论文部分内容阅读
专利技术是一个国家地区各行业间竞争的重要筹码之一。基于专利文献等非结构化信息的挖掘和分析形成的专利地图,可以帮助企业了解行业动态并改进现有的技术。此外,因为专利文献多以非结构化的形式存在,并且数量十分庞大,传统方式十分耗时,因此本文利用Hadoop平台的MapReduce框架处理这些海量的非结构化信息。本文在对相应的需求和技术分析后,建立了包括数据采集、文本分类和专利信息可视化三大部分的三层架构,重点是研究文本分类和专利信息可视化两大部分。数据采集主要是人工采集和自动采集,自动采集主要利用网络爬虫技术,根据设定的主题和关键字,定期从数据源处采集数据,并通过网页排重和数据清洗,得到所需的专利文献。考虑到专利文本的特殊性,本文将专利标题和摘要作为专利的原始文本。预处理和分类是文本分类的两个重要步骤,针对专利文本非结构化的特点,本文分析了文本预处理的各阶段包括中文分词、去除停用词、利用信息增益进行特征选择和文本向量化过程,并计算了所需的词频、文档频率等相关的统计量,同时结合MapRedece计算模型,设计实现了将整个文本预处理过程并行化处理的方法,并通过实验表明时间得到了很大的提升。根据本文的特点,对KNN进行了优化,提出了将类中心向量法和KNN相结合的方法,算法的主要思想是,在训练阶段先将专利文献根据均值法取得每个类的中心向量,作为初级分类器,然后测试文献与其进行相似度计算,找到距离最近的M个子类(M为系统手动输入的阀值),然后在将文本与M个子类中的文本进行计算,并用KNN算法找到最近的K个专利文本,以此来判别测试文本的类别,通过降低进行计算的训练文本的数量,减少计算量。本文通过实验也验证了改进算法在不降低准确性的情况下所需的时间比KNN少。专利地图的展示,对分好类的专利文献,采用均值法将其表示成一个类对应一个向量文本即类别—中心向量,然后对各个类别分别进行相似度计算,对取得的值在地图上用线表示,类别表示为地图上的圆圈,从而根据类别间的关系揭示专利之间的关系。最后本文初步实现了专利地图的构建系统,实现了专利的技术网络图,通过专利地图的制作可以全面且方便地为我们提供我们关注领域的专利情况,可以让我们更加清晰的了解该技术领域的专利信息。