论文部分内容阅读
区域创新作为一个新兴的创新体系越来越受到我国政府的重视,而区域创新面临的最大问题就是专家引进问题。专利文献作为信息技术和专家信息的有效载体,可以为区域创新提供有效的人才信息。专利地图是一种重要的专利分析工具,能够将杂乱无章的专利信息进行归纳、分类以及分析,并将结果以图表的形式展示出来,尤其是专利地图中的发明人分析图和专利权人分析图可以很好的分析某一技术领域的人才信息的分布,从而为政府提供有效的人才引进方案。国内外对于专利地图的研究很多,研究的内容已经从传统的专利地图研究逐步过渡到对专利内容本身的研究。但是这些研究大多是基于传统的向量空间模型,使用的数据挖掘方法较为简单,对专利内容本身的挖掘不够深入。除此之外,对于发明人和专利权人分析图的研究较少,仍然处在传统的专利地图范畴,无法从不同的技术角度来分析专家信息。为此,需要通过专利聚类的方法对发明人和专利权人分析图进行深层次的研究。本文的主要研究和贡献如下:(1)提出了基于N-gram、TF-IDF与Word2Vec相结合的特征工程方法。N-gram模型可以对专利摘要和标题进行关键词的提取,接着使用TF-IDF与Word2Vec相结合的方法对专利文本向量进行计算,最终得到专利文本向量矩阵,为下一步的聚类提供了输入。(2)在得到专利文本向量矩阵之后,使用K-means聚类算法对专利文本进行聚类分析,并与传统的特征工程方法,比如:LDA、LSA和VSM模型进行实验对比。实验表明,本文使用的特征工程方法可以很好的完成文本聚类。(3)在聚类结果的基础上进行发明人与专利权人分析图和专利散点地图的研究,并制定了绘图方案和绘图手段,最后使用Echarts来进行专利地图的绘制。本文设计并实现了一个可以对发明人和专利权人进行分析的专利地图软件系统,实验结果表明本系统可以较好的制作发明人与专利权人分析图并提供直观的分析结果。本系统中所使用的特征工程方法可以提高聚类的准确性,具有一定的应用价值。