论文部分内容阅读
网络使得数据量飞速增长,海量的专利数据不断的涌入人们的生活。现如今企业需要了解相关的专利情报信息,以制定更加精确的发展战略,可一些隐藏在专利文献中的信息并没有得到充分的利用,传统的基于人工统计的分析方法忽视了它们的存在,专利分析报告中也只是一些人工手动统计的分析结果。因此,本课题通过调研我国专利信息分析的发展现状,在数据统计分析的基础上,计算其技术发展参数的变化。除此之外,挖掘潜藏在专利文献中的可利用的信息,主要集中在专利主题的提取和专利文献的自动分类。为了弥补传统专利分析报告内容的单调贫乏和自动化书写,本研究还致力于丰富专利分析报告内容,实现报告的自动写作系统。为了得到更多相关的专利数据以及完善专利检索的性能,调研了专利查询词扩展对结果的影响。基于词典和百度平台得到的扩展词集,虽然得到的结果较为全面却不够精确,相关反馈与此相反。综合各个方法的优缺点,提出了词典与相关反馈相结合扩展查询的方法,其召回率和精确率均得到了一定的提升。基于爬虫技术得到专利数据时,为了优化仅通过计算技术发展参数来预测成熟度的做法,加入了新的衡量参数,即技术创新度。它的计算加入了对文本相似度的分析,并对本数据集从不同角度的分类来计算技术创新度。为了探讨每年专利申请量的变化趋势,使用时间序列预测算法对得到的数据序列进行处理,指数平滑与ARMA取得了较好的效果,并验证了生命技术因子的确对数据序列的预测产生了影响。专利的IPC号并不是唯一获取主题的方法,在专利文献集合中,应用文本主题提取算法,可以得到更有针对性更加细致的技术主题关键词。本文在已得到的数据集应用了Text Rank、LDA以及TFIDF三种算法,以反映主题的程度作为衡量,Text Rank取得了0.63,虽高于0.55的LDA,但其过于依赖单文档。通过调节LDA选取的初始主题数,发现当设置其为4时,困惑度最小。对于专利文档的自动分类,在大类别上的实验结果均小于等于0.7,在小类别上的实验效果明显提升,其衡量值最低也接近0.7,其中k NN的R值达到了0.88。基于已有的研究成果,本课题为使其更贴近实际生活应用,探讨了专利分析系统的实现,并辅助用户实现专利分析报告的写作。