论文部分内容阅读
文章通过对现有技术成熟度评估相关研究的国内外现状进行考察,对技术结构、技术术语和技术关系抽取以及技术成熟度三方面进行归纳总结,并以此为背景阐述了研究技术结构的意义,认为现有宏观的结构无法很好地解释技术的成熟度,需要从微观层面解读某项技术的要素及要素间的关系,由此解释技术的结构。因此,文章从技术术语和技术术语关系的角度来阐述技术结构,探讨了利用技术结构分析技术成熟度的可行性。 首先,主要介绍了本文研究内容所要涉及的相关技术。包括命名实体识别、技术术语抽取、技术关系抽取,并对数据进行了预处理工作,为本文的技术路线做了一个梳理,为后续研究进行了数据的清洗和准备。 其次,开发了化合物和生物实体识别系统,并用已标注好的化合物相关专利文档进行了实验。本文将命名实体识别问题视作序列标注问题进行处理,采用条件随机场的方法,选取了十个特征进行化合物实体和生物实体的命名实体识别。另外,结合布朗聚类作为条件随机场模型训练的一个特征,提升了命名实体识别的实验效果。同时,针对数据集的类别数量不平衡情况进行了过采样和欠采样处理,极大提升了实体类别的识别效果。此外,系统还利用了一些开源的自然语言处理工具包,为了使之符合专利语料的要求,系统在代码上做了一些修改,增加相应的规则。同时运用十折交叉验证的方法进行训练、测试和评价,得到69.0%的F1值,并对实验结果中出现的FP结果进行了错误说明。 第三,阐述了关系抽取的相关内容,并在相应的实验语料上做了说明。在实验中,本文使用了布朗聚类的结果作为上下位关系,另外采用了MiniBatchKMeans方法,对一些网络扩展数据进行了多层聚类,提升了聚类的效果和可解释性。另外,构造了用于关系抽取的核函数,由SSTK核与向量核组合而成,进行关系抽取。 最后,试探性地用基于技术术语和术语关系的技术结构来对训练语料的结果进行了技术成熟度的解释,作为是为技术成熟度的研究进的扩展,为技术提供了一个基于技术结构的细节层面的解释。