论文部分内容阅读
目的:共词聚类分析结果的表达是共词分析应用的最后一步。现有的共词分析结果表达的方法均具有一定的局限性,所得到的结果存在主观性较强及表达不全面等问题。本研究提出基于句子抽取的共词聚类分析结果表达的方法,促进共词分析结果表达的客观性、准确性、易懂性和规范性,为研究者进行共词分析结果表达方面提供辅助和参考,进而在一定程度上促进信息分析技术在学科专业热点分析应用中的进一步发展。方法:本研究分两个层面获得主题词聚类结果,尝试对其进行结果表达:一篇是已发表的热点分析文章中共词分析的结果,另一篇是根据领域专家综述文章中的主题由研究者开展聚类分析后获得的共词分析结果,将这两个聚类结果作为研究样本。对于两类聚类结果,首先基于聚类结果中主题词的聚类顺序,根据一定的规则构建类内主题词组合,制定并执行对应的检索策略得到与每一个主题词组合相关的文献集;接着,通过自然语言处理技术,在文献集合的摘要中抽取所有主题词组合的语义关系表达,将抽取得到的两概念间的主要谓词及其代表句作为该词对所属类团的结果解读;最后,一方面将本研究得到的两个结果解读分别与相应进行共词分析的主题词数目对比,评价本方法对主题词的覆盖程度,另一方面将两结果分别与已有的共词分析结果和综述专题进行内容上的对比分析,最终对本方法的适用性做综合评价。结果:对于已发表的共词分析结果,本研究根据一定的主题词组合规则,将81个主题词构建为38个类内主题词组合,其中32个主题词组合可检索到相关文献集,17个主题词组合可以抽取到语义关系。通过本方法得到的共词分析结果表达对类内主题词的平均覆盖率为56%,17个类内主题词组合共得到了27种语义关系表达;将其与已发表论文中的结果表达对比发现,内容一致度为73%,且本文得到的结果解读更加具体,具有更好的可读性。对于根据选取的综述主题自行完成的共词分析,与研究主题密切相关的9个主题词形成了6个类内主题词组合,其中5个主题词组合可抽取语义关系。通过本文的方法得到的聚类结果表达对类内主题词的平均覆盖率达83%,5个类内主题词组合共得到8种语义关系表达;但将共词分析结果与综述原文中的内容对比发现,共词分析结果与综述内容存在一定程度的不一致。结论:研究结果表明,主题词聚类分析得到的热点在满足专家实践需求上还有待进一步研究;但本研究方法在常规的宏观的主题词聚类分析结果表达方面,能将类团内容较全面的表达出来,得到的类团内容解读具有一定的客观性、准确性和规范性,为进一步规范共词聚类结果的表达提供了有效途径。