论文部分内容阅读
科学技术的发展为每个学科带来新的机遇的同时,也带来严峻挑战。学科通过引入、吸收、整合其它学科的理论、方法和技术来促进自身的发展是学科创新最常见的途径。学科交叉研究已成为学术界乃至整个社会关注的焦点。但从国内外研究现状分析,学科交叉还只是停留在表象和经验的层面,缺乏基于科技文献聚类分析的深层次挖掘的研究。本文要解决的问题是“如何利用聚类分析的技术手段来有效地发现和展示学科之间的交叉知识”。研究的目标是在海量科技文献数据的基础上,通过聚类分析技术与手段,深度挖掘潜在的学科交叉知识,为学科交叉研究提供一种科学的、客观的、先进的方法。以“学科交叉知识”为研究对象,从文本挖掘的理论与关键技术分析入手,在文档聚类算法的研究与改进、学科交叉知识发现与可视化等方面展开研究工作,包括以下6个方面:(1)对国内外学科交叉研究进展进行了评述,指出了研究中存在的不足,提出利用文档聚类进行学科交叉研究的可行性;(2)对文本挖掘、智能优化算法及信息可视化研究进展进行综述;(3)对文档聚类中的关键技术研究,分析了文档聚类在“相似性的精度”、“高维度的约简”和“聚类数目模糊性”中面临的问题,提出了解决问题的方案。(4)文档聚类算法研究。从基本的FCM算法研究入手,将遗传算法、粒子群算法等优化算法应用于文档聚类中,重点对粒子群优化算法的不足进行了改进,提出了基于免疫粒子群与FCM相融合的文档聚类算法。(5)学科交叉知识发现与可视化模型研究。提出了学科交叉文献的发现模型、学科交叉知识挖掘模型和学科交叉知识可视化模型,并设计出用于学科交叉知识可视化的视图模板。(6)实证研究。利用情报学与计算机两个学科近十年(2000年—2009年)的中文核心期刊文献数据来研究两个学科交叉知识。利用改进的文档聚类算法对文献进行聚类分析,并利用自主开发的基于学科交叉知识可视化软件VIK及其它可视化软件CiteSpace与UCINET进行可视化研究与分析。在具体的研究过程中,主要采用了文献研究法、调查研究与专家咨询法、统计分析法、实验仿真法与Meta分析法等。本文研究的主要成果(结论)为:(1)通过海量文献聚类分析可以有效地识别学科之间的交叉关系;(2)基于关键词与摘要词加权的文档相似度计算模型与基于字符串部分相似的关键词匹配模型可以有效地改善文档相似度;(3)基于免疫粒子群与模糊C均值相融合的文档聚类算法可以有效地应用于海量文档数据聚类;(4)基于共词的学科交叉文献发现模型能较准确地发现学科交义文献;(5)基于共词聚类分析的学科交义知识发现模型能挖掘有关学科交叉的交叉度、融合度、交叉方向、新的生长点等知识;(6)基于学科交叉知识的可视化模型使得学科交叉知识的可视化成为可能;(7)通过对情报学与计算机科学两个学科交叉知识实证研究发现,在近10年的发展过程中,两个学科共形成了“数据挖掘”、“信息安全”、“搜索引擎”、“本体技术”、“信息检索”与“软件工程与图像处理”等交叉研究方向,在未来的发展中,“图像检索”、“领域本体”、“个性化”等将成为两个学科交叉方向中新的生长点;(8)自主开发的学科交叉知识可视化软件VIK可以直观地展示学科交叉知识。纵观全文,主要有如下的创新点:(1)将聚类分析技术应用于学科交叉研究,为学科交叉研究提供一种可行的方法;(2)基于免疫粒子群和模糊C均值融合的文档聚类算法;(3)学科交叉知识发现和可视化模型;(4)学科交叉知识可视化平台VIK。