论文部分内容阅读
利用政务微博这一社交媒体平台发布区域政务信息、倾听社情民意已成为我国地方国家机关政务信息活动的重要形式,相应地,地方机关通过微博平台提供的政务信息服务使得用户能够迅速知晓、概览本地重要新闻与热点事件,并从中汲取信息、获取知识。伴随着用户的信息阅读方式由全文化转变为碎片化,以从全文中提炼出的信息单元或知识单元为基本要素聚合而成的知识地图在节省读者时间、提高读者知识吸收效率方面具有重要价值。基于以上两点,同时为尊重信息单元与知识单元的来源关系、保证知识组织与知识发现的质量,本文提出了一种档案学视角下的区域政务微博知识发现模型,旨在对具有文件、档案属性的政务信息资源进行知识化开发,方便用户的知识吸收与利用,进而提升地方国家机关的政务信息知识服务水平。首先,本文对区域政务微博、档案信息资源的知识发现、社交媒体文件等核心概念进行了阐释,并对国内外相关研究进行了综述与总结,指出了本文在研究过程中的理论依据与应用的核心技术体系。其次,以档案学应用理论为基础,融合图书情报学的理论成果对经典档案学理论进行了有机整合与六元组形式的描述,阐明了其在知识组织与知识发现过程中的价值。再次,基于整合的档案学理论,借助以LDA主题建模和依存句法分析为核心的自然语言处理技术与以应用本体构建为核心知识组织技术,完成了区域政务微博知识发现模型的构建工作,确立了“原文本数据-聚类数据-信息单元-知识地图”的数据挖掘与知识开发流程。最后,以西安市为区域实例,以“专题-事件”为微博内容类别的划分标准,利用爬虫软件采集相关微博文本进行实证分析,以知识地图作为知识发现的可视化成果,结果表明本文整合、构建的理论与模型在实践层面具有一定的可行性。本文构建的档案学视角下区域政务微博的知识发现模型能够在一定程度上为区域内政务信息资源的整合与开发利用提供帮助,同时帮助用户提高知识识别与利用效率。然而,本文在理论整合的合理性、知识组织与知识发现的精度与深度、实验的信度与效度方面还存在较大的改进与提升空间,以深度学习为基础实现知识的动态表征与推理、增强全模型的智能化水平是其后的主要研究方向。