论文部分内容阅读
随着网络的发展,各行各业的信息化进程不断深入,从语言使用中获得复杂的语义信息已成为当前的研究重点。官方新闻和已出版的小说(以下简称新闻和小说)由于规范性强、认可度高,且与社会的变革和发展、大众的舆情变化相关联等特点,在多个领域中有着广泛的应用。数字化进程带来的数据量的增长虽然给新闻和小说的语言使用分析带来了更完备的数据基础,但也给新闻和小说的自然语言使用分析工作提出了新的挑战:一方面针对新闻和小说的语体分类模型可解释性低,面向两者的语言使用差异分析不够全面;另一方面针对长历时的语言使用分析的计算机自动化辅助分析方法还不够完善,无法高效精确地挖掘出其背后的信息。基于以上背景,本文从语言使用分析研究的两个维度出发,展开了对新闻和小说的研究。(1)静态维度:引入句法结构,提升了新闻和小说分类的准确率,弥补了语体差异分析中层次结构特征的缺失。(2)动态维度:提出一种基于频率和语义的新闻词汇演变分析方法,揭示了新闻的词汇演变和社会变迁的联系。静态维度分析主要包括基于句法结构的新闻和小说的语体分类,与新闻和小说的自然语言使用差异分析。第一部分,本文在二语体的分类模型中加入句法结构特征,令分类效果分别提升了7.21%、7.45%和8.59%,证明了句法结构在刻画二语体的语言使用差异中的有效性和重要性。第二部分,不同于现有的语言对比分析方法,本文将基于规则的自然语言理解方法和短语结构语法应用进来,并加入了句法结构这一语言特征,不仅丰富了新闻和小说的语言使用差异分析的特征和方法,而且提高了基于自然语言理解的语体分类模型的可解释性。综合来看,本文提出了一种可解释性更强、分类效果更佳的语体分类方法,所采用的二语体间的语言使用差异分析方法,可以进一步解决语言学界和传播学界的对层次结构特征分析的缺失的问题。动态维度分析方面,本文面向新闻文本提出了一种基于频率和语义的词汇演变分析方法,主要包括基于频率的历时重点词汇分析、基于语义的时间敏感词分析两个部分。第一部分,从词频角度,本文采用TF-IDF方法,描绘出随着时间变化新闻中重点词汇的重要程度变化趋势,并结合历史事件揭示了其原因;第二部分分为两个阶段:领域时间敏感词筛选,以及针对选定的领域时间敏感词的语义演变分析。基于单个词语语义的变化也可反应上下文环境的变化的思想,本文提出了一种基于动态词嵌入和TF-IDF的领域时间敏感词筛选方法,从领域重要词中确定历时的时间敏感词;最后,聚焦经济领域、政治领域,分别筛选出一个领域时间敏感词,本文结合历史事件解释了词汇演变与社会发展变迁的关系,一方面,印证了词义与社会发展具有同步性,另一方面,展现了基于历时文本词义的变化分析对于社会的各方面发展历程研究具有重要的支撑作用。综合来看,本文提出的基于频率和语义的词汇演变分析方法,在基于新闻的词汇演变分析研究中,为领域时间敏感词的确定、社会变迁趋势与词汇演变的分析提供了新思路。综上所述,本文的主要创新点如下。(1)首先,将句法结构加入新闻和小说的语体分类中,大大提升了分类效果。其次,以句法结构为中心对二语体进行差异分析,提高了语体分类模型的可解释性,更弥补了语体差异分析中层次结构特征缺失的缺陷。(2)基于频率和语义,提出了一种面向领域的时间敏感词筛选方法,采用人机融合的方式高效获得高质量的候选词汇。通过以动态词向量的词汇语义为媒介,定位到领域时间敏感词上下文语境发生重要变化的时间节点,辅助研究人员深入分析其语义演变背后所蕴含的更深层次的社会变迁信息。