基于市长公开电话的中文特征词变化趋势分析

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:Boogie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在市长公开电话数据中,突发性事件的检测是比较困难的一类问题,它与常规性、季节性问题相比更具有不确定性。突发事件出现时,往往伴随着某些特征词的大量出现,因而通过特征词监控来发现突发问题是可行之路。如何获取特征词以及寻求特征词的变化趋势是特征词监控的基础,也是本文的研究重点。2017至2020年长春市市长公开电话数据中约有8万个互异的单词,词量过大且大量单词出现次数极少,全部单词全程监控费时费力而且作用不大,本文通过去除停用词、提取各单位的特征词、删除大量低频词以及提取具有聚集性和突发性特点的特征词,从而建立特征词词表,达到提高监控效率的目的。针对停用词,利用高维列联表筛选词频高且卡方值小的单词,建立停用词词表。针对特征词,由于各单位的工单数量差异较大,因而本文逐一建立各单位的2*2维列联表,通过卡方统计量筛选出各单位的特征词,同时剔除负相关的词,为每一个单位建立一个特征词词表。针对低频词,如果直接将出现频数较低的词删除,不仅会导致一些有意义的词被删除,而且会剩下大量无意义的单词未被删除,因此本文提出了一种基于核估计的低频词界定方法。首先认为每一个词都遵循一个高斯核函数,自变量是单词所在工单发生的时刻,这样单词发生的时域信息就被考虑到模型中,同一个单词多次重复出现,模型中定义为核函数的叠加,然后设立一个经验阈值,当叠加的核函数值低于阈值,则认为该词为低频词,将其删除。此方法的好处是可以删除一大批不具有聚集性特点的单词。为提高监控效率,在提取了具有聚集性特点单词的基础上,利用统计方法进一步筛选出具有突发性特点的单词。经过对特征词的选择,得到具有监控价值的特征词。对这类特征词进行监控,可以及时发现突发事件,为政府各单位发现突发问题提供重要依据。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
学位
协同治理是当前中国完善社会治理体系,建设社会治理共同体的一项治理模式。协同治理不仅可以将社会治理工作由政府单边行动转为政府和其他行动主体的联合行动,而且更突出强调通过增强各行动主体的能力和一系列协同机制的设计,可以解决社会治理联合行动中多元主体协同增效的问题。2019年12月底,武汉市疾控中心发现了不明原因肺炎病例,这次疫情体现出我国集中优势力量办大事的治理效能,同时也暴露出在疫情防控初期信息不透