论文部分内容阅读
在市长公开电话数据中,突发性事件的检测是比较困难的一类问题,它与常规性、季节性问题相比更具有不确定性。突发事件出现时,往往伴随着某些特征词的大量出现,因而通过特征词监控来发现突发问题是可行之路。如何获取特征词以及寻求特征词的变化趋势是特征词监控的基础,也是本文的研究重点。2017至2020年长春市市长公开电话数据中约有8万个互异的单词,词量过大且大量单词出现次数极少,全部单词全程监控费时费力而且作用不大,本文通过去除停用词、提取各单位的特征词、删除大量低频词以及提取具有聚集性和突发性特点的特征词,从而建立特征词词表,达到提高监控效率的目的。针对停用词,利用高维列联表筛选词频高且卡方值小的单词,建立停用词词表。针对特征词,由于各单位的工单数量差异较大,因而本文逐一建立各单位的2*2维列联表,通过卡方统计量筛选出各单位的特征词,同时剔除负相关的词,为每一个单位建立一个特征词词表。针对低频词,如果直接将出现频数较低的词删除,不仅会导致一些有意义的词被删除,而且会剩下大量无意义的单词未被删除,因此本文提出了一种基于核估计的低频词界定方法。首先认为每一个词都遵循一个高斯核函数,自变量是单词所在工单发生的时刻,这样单词发生的时域信息就被考虑到模型中,同一个单词多次重复出现,模型中定义为核函数的叠加,然后设立一个经验阈值,当叠加的核函数值低于阈值,则认为该词为低频词,将其删除。此方法的好处是可以删除一大批不具有聚集性特点的单词。为提高监控效率,在提取了具有聚集性特点单词的基础上,利用统计方法进一步筛选出具有突发性特点的单词。经过对特征词的选择,得到具有监控价值的特征词。对这类特征词进行监控,可以及时发现突发事件,为政府各单位发现突发问题提供重要依据。