论文部分内容阅读
近些年来,我国互联网技术飞速发展,计算机使用日益普及,人们从网络上获取知识和信息更加便捷。但海量数据的出现在给大众带来方便的同时,也给公安系统的警务人员们带来了繁重的工作量。众所周知,在以多、快、杂为特点的网络信息中,合法与不合法信息、正面与负面信息互相充斥,这也就意味着为了避免消极信息的进一步扩散,网络警察们必须及时、有效的处理那些非法的网络信息。而传统的人工处理方法却存在着人力不足、处理不到位等诸多问题。为了解决面对海量网络信息,公安系统所呈现的警力资源匮乏、工作量繁重以及工作效率不高等诸多问题,本文在深入研究支持向量机(SVM)理论以及网络文本分类技术的基础上,设计并实现了基于SVM的网络文本信息分类器在公安信息系统的应用研究这一具有挑战性的课题。实验结果表明该分类器取得了令人满意的分类结果。本课题的主要研究内容及取得的主要成果如下:(1)本课题在文本分词阶段,使用隐马尔科夫模型(HMM)实现分词程序。与中科院的汉语分词系统ICTCLAS相比,隐马尔科夫模型可以将公安信息系统现有的敏感词库中的敏感名词和前面动词分到一起,例如敏感词库中包含“东突”一词,隐马尔科夫模型可以将动词“打击”和“东突”分到一起。这种分词方法有效的降低了中文分词过程中信息量的丢失程度,从而提高了分词的效率和准确率。(2)在特征选择过程中,本课题通过对比多种特征选择算法,最终选择了使用开方检验来实现特征选择。开方检验使用差值衡量公式来确定理论值和观察值的偏差程度,在很大程度上减少了由于偶然产生或者测量不精确产生的误差,从而进一步提高分类器的分类准确率。(3)在特征权重计算过程中,选用经典的文本特征权重计算公式(TF-IDF)并根据公安信息系统对网络信息处理的特殊性要求,引入交集系数即首先将待分类的文本与公安信息系统现有的敏感词库取交集,一旦交集非空,便给集合中的敏感词赋予最高特征权重,从而加重了敏感特征词在文本分类中的贡献程度。