SVM文本分类器在公安信息系统中的应用研究

来源 :石家庄铁道大学 | 被引量 : 2次 | 上传用户:maomao1983520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,我国互联网技术飞速发展,计算机使用日益普及,人们从网络上获取知识和信息更加便捷。但海量数据的出现在给大众带来方便的同时,也给公安系统的警务人员们带来了繁重的工作量。众所周知,在以多、快、杂为特点的网络信息中,合法与不合法信息、正面与负面信息互相充斥,这也就意味着为了避免消极信息的进一步扩散,网络警察们必须及时、有效的处理那些非法的网络信息。而传统的人工处理方法却存在着人力不足、处理不到位等诸多问题。为了解决面对海量网络信息,公安系统所呈现的警力资源匮乏、工作量繁重以及工作效率不高等诸多问题,本文在深入研究支持向量机(SVM)理论以及网络文本分类技术的基础上,设计并实现了基于SVM的网络文本信息分类器在公安信息系统的应用研究这一具有挑战性的课题。实验结果表明该分类器取得了令人满意的分类结果。本课题的主要研究内容及取得的主要成果如下:(1)本课题在文本分词阶段,使用隐马尔科夫模型(HMM)实现分词程序。与中科院的汉语分词系统ICTCLAS相比,隐马尔科夫模型可以将公安信息系统现有的敏感词库中的敏感名词和前面动词分到一起,例如敏感词库中包含“东突”一词,隐马尔科夫模型可以将动词“打击”和“东突”分到一起。这种分词方法有效的降低了中文分词过程中信息量的丢失程度,从而提高了分词的效率和准确率。(2)在特征选择过程中,本课题通过对比多种特征选择算法,最终选择了使用开方检验来实现特征选择。开方检验使用差值衡量公式来确定理论值和观察值的偏差程度,在很大程度上减少了由于偶然产生或者测量不精确产生的误差,从而进一步提高分类器的分类准确率。(3)在特征权重计算过程中,选用经典的文本特征权重计算公式(TF-IDF)并根据公安信息系统对网络信息处理的特殊性要求,引入交集系数即首先将待分类的文本与公安信息系统现有的敏感词库取交集,一旦交集非空,便给集合中的敏感词赋予最高特征权重,从而加重了敏感特征词在文本分类中的贡献程度。
其他文献
针对硫酸盐及氯盐共同侵蚀下混凝土中SO 42-和Cl-的扩散规律和性能劣化特征进行室内模拟实验研究。研究结果表明:硫酸根与氯离子在混凝土中扩散短期内起到相互牵制效应,SO 24
<正> 1、机械结构要素部分介绍了哪些标准?答:机械结构要素的内容包括很多,最通刚的有五项:(1)GB6403.1-86 球面半径(2)GB6403.2-86 润滑槽(3)GB6403.3-86 滚花(4)GB6403.4-8
女性犯罪是当前犯罪学界的研究热门话题,女性犯罪的增速、类型和新特点受到广泛关注,我国对女性犯罪的研究日渐丰富,研究视角也逐渐精细化。女性犯罪的预防机制包含社会、司
随着信息技术的快速发展,移动通信技术在人们的生产生活中得到普及,提高其服务质量有利于充分发挥其现实价值。现阶段,要想提升移动通信工程服务效率和质量,就必须加强管理,
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
无线通信是中国移动通信的一项重要技术。随着科技的飞速发展,我国现在已经步入4G信息时代,无线基站工程的建设也加快了脚步。然而,不论外部环境如何紧迫,无线基站的施工都不
本文主要以空管信息一体化下飞行服务管制工作探讨为重点阐述,结合当下空管信息一体化发展的主要内容和空管信息一体化下飞行服务管制工作的有效发展途径为主要依据,从有效参
随着社会经济的快速发展,环保形势也变得日益严峻。为了有效解决环境污染问题,国家逐步地加大了对环保产业的支持力度,为烟气脱硫、脱硝、除尘产业的快速发展营造了良好的发
<正> 在切削箱体内孔槽时(图1),我厂原采用的镗杆结构如图2所示。其一端与镗床主轴固定,另一端由镗床的尾座轴承来支承。操作者凭经验用手阻止手轮5与镗杆1一起转动,从而实现
人事档案管理是人力资源管理的主要内容,而人力资源的管理关乎医院的竞争力。因此,医院管理层应重视医院人事档案管理工作,通过强化全员的档案管理意识,完善各项规章制度,加