适用于手机取证的中文短文本分类方法研究与实现

来源 :北京化工大学 | 被引量 : 14次 | 上传用户:fire1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文短文本分类近年来随着国内移动互联网的快速发展和智能手机的普及成为一个新的研究热点。在电子取证领域,如何快速准确的从手机等设备的大量短信文本中提取出有用信息成为取证人员面临的一个问题,而短文本分类是一个有效的解决该问题的方法。在其它如社交网络、知识问答系统和信息检索等领域,中文短文本分类也有着广泛的应用前景。本文立足于解决手机取证中的中文短文本分类问题,对目前应用于短文本分类的多种方法进行了比较学习与研究。首先,讨论了应用于文本分类的主要技术,指出目前应用于短文本分类的方法主要包括两类,一类是现有的应用于长文本分类的方法以及在此基础上的改进方法,主要包括基于特征权重的多种方法,另外一类是借助外在的知识库增加短文本的信息量的方法,主要包括基于特征扩展的方法;然后,本文重点介绍了六种基于特征权重的分类方法,以维基百科为知识库的基于特征扩展的分类方法,和适用于短文本的特点的三种基于特征权重的改进方法。最后,本文设计实验对这些方法的分类效果进行了比较,并详细介绍了这些方法的各个模块的具体实现,并对实验数据进行了分析。实验结果表明,改进的基于iqf*qf*icf的短文本分类方法在基于特征权重的九种分类方法中分类效果最好,同时该方法与基于特征扩展的方法相比整体的分类效果相差不大,但是该方法稳定性更好;在分类算法的比较中,SVM在中文短文本中的分类效果要稍好于NaiveBayes方法。
其他文献
随着计算机技术的飞速发展,软件系统变得越来越复杂,测试技术是保证这些软件系统质量的常用手段,然而影响系统运行的因素有很多,因素与因素之间的交互作用也会影响系统的运行,人们
当前全世界的汽车工业都面临着石油资源短缺和环境污染的压力。为实施可持续发展战略,纯电动汽车已经成为了21世纪汽车工业的发展方向。纯电动汽车具有零排放、热辐射低和噪
随着互联网的快速发展,人们越来越多的社会活动发生在虚拟的网络空间。网络服务商为人们提供各式各样便利的网络服务,例如即时通信、网络支付等。但是目前,这些服务的身份认
目前随着计算机网络的飞速发展,涌现出了大量的对网络要求较高的多媒体实时业务,网络对QoS的需求也迅速提高,越来越需要对QoS具有较高支持度的网络。组播实现了同一信息从源
随着互联网的发展以及移动互联网时代的到来,为了应对大数据下的业务需求,集群的规模也在日益的变大,与此同时分布式系统的自动化部署和自动化管理的问题日益突出。尽管现在
随着GPS定位、无线传感等技术的发展与运用,以及具有定位功能的无线手持、车载设备的普及,使得基于移动对象的位置服务被广泛使用。移动对象的位置等信息随时间发生变化,数据
近年来,微型博客(简称微博)越来越受到网络用户的青睐,成千上万的用户通过发布微博共享他们的观点和情感。其中,有大量带有情感倾向(认为某事物“好”或“坏”)的微博文本,这些微博文
统计技术是目前机器翻译研究的主流技术。统计机器翻译研究的先决条件是要有充足的双语平行语料库。翻译系统的性能与语料库规模是密不可分的。近年来,汉蒙机器翻译研究已取得
随着信息技术的飞速发展,在线考试系统已经广泛地应用于各个领域,这种考试形式不仅节约了大量的人力、物力资源,更增强考试的灵活性、公正性和高效性。   高等院校作为考试最
轮廓编组的目的是从输入中提取独立的目标轮廓,是一种以边缘片段为编组对象的知觉组织过程。由于轮廓能够很好地描述目标的几何特征和拓扑特征,并且表示具有很好的简洁性,因