文本分类技术与应用研究

被引量 : 44次 | 上传用户:superlhl2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上充斥着各种信息,其中有一些信息,如恐怖组织等通过互联网散布的消息,直接影响着国家安全与稳定。传统的按IP地址、主题进行信息拦截的方法已不再适合当前的需要,目前主要是对内容进行监控。鉴于Internet上的大部分信息都以文本的形式存在,以上技术大都依赖于文本内容的理解,核心技术是文本分类与聚类技术。爆炸式增长的文本信息对文本内容理解的精度与速度提出了新的标准与挑战,要求文本理解在提高精度的同时,还要进一步提升训练与理解速度。本文挑选文本分类中的3个困难与挑战进行了研究:数据集偏斜(数据集关于类别的分布是偏斜的,即类偏斜)、特征选择、小样本问题(标注瓶颈)。从提高分类方法的快速性、准确性出发,提出多种有效的解决(改进)方法。同时,对文本聚类、分类的一个重要应用领域——话题识别与跟踪,进行了研究。本文的创新工作主要包括以下三点:1、kNN文本分类器中类偏斜问题的处理类偏斜问题是数据挖掘领域的常见问题之一。在文本分类中得到广泛应用的kNN方法,当训练样本存在类偏斜问题时,分类性能明显下降。将kNN分类器用于某文本内容安全项目,我们发现,小类别的待测样本几乎都错分到其它大类中去了。针对kNN存在的这个问题,提出了训练集的临界点(Critical Point,CP)的概念,根据CP的下(上)近似值LA(UA)及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN分类。在偏斜文本数据集上进行的实验表明,LA、UA是较好的收缩因子。自适应的加权kNN文本分类性能优于传统kNN方法及随机重取样方法。2、训练样本的选择训练样本的选择对分类器的创建非常重要,非典型样本不仅增加了分类器的训练时间,而且容易给训练样本集中引入一些“噪声”。作为一种基于实例的方法,kNN分类器有大量的计算及存储需求。同时,训练数据分布的不均衡,也会导致kNN分类器的性能下降。针对这些缺陷,首先对MultiEdit与Condensing算法进行了改进,然后提出了特征选择与Condensing技术相结合的取样方法。该方法分为两步:第一步,由几种传统的特征选择方法产生训练集中每类训练数据的特征;第二步,根据文档自身的类特征,结合Condensing策略移去多余的训练实例。大量实验表明,该方法明显减小了训练集的数据量,从而降低了算法的时空消耗,改进了分类器的性能。3、半监督的文本分类传统的分类器仅使用有标签的数据进行训练,然而,有标签的实例通常因昂贵、耗时而难以获得,从而造成标注瓶颈问题。半监督学习通过大量的无标签数据与有标签数据相结合来创建性能良好的分类器,从而解决标注瓶颈问题。由于半监督的学习需要较少的人工介入,而精确率又较高,因此无论在理论上还是实践上都具有意义。本文在对已有的半监督学习算法进行研究的基础上,针对有标签数据相当少时,无法使用统计方法进行标注置信度评价的情况,提出了基于kNN和SVM的二阶段协同学习,实验证实该方法是有效的。作为文本分类、聚类技术的应用,我们对BBS的话题识别与跟踪进行了研究。从文本挖掘的角度上来说,话题识别类似于文本聚类;而话题跟踪类似于多类文本分类。话题识别与跟踪,研究目标是要实现按话题查找、组织和利用来自多种新闻媒体的多语言信息。这类新技术是现实中急需的,比如:自动监控各种信息源(如广播、电视等),并从中识别出各种突发事件、新事件以及关于已知事件的新信息,这可广泛用于信息安全、证券市场分析等领域。另外,还可以找出有关用户某一感兴趣话题的所有报道,研究这一话题的发展历程等等。在对话题识别与跟踪各种算法进行研究的基础上,我们根据BBS内容的特点,建立了一个面向BBS的话题识别与跟踪系统。在以上研究的基础上,我们开发了一个文本内容安全管理原型系统。
其他文献
前陆盆地的油气资源丰富,前陆盆地的前陆冲断带(山前褶皱—冲断带),是油气勘探的重要领域。世界上已有20多个前陆盆地发现大油气田和20多个前陆盆地发现中小型油气田。近年来,
在钢厂的冷轧薄板生产线中,液压辊缝自动厚度控制(AGC)系统是核心设备,其执行元件——伺服缸对系统的性能产生重要影响,实际生产中希望伺服缸在安装之前就能够对其性能准确把
<正>综观全球,欧盟是最早制订电子货币监管政策、最积极推进电子货币监管、并且拥有相对成熟电子货币监管框架的地区。欧盟委员会于2000年颁布了电子货币监管指令
<正>吴永飞:华夏银行已结合ITIL进行了组织架构、流程管理、运维管理平台等运维体系的建设工作,下一步将在完善运维体系建设的同时启动ISO20000体系建设咨询项目。2011年,华
为了提高LLC谐振变换器的输入电压适应范围,提出了一种新颖的双模态LLC谐振变换器。所提出变换器的隔离变压器原边绕组中设计有一个辅助抽头,使得变压器具有两种工作变比,对
<正>他山之石四通八达的瑞士旅游交通网瑞士公路、铁路密集,水、陆、空运输互相补充,协调配合,形成覆盖整个瑞士的交通网,为旅游的全面发展奠定了坚实的基础。借助便捷的旅游
高职教育人才培养的目的是培养应用型专门人才。高职院校毕业生能否达到培养目标的要求,顺利就业,需要通过考核来进行评价,可见考核模式的作用是十分重要的。
被称为“Web2.0”的新一代网络技术的迅速普及,全面改善了知识的组织方式和使用方式,使得知识的生产和学习变得更有效率。Web2.0的相关技术中,Blog被认知和应用的程度最高。
<正>巴厘岛被世人称为旅游度假的“天堂岛”,是印尼最著名的旅游胜地。自 20世纪30年代起,巴厘岛每年接待国外游客数以百万计。许多外国人像候鸟一样,每年定期在巴厘岛逗留。
随着人们环保意识的不断增强和汽车排放法规的日益严格,柴油机有害排放成为制约其进一步发展的重要课题。目前的柴油机排放处理技术难以满足未来更加严格的汽车排放标准,开发