【摘 要】
:
随着互联网的迅猛发展,传输数据的规模呈现爆炸式发展,以手机、平板等为终端的移动互联网传递的信息以短文本为主,这使得信息数据处理变的异常困难,人们难以迅速找到自己需要的数据。如果能够将这类数据进行有效地分类,那就大大便于人们查找数据,并可对分类好的数据进行分析,做出相应的评估和预测。短文本分类作为文本数据挖掘的一部分,目前已经广泛运用于微博热点追踪、产品售后分析等领域,短文本分类越来越受到人们的重视
论文部分内容阅读
随着互联网的迅猛发展,传输数据的规模呈现爆炸式发展,以手机、平板等为终端的移动互联网传递的信息以短文本为主,这使得信息数据处理变的异常困难,人们难以迅速找到自己需要的数据。如果能够将这类数据进行有效地分类,那就大大便于人们查找数据,并可对分类好的数据进行分析,做出相应的评估和预测。短文本分类作为文本数据挖掘的一部分,目前已经广泛运用于微博热点追踪、产品售后分析等领域,短文本分类越来越受到人们的重视。本文介绍了短文本分类的意义,分析了国内外对于短文本分类的研究现状。同时,对短文本分类过程中主要的环节,包括预处理、中文分词、特征选择、性能评估等,进行简要的介绍,对文本分类的整体流程进行了系统介绍。对传统文本分类技术的特征提取方法进行了剖析。针对其存在的特征稀疏、语义缺失严重等问题,结合LDA模型,提出了基于LDA模型特征扩展的特征选择的方法。利用大文档集训练出LDA模型,得到“文档-主题”概率分布和“主题-词”概率分布,选择最大概率主题下的词,将其扩充到短文本特征集中。在选择最优主题时,困惑度指标会导致LDA模型主题过多,主题辨识度不高,由此引入从主题相似度与困惑度两个方向考察最优主题数即Perplexity-Var指标,设置了三组实验进行对比,实验说明了基于LDA特征扩展的方法有效性。并针对支持向量机算法准确率较低和泛化性能较差的问题,提出了基于成对约束采样的集成分类算法。通过成对约束采样方法,加大各个训练集的差异性,依据类离散度选取训练集,最后通过Bagging算法训练出集成分类模型。设置了三组实验进行对比,结果证明了此集成算法有更好的准确率和泛化性能。
其他文献
册田水库是大同市唯一的一座大型水库,从册田水库供水发展趋势及目前存在的问题出发,对水库供水提出了水库除险加固;实现城乡供水一体化,统一管理和分配水资源;整顿规范水市
渠道防渗是节水工程建设的一个主要形式,二次抛物线型U型渠由于具有湿周小、流速快、过水能力大、占地少,受力条件好、抗冻涨性能好、施工简单等优点广受用户欢迎.具体阐述了
古往今来,无论是东西方的法学家,都曾经希望制定出一部永恒适用的万能法来涵盖社会生活中的所有犯罪行为,然而社会生活是不断变化的,再加上时代的局限性以及立法技术等原因,这一愿望是永远不可能实现的。虽然现在各国的立法者不再追求设立永恒之法,但是各国在制定刑法时总是希望刑法能有更广的涵盖面,以便适应社会的变迁,更有效地打击犯罪,因此在刑事法律中设置一定数量的概括性和模糊性条款就有了现实的需要,所以在这样的
针对混流泵在出口管路负载快速变化过程中的瞬态水力特性进行试验研究,并对试验结果进行讨论.详细介绍了同时适合于水泵稳态和瞬态水力性能测试的试验设备以及试验方法,介绍
目的通过改良锁骨下静脉穿刺术的应用,提高穿刺成功率,减少并发症。方法改良锁骨下静脉穿刺方法于锁骨中点下方1~2cm偏外侧,定位穿刺点,针尖与皮肤呈30°进针,针尖指向胸骨上窝
作为引领长期演进(Long Term Evolution,LTE)技术迈向第五代移动通信技术(The 5th Generation mobile communication,5G)海量机器类通信(massive Machine Type of Communication,mMTC)场景的窄带物联网(Narrow Band Internet of Things,NB-IoT)技术受到了学术界和产业界