基于SVM和半监督学习的短文本分类算法研究

来源 :南京信息工程大学 | 被引量 : 4次 | 上传用户:zhouyiai1015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,网络上各种文本的数据量呈爆发式的增长。其中,短文本形式的文本也逐渐成为主流的文本形式。面对大量的短文本,如何高效的获取其中有效的信息,是如今数据挖掘中的新热点,而在短文本中挖掘出有效信息,就需要有效的短文本分类算法作基础。然而以往的一些文本分类算法主要是用来对长文本进行分类的,例如K近邻(K-Nearest Neighbor,KNN)、支持向量机(Support Vector Machines,SVM)、朴素贝叶斯(Naive Bayes,NB)等,由于短文本具有实时性、稀疏性、不规则性等特点,这些适用于长文本分类的分类算法并不能直接拿来对短文本进行分类,因此,需要一种适合短文本分类的分类算法来对如今网络上大量的短文本进行数据挖掘。本文针对短文本的特点重点做了以下工作:首先,本文提出了一种基于自监督的半监督学习短文本预处理方法。首先需要对收集的样本进行预处理,以去掉一些噪声干扰。通过对训练集的迭代训练,将未标注的样本分类并学习,直到样本完全被标注。这种方法有效的解决了预处理时噪声样本不足而导致预处理效果不理想的问题。其次,本文提出了一种基于半监督学习和搜索引擎的自选择短文本特征扩展方法,该方法针对基于自选择的特征扩展方法对短文本不规则性问题的忽略,引入了半监督学习和搜索引擎的方法,通过半监督学习的迭代训练和搜索引擎庞大的知识库,解决短文本的不规则性问题。最后,本文提出了一种基于SVM和半监督学习(Semi-supervised Learning and Support Vector Machines,SLAS)的短文本分类算法。普通的SVM对短文本的分类效果并不是很理想,而本文提出的基于SVM和半监督学习的短文本分类算法有效的解决了短文本的特征稀疏和不规则的问题,扩充了数据字典中的标注样本,接着在SLAS的基础上,本文提出了 SLAS-C短文本分类算法。该方法结合了分类回归树,利用Gini指数改进分类模型,解决了 SLAS在分类效率上提升不明显的问题。实验结果中本文提出的算法的综合指标F1提高了4%-10%,同时算法的效率也得到了提高,验证了算法的有效性。
其他文献
目的:研究探讨重氮化合物的偶联反应;二氟亚甲基鏻内盐(Ph3P+CF2CO2-,PDFA)实现N-磺酰腙类的二氟甲基化反应,并探索其反应机理。方法:在碱的参与下,利用N-磺酰腙类化合物提供不
在这篇文章中,我们给出了Ωp-含幺Banach代数中稳定扰动的定义,对其扰动后的群逆和Drazin逆的改变做出了上界估计,并将其应用到Ωp-Banach空间上有界线性算子的群逆和Drazin
人脸识别技术已经成为一项越来越热门的身份鉴定和身份识别技术,它包括了计算机视觉,图像处理,模式识别,生物学技术等技术领域。与其他生物识别技术,例如瞳孔识别,指纹识别,
对于以加工典型高酸值辽河稠油为主的某石化公司蒸馏装置,其加工过程中设备的严重腐蚀是石化企业亟待解决的难题。本论文针对该蒸馏装置进行了腐蚀规律研究,并结合电喷雾电离
“互联网+”、“两化融合”是中国当前重要的产业政策,信息产业在其中扮演了重要的角色。但通过测算中国各省份的区位商,本文发现中国的信息产业在空间分布上集中于几个少数
随着移动互联网技术的飞速发展,基于位置服务(Location-Based Service,LBS)受到了越来越多移动用户的关注。LBS可以根据用户的位置信息为用户提供有价值的服务,大大便利了用
各类监测指标被用于诊疗或预防疾病,但因缺乏严谨的统计推断过程、统计方法单一等原因,亟需对监测指标的诊疗价值做系统的统计分析,提升诊断效率。本研究以血栓性疾病凝血监
近年来,随着科学技术发展的日新月异,行为识别作为一个热门话题,受到越来越多的关注,行为识别技术也在多个领域得到了广泛的运用。随着互联网信息技术的发展,智能手机也走进
随着电力体制改革的不断深入,我国各级电网首个监管周期的输配电价体系已经初步建立。2015年3月15日,国务院发布《进一步深化电力体制改革的若干意见》(中发[2015]9号文),提出了“放开中间、管住两头”的电价改革总体思路,明确了输配电价改革的原则和方向。输配电价改革作为新一轮电力体制改革的核心部分,其实质是剥离了电网企业的定价权,打破电网企业在购售双侧的垄断地位。在输配电价改革下,电网企业的收益
针对数字图像的版权保护问题,研究人员已经做了大量的研究。其中,基于内容的图像拷贝检测技术研究已经取得了较大的进展。现有的图像拷贝检测算法,主要是依靠Bag-of-Words (B