SVM和KNN算法在特定话题挖掘中的研究与应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:Richie911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的不断发展,网络已经成为一种人们获取信息的重要途径。面对着互联网上产生的海量信息数据,如何从浩瀚的信息海洋中得到我们想要的信息,成为现在人们普遍关注的话题。特定话题挖掘技术是追踪技术与话题检测的实际应用,它能够从众多信息中挖掘出我们所关心的特定话题。同时,特定话题挖掘在公共安全领域有着广泛的实际应用前景。本文以公共安全为背景,设计了一种特定话题挖掘方案,能够从众多的繁杂信息中挖掘出我们想要的话题信息。本文的主要工作如下:(1)针对话题挖掘领域的相关技术进行研究学习,对文本表示,特征提取,聚类方法,分类方法,主题模型等进行了讨论对比,并对现有的技术研究进展和各方面的优缺点进行了总结。(2)将LDA(LatentDirichletAllocation,隐含狄利克雷分配)主题模型和词性分析引用到话题挖掘领域,利用词性分析,去除掉无意义的虚词,再利用LDA模型的文本主题模型,把潜在的特征知识与文本特有的词空间融合起来,再进行分类,对文本的内部语义知识进行更深层次的挖掘,两者结合起来,提高了话题挖掘的质量。(3)在 LDA 建模基础上,将 SVM(Support VectorMachine)和 KNN(K-NearestNeighbor)分别应用到特定话题挖掘的实践中,搭建实验系统进行试验,分析对比两种算法的实验效果,不断优化实验,寻找实验最佳参数。(4)提出了将SVM和KNN融合的特定话题挖掘策略。对于数据集中的每一条文本,SVM和KNN各有一个判别结果(1或者0),分别给SVM和KNN的判别结果设定阈值,计算这条文本的最终得分,如果最终得分大于所设定的阈值,将这条文本判定属于这个话题。最后通过实验验证所提算法的有效性,实验结果表明,采用多系统融合策略的结果要优于单系统。
其他文献
目的:探讨微小RNA(miRNA)-126在冠状动脉粥样硬化性心脏病(冠心病)患者血浆中的表达情况及临床意义。方法:收集2015年2月至2015年6月在山西医科大学第一医院心内科住院的114
为探讨复方夏天无治疗膝骨关节炎(OA)患者的疗效和安全性,本院门诊及住院部将符合纳入标准的79例膝OA患者,随机分为试验组和对照组。试验组(n=41例)服用复方夏天无1.8 g·d-1
近年来,"全能神"邪教组织在中国活动非常猖獗,甚至在中国宗教的黑色市场一度占据主导地位,其中的重要原因就在于"全能神"有一整套独特的传播策略和方法。基于此,本课题组通过
2018年上映的《巴斯特·斯克鲁格斯的歌谣》由六个小故事构成了一部令人深思的美国西部电影。在电影文本中,作者通过隐喻和叙事,构建了一个属于创作者个人的西部历史。在此文
基于ANSYS对某实际双套拱塔斜拉桥3种桥塔标准尺寸的截面进行特征值屈曲分析,得到3种截面的三阶失稳模态,通过和规范进行对比得到3种尺寸的组合截面稳定安全系数。组合截面钢
目的研究感性意象与造型设计要素之间的关系。方法以古典坐墩作为研究对象,收集古典坐墩样本并进行造型要素的分类,运用K均值聚类分析筛选出12张具有代表性的图片。以问卷调
<正> 在油做榄嫁接中,为促进接穗与砧木的愈伤结合与愈伤分化(沟通接穗与砧木的输导组织),以提高油橄榄嫁接成活率,我们于1975年开始,开展了用吲哚丁酸,—萘乙酸等激素处理油
目的:研究经皮靶点激光间盘汽化治疗脱出而非游离型腰椎间盘突出症的疗效和安全性。方法:经CT及MRI检查证实为椎间盘脱出但没有游离的,与症状、体征相一致的腰椎间盘突出症患
<正> 在第七届全国美展上,陶世虎的一幅题名《柱》的水彩画受到专家们的高度赞扬。这幅画的构图采用垂直式和水平式的大透视画面,雄浑厚实而又亮丽透畅,惊叹的精细写实中透出
大学英语大班授课给口语教学带来诸多问题,尤其是如何保证学生的口语活动参与度一直是难题之一。行动研究已经普遍应用于英语教学研究中。因此,在大班口语教学中采用任务型教