基于主题模型的文本聚类研究与应用

来源 :山西大学 | 被引量 : 3次 | 上传用户:x1010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新世纪以来,互联网技术和新媒体技术迅速发展,社会进入了充满海量数据信息的时代。信息时代涌现出各种信息载体的互联网新媒体平台类似Twitter、微博和头条,文本信息的承载媒介从纸质报刊逐渐变为网络数字媒体,网络文本日益成为现代社会的一种主要信息媒体传播形式。近年来网络文本(比如新闻,博客等)的数量出现了爆发式的增加,产生了海量半结构性或非结构性文本数据。文本挖掘领域的技术热点问题是如何从这些互联网平台产生的海量文本数据中提取出有价值的信息。本文基于主题模型进行网络文本聚类的研究,改善了传统向量空间模型在挖掘文本语义内部潜在联系上的缺陷,也克服了传统向量空间模型在文本聚类过程中可能存在一些严重的高纬性和稀疏性问题,通过将LDA主题模型计算得到的文本相似度与基于TF-IDF特征提取的VSM模型计算得到的文本相似度进行线性组合,提出了V_LDA文本聚类模型,考虑结合网络文本的特征词和主题信息实现聚类分析。该模型按照一定的特征比例系数来计算文本相似度,然后利用K均值聚类算法进行网络文本的聚类,相对于单一的VSM模型和LDA主题模型,文本聚类效果有明显的提高。同时研究发现一方面LDA模型对主题概念模糊的关键词区分存在一定的缺陷,使得主题间区分效果不明显,而且在文本主题内,各个主题词之间的关联性也较低,无效词较多难以清洗干净;另一方面现有词袋模型忽略了文档中单词与单词之间的序列性信息。针对上述两个缺点本文提出了一种结合词向量模型与LDA主题模型的文本聚类算法,将文本-主题信息映射到word2vec空间。并设置主题关键词之间的语义相似度阈值,结合主题颗粒度和词语的颗粒度进行文本聚类研究,有效利用LDA模型提取的主题信息和词向量Word2vec模型词与词之间的相似度语义信息和上下文语序信息,以实现文本聚类效果的改善。为了检验本文方法的有效性,通过爬取今日头条新闻网页内容,实验验证本文提出的文本聚类方法在六个不同新闻类别文本数据集上的准确率、召回率和F值都有明显的提高。最后基于T-SNE降维的对语料的主题词进行了可视化分析,有效的挖掘了各主题下的关键词,且保证了每个主题下的主题词有较高的语义相似度。
其他文献
印染废水是我国工业废水的重要组成部分.本文介绍了印染废水的一般特征,以及过滤、沉淀、气浮、吸附、膜分离等物理处理方法在废水处理中的研究和应用.同时还介绍了几种比较
目的研究舌鳞癌细胞自噬能力对索拉菲尼耐药性的影响。方法将pEGFP-N1-LC3质粒转染入舌鳞癌细胞CAL27,利用MTT观察细胞增殖和耐药,利用Hochest33258染色观察2组细胞核凋亡情况,W
美国研究人员近日发现,蒸、煮、炖等用水来制作食物的烹饪方法可能更有益人体健康。美国纽约大学西奈山医学院的海伦·夫拉萨拉博士说,这些方法会减少人们所吃食物中晚期糖
目的:探讨流感病毒(influenza A virus,IAV)激活TLR7/NF-κB信号通路调控COPD急性加重气道炎症反应的分子机制,为临床寻找治疗IAV感染诱导AECOPD提供新靶点和理论依据。方法:
随着企业竞争日益激烈,多元化经营成为许多企业的战略选择。旅游业利润高、增长空间巨大,许多企业将旅游业务作为多元化扩张的领域。该类企业中,以城建开发为主营业务的国有企业出于业务关联度和政企关系优势等因素选择旅游业作为多元经营的情况更为普遍,然而在选择旅游业务发展后,旅游业务与核心主营业务之间的协同发展情况,成为地方政府和相关企业关心的重要问题。近年,云南城投集团在城建开发业务快速发展的情况下在旅游业
铝及铝合金具有密度小、比强度高、可回收等优点,广泛应用于航空航天、汽车、高铁列车领域。然而,铝及铝合金的化学活泼性大,在潮湿环境中容易发生腐蚀。水滑石具有独特的可插层性和层间阴离子交换性,被广泛制备成用于铝及铝合金防腐的转化膜。近几年,许多研究者开发了各种各样缓蚀剂改性水滑石转化膜,例如8-羟基喹啉钠改性镁铝水滑石转化膜、钒酸盐改性锌铝水滑石转化膜等,均对铝及铝合金展现了良好的防腐蚀性能。然而,制
5月30日下午,杭州汽车发动机厂召开欢迎座谈会,欢迎参加HOWO欧Ⅲ新车型标定试验车队在完成了寒区、高原和热区标定试验后凯旋归来。
减振器台架试验主要包括示功试验、速度特性试验和疲劳试验.疲劳试验只是在定频、定幅下的循环试验,示功试验又可视为速度特性试验的一部分,而速度特性试验不仅要在很短的时
<正>蒙古帝国版图辽阔,哈刺和林的大汗庭中聚集了来自世界各地的贵族、将领、占星家、学者、通译、医生、乐师、舞蹈家和工匠,西域拂林人爱薛是其中的一个。爱薛生平事迹,尚
会议
<正>1资料及方法1.1一般资料本课题组将所有涉及视网膜色素变性的文献自创刊以来进行检索,获得视网膜色素变性文献781篇。经课题组筛选,获符合本课题要求的有效文献视网膜色
会议