短文本主题模型的研究与系统实现

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:qingsong009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在移动互联网高速发展的今天,短文本以其便捷高效的传播优势,极大地满足了人们随时随地参与网络活动的需求,日渐作为主流的信息载体。同时海量的短文本信息也是人们在现实世界与网络世界的真实映射,对这些短文本信息进行分析和挖掘,能够更好地引导真实世界的行为,也促使更多新的应用落地,从而更好地服务于人类自身。主题挖掘作为一项基础的文本分析任务,可以从规模庞大的文本中挖掘出潜在的主题信息,传统的主题模型在长文本的主题挖掘中已经有较为成熟稳定的应用,但是短文本受限于文本长度,在信息的表达上非常简短随意,具有严重的稀疏性和上下文信息匮乏的问题,稀疏的词共现信息使得模型推断的准确性遭受很大挑战。针对短文本稀疏性、语义缺乏的特性,本文分析了现有的短文本主题模型,并提出了基于语义增强和词频逆文档频率的词对主题模型(Semantic Enhancement-TFIDF based Biterm Topic Model,SEI-BTM),模型包括以下几点:(1)以词对为建模对象,缓解统计推断上的词共现信息的匮乏;(2)使用词嵌入技术,在大规模短文本集合中训练得到词表示,将词对在词表示上的相似性作为模型的上下文语义关联先验信息,缓解短文本信息不足引起的语义缺失;(3)使用知识嵌入技术,在大规模知识库中训练得到知识表示,将词对在知识表示上的相似性作为模型的实体关联先验信息,补充短文本在内容表达上的缺失;(4)引入词频逆文档频率先验信息来限制高频词引起的推断偏差。本文选择了 4个代表性的短文本主题模型作为对比进行实验,实验表明SEI-BTM模型较其他模型在分类准确率和主题一致性上都有更好的效果。网络评论作为短文本信息的典型代表,是人们在互联网时代交流和展现自我的重要方式,体现了用户的真实想法和感受,一直是学术界和工业界的研究热点。本文选取网络评论数据作为分析对象,将SEI-BTM模型应用于网络评论的挖掘中,设计并实现了网络评论挖掘系统。系统通过网络爬虫技术从互联网中采集评论数据,经过清洗与预处理后,进行主题挖掘,包括主题获取、主题摘要、主题演化,以及观点挖掘,包括评论属性抽取、观点抽取以及情感倾向性分析,最终系统以可视化的方式对分析结果进行展示。
其他文献
北宋記體文非常發達,而亭記更是其中的一支奇葩。北宋亭記,内容豐富,形式活潑,它與唐代亭記相比,不僅變得成熟、完善,而且在各個方面都有所發展創新,從而具有北宋一代亭記新的風貌。
九十年代以来,随着国际互联网的发展,网络文化逐渐成了中华大地上的一道新的文化景观。网络文学作为网络文化的一个重要组成部分,它不但是网络文化花园中的一只奇葩,而且也是我们
改革开放以后,我国金融市场的蓬勃发展,取得了瞩目的成绩。其中,证券公司作为资本市场的中介机构,对资本市场的发展提到了决定性的作用。证券公司的发展不仅帮助国有企业的改
金圣叹是中国古代最负盛名的文学评点大师,著述宏富,好为怪诞狂放之论,其评点文学批评理论是中国古代文学批评史上一个特异性存在。从晚清到本世纪,学术界对金圣叹的研究有对他身
怀古词是词人经古代遗迹咏怀古人、故事所填之词,也有为数不少的作品借助怀古包含对当今时事之感慨。本文首先对怀古词的渊源加以追溯,简略论说先秦至唐代的咏史诗、怀古诗对
建筑工程是对于房屋建筑及其附属设施的建造和与其配套线路、管道和设备的安装活动所形成的工程实体,也是满足人们生产、居住、学习和公共活动的重要保障。随着我国经济发展
纺织原料及其产品中纤维种类的鉴别是以各类纺织用纤维的形态特征及其理化性能为客观依据的,纤维细度和含量是重要的指标。传统上对羊绒及其混合纤维的检验与测试多利用投影显
叶圣陶先生是我国当代著名的语文学家、教育家,作为语文学界的老前辈,他为我们留下了许多语文学著述。他的语文教育思想博大精深,鲜明地指出“语文是工具”的性质,认为培养学生正
徐坤是20世纪90年代中国文坛上知名的女作家,以知识分子和城市女性生活为主要题材,在徐坤的女性题材创作中,她深入地探讨了女性在与男性生活中的困惑和挣扎,表达着个体的但又具有
产能过剩已成为威胁中国烟草商业行业发展且亟待解决的问题之一。文章从资产管理的视角研究企业资产管理理论与方法,以优化资产配置的方式,实现国有资产增值保值为目标,来降