网络健康社区的主题识别与情感分析研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lxp3754
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网迅速发展以及人们对自身健康日益关注的背景下,国内外近几年有关医疗健康的网络社区不断涌现,发展迅速,用户量大且不断攀升。网络健康社区以其方便便利、自主性强、无地域差异及高度整合医疗资源的优势,成为人们管理自我健康的平台。因此,通过相关研究来加深对网络健康社区的认识和了解显得尤为重要。本文总结前人对网络健康社区的研究,选取三九健康网的肿瘤问答版块的数据,从网络健康社区的主题和情感角度切入,分别基于LDA进行主题识别和基于支持向量机进行情感分析,并对分析结果做综合讨论。本文内容主要从六个部分展开:第一部分,对研究对象的国内外研究现状进行分析,掌握研究的前沿进展。第二部分,研究了网络健康社区、信息需求、主题识别和情感分析的相关理论和方法,这为网络健康社区的主题识别与情感分析奠定了基础。第三部分,深入探究LDA主题模型的基本原理,构建基于LDA的网络健康社区主题识别模型。通过Doc2bow和TF-IDF提取文本特征,建立LDA主题模型,识别网络健康社区中隐含的主题。第四部分,提出基于支持向量机的网络健康社区的情感分析方法,构建基于支持向量机的网络健康社区情感分析模型。从数据中抽取一部分手工标注积极和消极的数据作为训练集,采用word2vec进行特征抽取并将文档转化为向量。通过支持向量机对文本分类、训练,并利用最终生成的分类器对实验数据进行预测,得到积极和消极文本所占比例。第五部分为实证研究,首先,利用困惑度确定最佳主题数量,并据此识别主题及各主题下的关键词分布,通过人工标注和对比分析,对主题进行归类合并,大致可以合并为:病理与病因、检查与诊断、治疗、术后、并发症、预防、饮食、就医指导等8类主题,详述各类主题下的主题内容,并对各主题类别所占比例做相应的分析。其次,基于支持向量机将实验文本分为积极和消极两部分,分别占78%和22%,并解释出现这种结果可能的原因。最后,对主题识别和情感分析的结果做综合讨论,即各主题下文本的情感极性分布,结合实际情况和文本内容,对各主题下积极和消极情感所占比例做简单分析。然后根据实际情况,分别从网络健康社区本身、医生、患者、研究等四个方面对研究结果的进一步应用做了合理的推想。第六部分为总结与展望,对本研究做了相应的总结,并依据本文的研究情况,对之后的探索进行展望。
其他文献
随着产业升级的推进,铝线压缩机的开发愈发成熟,铝替代铜的趋势越来越明显。本文通过对铜铝材料特性、铜铝线压缩机单体性能、整机性能及电机叠厚的数据对比,给出如何选择最优铝线压缩机的意见;通过测试对比,给出铝线压缩机保护器选型注意事项,并总结铝线压缩机的特点,指导铝线压缩机的选型及开发。
会议
当前,各国的营商环境都有了较大改善,使得传统的营商条件对企业开展对外投资的影响程度逐渐降低。然而,因文化差异而产生的投资隐性成本却逐年上升,愈发影响着投资的成功率。企业对外投资的首要目的在于获取经营效益,而文化差异所引起的文化冲突会提升企业的投资成本,减少企业收益,进而可能会影响企业的对外投资意愿。因而,探究文化交流与中国企业对外直接投资之间的相关性是十分必要的。本文基于相关理论,引入实证模型进行
学位
伴随着汉语作为第二语言蓬勃发展的需要,面世的汉语教材也渐趋多样化,而汉语教材作为连接教师与学生的“工具”,教材的质量与教学的质量呈正相关。一套汉语教材的初级部分恰好是汉语学习者接触汉语的第一本教材,作为触发汉语学习的“触手”,初级部分的汉语教材影响着汉语学习者语言综合能力的提升,也影响着学习者的学习兴趣与汉语思维。教材作为教学的直接依据,以其在教学中的地位成为汉语教学不可避免的研究对象。而中国大陆
学位
文物机构对文物资源的数字化、智慧化管理,对文物资源的传承、保护、共享、利用尤为重要。文物资源在数字化管理、研究中产生了大量相关的文物信息资源,而各类文物信息资源间又蕴含着丰富的关联关系,通过对文物信息资源间关系的探索,可以挖掘出更多与文物资源相关的文物知识,能够更好的开发文物资源和为用户提供文物知识服务。关联数据支持对不同来源的数据资源的整合,为实现各类异构、多源的文物信息资源知识发现奠定了基础。
学位
人类社会的存量知识不断积累,在教育不断发展过程中,知识按照不同的特征和性质逐渐被划分为若干个学科。学科内的知识具有相近的内涵,并且对外表现出近似的特征,具有高度的凝聚性。大部分知识都在学科内部进行交流,进而融合与创新,但这种知识流动带来的结果往往跳不出原有学科的边界。要想使人类社会的知识得到进一步开发和融合,学科之间的知识流动必不可少。以往研究大多以单个学科内部的知识流动为研究对象或者从某一特殊角
学位
针对配电网多系统数据融合与统一管理难度较大以及大数据量分析管理较为困难的问题,基于ROA架构和大数据分析技术开发了一套配电网多数据采集与智能分析管理系统。该系统采用REST技术将配电网事物抽象成用统一标识符URI标识的资源,并将数据转换成XML结构数据与其他子系统进行交互。同时利用大数据挖掘技术对配电网数据加以分析,进而实现对配电网运行状态的监控。测试结果表明,所设计的系统能够通过构建桌面应用子系
期刊
在集成电路(IC)设计的过程中准确的对顶层与模块的时序进行约束是时序分析及时序收敛的重要保证。为了提高效率,该文提出了一种时序约束的自动化等效传播方法,该方法包括时序约束的向下传播和时序约束的向上传播。相较于传统的时序约束的手动传播,自动化实现能有效避免因设计与时序迭代而带来的时序约束的手动传播工作,降低了设计时序约束的人力成本,从而加速时序收敛的迭代周期,提高时序迭代与时序收敛的效率并节约人力成
期刊
目的:探讨健康体检中彩超检查胆囊息肉样病变的应用优势以及相关因素分析。方法:选取2022年1月—12月于沂源县人民医院行腹部彩超检查的1 000名健康体检人员为研究对象,依据受检者的体检结果分为健康组(n=885)与患病组(n=115),结合患病组病理检查结果分析彩超诊断结果及彩超影像诊断征象,并进行相关因素分析。结果:彩超诊断胆囊息肉样病变的灵敏度为88.89%(8/9),特异度98.11%(1
期刊
为了使广告窗更加智能化、人性化,更吸引人,提升广告宣传效果的作用,设计了一种智能语音滚动式广告窗。该广告窗以Arduino UNO为控制中心,使用HC-SR04超声波模块检测广告窗正面是否有人停留,如果有人停留,则BY8001-16P语音模块播放与广告窗展示广告相匹配的信息;如果没有人停留,则采用Arduino UNO通过TB6600驱动器控制42BYGH34步进电机按照预定的时间周期带动主动轴滚
期刊
针对目前研究的电力终端负荷预测方法在预测过程中,未考虑负荷终端时序性和非线性的特点,存在预测精度较低,速度较慢的问题,提出了基于FCN和LSTM深度学习模型的电力终端负荷预测方法。利用循环神经网络,建立电力终端负荷预测模型,分析记忆状态,对电力终端数据进行预处理,并编码非数字特征,确定预测模型。利用均方误差公式得到的电力终端负荷预测模型的损失函数,通过数据预处理、优化数据参数、训练电力终端负荷预测
期刊