【摘 要】
:
通过Python网络爬虫获取IMDB网站美剧《权力的游戏》影评并进行数据清洗,利用自然语言处理(NLP)对数据进行文本规范化、TF-IDF特征提取。采用有监督机器学习技术对模型进行训
论文部分内容阅读
通过Python网络爬虫获取IMDB网站美剧《权力的游戏》影评并进行数据清洗,利用自然语言处理(NLP)对数据进行文本规范化、TF-IDF特征提取。采用有监督机器学习技术对模型进行训练、测试、评估,并用经过训练的模型分析规范化处理的影评文本,得到该剧影评的正负情感,并对其进行可视化处理与分析。运用隐含语义索引技术对标记过情感极性的影评文本进行主题建模,分别提取评论主题。展开爬虫分析影评对涉军舆情监控的启示。
其他文献
清代著名诗人袁枚与宗室诗人裕瑞交往的两份文献《思元主人诗序》和《答豫亲王世子思元主人》均有袁枚亲笔手稿传世。本文通过分析这两件手稿,不仅新发现一首袁枚佚诗,而且根
CT 增强扫描技术是目前影像诊断学中重的检查方法,但该项检查需注射有可能发生不良反应的对比剂,易给患者造成心理负担,引起患者焦虑恐惧的心理。因此,CT 增强扫描前对患者进行心
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
啦啦操起源于美国,经过一百多年的发展,成为了一个国际体育竞赛项目,啦啦操发展迅速,受到世界各国青少年的喜爱。2002年传入中国,在国家体育总局体操管理中心和全国啦啦操委
自第7届全国少数民族传统体育运动会列为正式竞赛项目以来,高脚竞速受到了社会各界的广泛关注。分析研究云南省第9届少数民族运动会2名女子运动员高脚竞速100m的技术特点,总
目的:探究瑞格列奈联合利格列汀治疗糖尿病肾病的临床效果。方法:以双盲随机分组法将40例糖尿病肾病患者分成单一治疗组(n=19例)和联合治疗组(n=21例),其中单一治疗组对患者
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技