【摘 要】
:
随着网络视频的大量增长,越来越多的人开始在视频网站上发表对视频的评论。这些评论通常会带有用户的个人情感色彩和视频的关键信息,评论对网络用户的视频观看决策有重要的影
论文部分内容阅读
随着网络视频的大量增长,越来越多的人开始在视频网站上发表对视频的评论。这些评论通常会带有用户的个人情感色彩和视频的关键信息,评论对网络用户的视频观看决策有重要的影响,如何自动的对网络视频评论进行情感分类和关键词提取,已成为目前亟待解决的问题。本文重点研究并实现网络视频评论的情感分类和关键词提取。在情感分类方面,阐述了抓取网络视频评论的具体方法,并提出了基于情感词典的自动标记语料的方法。在构建情感分类模型的过程中,按照构建机器学习模型的具体步骤,分别提取词、双词搭配及两者组合分别作为特征,并使用互信息、卡方统计等特征选择方法。在分类算法选择方面,主要使用了朴素贝叶斯、逻辑回归、支持向量机等分类算法;分析不同的特征提取和特征选择方法以及不同的分类算法对网络视频评论情感分类精度的影响。按照上述步骤,最终确定了网络视频评论的情感分类模型。在关键词提取方面,详细阐述了主流的中文关键词提取算法的原理和使用场景,具体实现了 TextRank算法,并运用该算法提取网络视频评论的关键词。在提取关键词的同时,还具体判断了关键词的情感极性,并按照不同的时间粒度对关键词进行统计。最后,在具体场景下,对已实现的情感分类模型和关键词提取算法进行了测试,并将实现的情感分类模型和关键词提取算法应用于本文的系统中。
其他文献
随着电力系统的迅速发展,电力系统的结构和运行方式日趋扩大和复杂,调控中心的自动化水平也不断得到提高。为保证电力系统运行的安全性和经济性,要求调控人员能够迅速、准确
以徐市、莒口、沙县、莆田、顺昌、建阳、尤溪、政和8个4年生的千年桐种源为研究对象,通过对不同种源千年桐叶片全氮、土壤水解氮、铵态氮、硝态氮含量聚类分析,初步判定千年
传统服装结构设计主要依赖于专业制版师完成,其自身的局限性导致其耗时长、效率低、成本高,而且制版的质量完全取决于制版人员的专业水平和经验,受主观影响较大。加之,个性化理念的转变,促使服装行业向着小批量、多品种方向发展。提高服装企业的“快速反应能力”成为提高企业竞争力的关键,因此迫切需要寻找一个实现快速制版的方法。本课题以服装款式图为研究对象,利用图像处理与识别技术从样本库中检索出与目标服装部件(以衣
砷是一种明确的环境污染物,在土壤,水和空气颗粒中普遍存在。目前流行病学研究已经明确发现,砷的暴露与肺癌,皮肤癌,膀胱癌,肾癌和肝癌的发展密切相关。砷的暴露形式主要两种
改革开放以来,我国劳动力要素价格逐年攀升、劳动力数量占全球劳动力总数比重缓慢下降;资本市场日益完善,国民金融意识不断增强;研究与试验经费支出占国民生产总值比重不断增加,这一系列要素的变迁促使我国经济总体发展稳中有进,曾经那些为了参与国际分工而吸引来的外资企业在我国的生存环境也发生了变化。随着我国各项外资政策的调整,目前,已有部分传统的劳动力密集型外资企业退出中国市场,开始向越南、印度尼西亚等东南亚
随着科学技术的不断进步和各领域对海洋运输工具等要求不断提高,船舶的智能化已经势在必行。在有关于无人艇的运动控制研究中,正常的航行控制被研究的比较多,有关于无人艇的自动靠泊过程则研究较少。但是,研究无人艇的自动靠泊问题又是非常必要且有意义的,成熟的自动靠泊系统可以有效减少靠泊人为事故,降低人力财力等各方面的投入。本文针对欠驱动无人艇的自动靠泊控制问题,将靠泊控制过程分为靠泊路径跟踪控制过程和镇定靠泊
地震是常见的自然灾害,给广大居民的人身和财产安全带来了严重的威胁。对地震灾害的历史规律研究,以及地震灾害的预防和趋势判断尤为重要,对地区安全防范工作和自然灾害防治
随着国民经济的快速发展,人类的生产生活都离不开各种化学物质,但危险化学品引起的安全问题更加突出。与此同时各类危险化学品发生泄漏事故后,会造成巨大的人员伤亡和经济损失,而反应性的危化品更是会与大气中的物质反应,生成新的有毒物质。它们的扩散情况会受环境温度湿度、风速风向、大气稳定度、释放源的状态等影响,更加难以预测和辨识。四氯化硅是多晶硅产业的主要副产物,有强腐蚀性,强刺激性,易挥发,易潮解生成有毒的
近年来,随着城市建设的进一步推进,城市生态系统的压力越来越大。作为城市生态系统重要水源之一的城市湖泊一直以来均为研究的热点。城市小型湖泊具有对环境变化的高敏感性,
随着能源的紧张和环境的恶化,光催化发挥着越来越重要的作用。太阳光中紫外光的能量仅为5%,可见光和近红外光的能量达到95%,而传统的光催化剂仅能利用到紫外光,导致其对太阳