【摘 要】
:
利用有监督的机器学习的方法来对中文产品评论文本进行情感分类,该方法结合了word2vec和SVMperf两种工具。先由word2vec训练出语料中每个词语的词向量,通过计算相互之间的余
论文部分内容阅读
利用有监督的机器学习的方法来对中文产品评论文本进行情感分类,该方法结合了word2vec和SVMperf两种工具。先由word2vec训练出语料中每个词语的词向量,通过计算相互之间的余弦距离来达到相似概念词语聚类的目的,通过相似特征聚类将高相似度领域词汇扩充到情感词典;再使用word2vec训练出词向量的高维度表示;然后采用主成分分析方法(PCA)对高维度向量进行降低维度处理,形成特征向量;最后使用两种方法抽取有效的情感特征,由SVMperf进行训练和预测,从而完成文本的情感分类。实验结果表明,采用相似概念聚类方法对词典进行扩充任务或情感分类任务都可以获得很好的效果。
其他文献
带DSP的数据采集模块是VXI总线领域的一个研究热点,本文介绍了基于VXI总线的数据高速采集模块的设计方法。
降低模型的复杂度在业务流程管理(BPM)领域是一个关键的问题.面向方面的业务流程建模主张从主流程中分离出不同的关注点,并单独建模,然后通过一定的编织机制组合方面与主流程.
领域适应学习旨在利用源领域中带标签的样本来解决目标领域的学习问题,其关键在于如何最大化地减小领域间的分布差异,有效解决领域间数据分布的变化.对当前领域适应学习算法
实际应用中获取到的数据集通常是动态增加的,且随着数据获取工具的迅速发展,新数据通常会一组一组地增加。为此,针对含有缺失数据的动态数据集,基于粗糙集理论,提出了一种组
提出了一种云端信息安全字形的生成模型。该模型将汉字的字形抽象为汉字结构模式和汉字的风格模式,然后通过定义有效的汉字结构输出和汉字笔画生成方案,动态地生成了可用于信
结合Logistic映射和三维离散Lorenz映射,构造了一个新的五维离散混沌映射。基于该映射,提出了一个只有两轮扩散操作的图像加密算法,在第一轮扩散操作中的密钥流与明文相关,在
定位与无线装置在公交系统中的广泛应用使得获取实时公交数据成为可能。为挖掘这些数据中蕴含的道路交通状况信息,提出了一种基于K-means聚类算法的数据融合模型,来计算相邻
精神疲劳识别中普遍存在着方法的侵扰性、实时性与识别准确率之间相矛盾的问题。为此,引入可拓理论和方法来建立问题的可拓模型,针对矛盾主体建立关联函数和策略优度函数。结合领域知识,通过拓展分析、可拓变换对矛盾进行转化,生成多种同时满足非侵扰性、实时性和识别准确率的特征和识别策略,并对策略优度进行计算和分析。实验研究验证了本方法的有效性。本研究为计算机模拟人类思维进行算法研究和创新奠定了基础。
描述了一个汽车电子嵌入式实时操作系统的分层形式模型:在低层,该操作系统的顺序内核承担基础设施的角色,实施任务、ISR和系统服务等并发执行体之间的切换;而在高层,该操作系
大多数经典活动轮廓模型只具有某些方面的优势,不能同时满足处理复杂图像的要求,对此提出一种具有多重分割特性的分割模型。模型通过引入差分图像,将差分图像的BGFRLS模型作为全局控制项,以保证模型能够最大限度地检测到所有的目标边缘;其次,将长度项设为局部项,使得分割进一步精确化,并将Li方法中的惩罚项加入到模型中,避免了重新初始化水平集函数,提高了分割效率;最后,模型在全局控制项和局部控制项之间引入了