【摘 要】
:
针对短文本中固有的特征稀疏以及传统分类模型存在的"词汇鸿沟"等问题,我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题,并且引入传统文本分类模型中不具有的语
【基金项目】
:
赛尔网络下一代互联网技术创新项目(NGII20150106)
论文部分内容阅读
针对短文本中固有的特征稀疏以及传统分类模型存在的"词汇鸿沟"等问题,我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题,并且引入传统文本分类模型中不具有的语义关系.但进一步发现单纯利用Word2Vec模型忽略了不同词性的词语对短文本的影响力,因此引入词性改进特征权重计算方法,将词性对文本分类的贡献度嵌入到传统的TF-IDF算法中计算短文本中词的权重,并结合Word2Vec词向量生成短文本向量,最后利用SVM实现短文本分类.在复旦大学中文文本分类语料库上的实验结果验证了该方法的有效性.
其他文献
针对视频监控中人群异常行为检测方面存在的实时性和准确性问题,本文基于金字塔LK光流法提出一种动态帧间间隔更新的人群异常行为检测的方法.该算法通过提取的人群运动信息来动态更新帧间间隔,接着以该帧间间隔来检测人群运动信息.这样,算法不仅保留了原算法在检测人群运动信息方面优点,且有效提高了算法的运行效率.最后,该算法通过获取的人群运动矢量交点密集度及能量信息来识别人群异常行为.对多个视频进行测试,测试结
深度学习是当前人工智能领域广泛使用的一种机器学习方法.深度学习对数据的高度依赖性使得数据需要处理的维度剧增,极大地影响了计算效率和数据分类性能.本文以数据降维为研究目标,对深度学习中的各种数据降维方法进行分析.在此基础上,以Caltech 101图像数据集为实验对象,采用VGG-16深度卷积神经网络进行图像的特征提取,以PCA主成分分析方法为例来实现高维图像特征数据的降维处理.在实验阶段,采用欧氏
随着物联网的迅速发展,巨量的嵌入式设备广泛应用于现代生活,安全和隐私成为了物联网发展的重要挑战.物联网设备互联构成集群网络,设备集群证明是验证集群环境内所有设备的可信状态的一种安全技术,也是物联网安全研究需要解决的一个重要问题.传统证明技术主要针对单一证明者的场景,无法满足大规模集群的全局证明需求;而简单扩展的集群证明机制通常难以抵抗合谋攻击,且效率低下.为了解决这些问题,本文提出了一种基于设备分
在现代软件开发和维护中,重构是提高软件可维护性和软件质量的常用手段.而大量重构模式掺杂在日常的bug修复、功能增加等代码变更中,使得变更理解变得非常复杂.识别重构模式
针对软件行为的可信性进行了测试方法与度量标准的研究.在测试方法上,通过在软件开发阶段植入可信埋点模块的方式获取行为的动作路径,以"言行一致"思想为依据,将软件的行为声明与动作路径做比对,得到可信性测试的新方法.在判定标准上针对动作路径提出显性可信性判断指标和隐性可信指标,在度量上提出基于Kmeans聚类的隐性指标判定模型,并将此应用在单一行为的可信度计算以及相似行为的可信甄别上.通过实验验证了方法
在云计算环境下,网络安全协议的执行环境变得更为复杂,应用Web安全问题开放授权协议,可以提高信息共享的安全性.本文采用CPN(Colored Petri Net)对OAuth协议进行建模,使用仿真
针对电力系统,设备(资产)运维管理系统(PMS)与调度管理系统(OMS)之间的设备缺陷互联需要PMS运维人员进行主观判断及手动选择操作,导致人员工作量大幅增加且数据交互的不合理
针对现有的直觉模糊集聚类算法对权重的忽视或误用,提出一种基于直觉模糊解析面积的聚类算法.同时给出了直觉模糊集的解析面积和属性权重的计算方法,然后构造了聚类算法的目
微卫星是广泛分布在真核生物基因组中的短串联重复序列.微卫星不稳定(Microsatellite Instability,MSI)是指由DNA错配修复系统故障引起的微卫星区域重复序列插入或缺失的现象