基于多尺度的n-grams特征选择加权及匹配算法

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:godheihei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
n-grams语言模型作为文本分类中常用的特征,具有结构简单、易筛选、携带语义量大以及对分类贡献值高等优点。但由于其固有的结构特点,在使用普通的选择加权及匹配算法时会造成权值区分不明显,并产生大量稀疏数据,使得建立的分类模型不准确,进而导致最终分类结果的偏差。为解决上述问题,根据词性、语义及词汇的内在偏序关系,提出一种结合词汇、词性和语义的特征选择加权及匹配算法,使n-grams特征权值区分明显的同时避免在训练和测试过程中产生大量稀疏数据。在美国当代英语语料库和北京BBC汉语语料库中的实验结果表明,与传统
其他文献
本文利用公主岭市气象观测站1961-2010年50年的降水、气温、蒸发量资料,对近50年来公主岭市的气候变化进行分析,结果表明:年平均气温呈波动增加的趋势,各季气温变化与年变化趋
最大功与最小功的计算是热机的比较典型的问题.功是与过程有关的物理量,计算时需要考虑计算比较繁琐.熵增加原理是热力学的一条基本原理.利用该原理计算与过程有关的物理量要
<正> 目前,在相当一部分电石生产企业里,使用氧气吹眼出炉。在现场首先看到的是在电石炉出炉操作台附近,氧气瓶横七竖八象炮弹林立;吹氧管好似长蛇布阵。使人感到缺乏安全。
期刊
宋代以前中国古代典籍“华夷秩序”书写反映的是“天下”图景,中国与“四夷”紧密。相连,是理想秩序的构图。宋朝进入欧阳修所说的“天下不实”的时代,严华夷之辨成为时代的
针对容积卡尔曼滤波算法(CKF)在高阶非线性系统应用中,局部容积点采样不准确及系统状态突变导致滤波精度降低甚至发散的问题,提出一种改进型CKF(TSCKF)算法。采用新的容积点
目的观察慢性阻塞性肺疾病(COPD)患者体内白介素-6(IL-6)和C反应蛋白(CRP)的质量浓度变化及其与气流受限、急性发作是否相关。方法同步收集中南大学湘雅二医院2004年2月至7月
蛋白激酶CK2是一种普遍存在的多效性丝/苏氨酸蛋白激酶,在非神经细胞中发挥重要作用。近年来研究证实CK2在神经系统中也扮演不可或缺的角色:CK2在大脑中大量表达,底物众多,通
<正> 在苏联时代,独力抚养孩子对叶列奥诺拉·乌莎乔娃来说是艰难的。她并未受到人们的排斥,但社会觉得,矛盾重重的婚姻比单亲家庭更可取。如今她的两个女儿都是单身母亲,与
目的:研究盆底四维超声评估产后盆底功能康复可行性。方法:将2018年2月至2019年3月我院收治的82例产后6周复查患者作为临床资料,在盆底肌力检查中均确定为Ⅰ级,将82例患者随
<正>10月16日上午9时30分,浙建集团所属华营建筑(新股名称为"华营建筑")在香港联合交易所主板正式挂牌上市,这标志着浙建集团摘得浙江省国企境外资产境外上市第一股,朝着综合
期刊