【摘 要】
:
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素
【机 构】
:
合肥工业大学管理学院,合肥工业大学过程优化与智能决策教育部重点实验室
【基金项目】
:
安徽省年度重点科研项目计划(No.JZ2016AKKG0825);国家自然科学基金创新群体项目(No.71521001)
论文部分内容阅读
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果
其他文献
通过对果树"2+X"氮肥总量控制田间试验结果标明:优化区、130%优化区、常规施肥处理间产量无差异,与70%优化区、无氮区差异显著。
目的探讨对冠心病患者行瑞舒伐他汀和阿托伐他汀治疗的临床效果。方法抽取我院在2018年1月至2018年12月接收的106例冠心病患者进行分组比较,将其按照双盲法分为实验组和对照
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
以湖南省会同县炼山造林后4个不同年龄杉木人工林为对象,采用空间代替时间的方法,研究了炼山造林后杉木人工林林下植被多样性变化规律。结果表明:4个不同年龄杉木人工林林下
目的探讨羊膜腔穿刺术对HBV携带孕妇胎儿宫内感染风险的影响,为产前诊断提供科学指导。方法选取2015年1月—2019年1月就诊于青岛市妇女儿童医院的504例HBV携带孕妇作为研究对
中世纪晚期英国一直为乞讨问题所困扰,此时乞讨问题的出现是多种社会因素的结果。虽然中世纪基督教会主张对所有的贫困者予以救济,但中世纪晚期英国仍出现对乞丐限制的普遍呼声
综合评述了国内外河道采砂影响分析数值模拟方法,包括经验分析法、水流数值模拟、泥沙数值模拟、采砂坑数值模拟等,最后关于河道采砂影响的数值模拟在今后应进一步开展的工作
目的调查住院患者跌倒及坠床现状,分析相关因素,为进一步做好患者的安全管理提供依据。方法回顾性分析2015年1月—2018年6月发生的103例跌倒、坠床不良事件。结果89.32%(92/1
行政执法机关、司法机关以及其它国家机关和组织在履行职责,贯彻执行法律、政策过程中可能存在的影响公正执法、侵犯公民权利、影响社会稳定和公平正义的带有普遍性、倾向性