【摘 要】
:
首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(termfrequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征
【基金项目】
:
国家高技术研究发展计划(863计划)资助项目“农产品全供应链多源信息感知技术与产品开发”(项目编号:2012AA101701);广东省哲学社会科学十二五规划项目“我国农民信息需求特征及其获取渠道实证研究”(项目编号:GD11CTS04)研究成果之一
论文部分内容阅读
首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(termfrequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。
其他文献
从馆藏建设、阅读推广、统计工具与技术、电子资源等方面,对2005—2015年高校图书馆业务统计工作的研究情况进行了综述性分析,并针对研究中存在的问题提出了相应对策。
公共图书馆与城市文化发展有着密不可分的互动关系。阐述了公共图书馆对城市文化发展的影响以及城市文化发展对公共图书馆的影响,提出了公共图书馆促进城市文化发展的对策。
儿童国际收养价值的伦理关怀,实质上是对国际收养中儿童价值的关注和肯定。国际收养改变了失依儿童的价值状态,使儿童的伦理价值和功用价值得到维护。被动收养通过人的道德存
数学教学不仅是以"传授数学知识"为目的,而且要更加关注在数学教学过程中让学生经历知识的形成过程和思维方式的多样化。
【目的】为了更准确计算特征权重,以提高文本相似度计算的准确性。【方法】考虑特征项间的语义关联构造文本复杂网络并进行特征选择,定义类别相关系数并结合特征选择结果,提
在对国内一些学者使用的我国资本存量估算方法进行比较分析的基础上,本文给出了一种新的估算方法,并运用此方法对1952—2001年的我国资本存量和固定资本存量进行了估算。
城乡产业分工与协调发展是社会生产力发展到一定阶段的必然趋势,也是消除城乡差别、实现城乡一体化发展的有效途径。在我国进入"工业反哺农业、城市支持农村"的发展新阶段后,
经济全球化的深入,以大数据、云计算为代表的信息技术蓬勃发展导致了市场竞争加剧和商业模式的创新。在这样的背景下,为了适应复杂的外部环境增强竞争力,以企业集团、战略联
<正> 今年3月,苏共中央举行了戈尔巴乔夫上台以来的首次农业全会,确定了以根本改变农业经济关系为主的新农业政策。本文拟对苏联新农业政策出台的背景、具体内容和特点以及它
<正> 牙病是最常见的疾病之一,特别是老人,牙病随着年龄的增大和牙周组织萎缩程度的加重而增多。在我认识的老人当中,普遍缺牙,保留下来的部分牙齿,也是牙病频发,倾斜松动。