哈萨克语文本分类系统的设计与实现

来源 :计算机工程 | 被引量 : 0次 | 上传用户：mai120117

【摘要】

：

利用K-最近距离算法对哈萨克语文本进行分类,通过统计词频信息和语言信息相结合的方法选择特征,实现一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频,还利用特征

【作者】

：

玛依来·哈帕尔古丽拉·阿东别克

【机构】

：

新疆大学信息科学与工程学院

【出处】

：

计算机工程

【发表日期】

：

2011年5期

【关键词】

：

文本分类 K-最近距离集中度分散度 text categorization K-nearest-neighbor centralized degree de

【基金项目】

：

国家自然科学基金资助项目“现代哈萨克语词级文本语料库构建技术研究”（60763005）, 国家教育部、国家语委民族语言文字规范标准建设及信息化科研项目“基于语料库的哈萨克语词语标注规范研究”（MZ115-92）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

利用K-最近距离算法对哈萨克语文本进行分类,通过统计词频信息和语言信息相结合的方法选择特征,实现一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频,还利用特征的集中度、分散度,经过训练和统计对每一类哈萨克语文本形成特征的权重向量,根据K-最近距离算法判断测试文本的所属类别,实验结果表明该方法可行。

其他文献

自然环境

课程标准:运用地图和有关资料归纳出某一大洲的地形、气候、河流特点及其相互关系。教材分析:本节以叙述式课文分析亚洲,活动式课文研究北美洲,内容选择与组合未全面讲述大洲

期刊

自然环境能力的培养课程标准课文分析教材分析课文研究内容选择自然要素

基于PSO的可变分数延迟滤波器设计

提出一种采用微粒群优化算法计算可变分数延迟滤波器的全局鲁棒最优解方法,可变分数延迟滤波器采用Farrow结构,其中各子滤波器为系数固定的FIR滤波器.算法分为2级运算：第1级中

期刊

可变分数延迟Farrow结构微粒群优化Variable Fractional Delay（VFD） Farrow structure Particle

中国创业板市场股票首次公开发行溢价研究

本文对中国创业板市场新股首次公开发行中的溢价发行现象进行了系统研究。中国创业板市场新股上市的首日收益率为57.56%、超额收益率为57.25%,远高于发达国家和一些发展中国

学位

创业板首次公开发行发行溢价不确定性

推动提高职工素质个人服务品牌建设

<正>自1997年上海首创个人服务品牌以来,引起全国商业企业的高度重视,掀起了一股创建个

期刊

商业企业服务品牌职工素质

农村金融生态环境与金融效率相关性研究

金融脆弱性是当前农村金融中的一个重要问题。农村地区经济发展相对落后,行政力量过度参与,信用环境较差等的存在造成农村金融生态环境不够优良；农村金融二元体系的存在,金融

学位

农村金融生态环境金融效率BP人工神经网络模糊综合评价模型典型相关分析Granger因果检验

营改增对商业地产企业会计核算和纳税的影响探讨

商业地产行业作为我国国民经济的主导经济,跟人们日常的工作生活密不可分,同时也是我国税收的重要来源之一。2016年5月1日起实行的“营改增”明确将房地产业纳入了试点范围之

期刊

“营改增”商业地产企业会计核算纳税影响

浅析我国货币政策传导机制存在的问题及解决途径

近两年来我国治理通货紧缩的实践证明，贷币供应量的增加并不仅仅取决于中央银行的意愿和行为。从基础贷币的投放到货币供应量的增加，再到对实体经济发生作用，需要经历一个很长而

期刊

货币政策传导机制解决途径

后“G20峰会”时代杭州打造国际会展之都的比较研究

本文在把握杭州会展产业现状的基础上,比较分析国际会展之都建设的中国模式,明确了广交会、奥运会和世博会、G20峰会在重新动员城市资源,促进城市转型升级的巨大作用,提出以

期刊

国际会展之都G20峰会杭州城市形象会展生态系统

COWS原油罐清洗技术的应用

介绍了COWS原油罐清洗技术的原理和工艺特点,结合原油罐G109清罐实际情况,从安全环保、清罐工期、清罐质量、工人劳动强度和综合效益等多个方面论述COWS原油罐清洗技术的优点

期刊

COWS原油罐清洗技术安全环保清罐质量劳动强度

奶牛的科学饲养管理

奶牛的质量直接影响牛奶的产量和质量。所以对奶牛的饲养管理显得更加重要,根据现在奶牛饲养管理过程中存在的问题,提出科学合理的奶牛饲养管理方案。

期刊

奶牛饲养管理质量

哈萨克语文本分类系统的设计与实现

与本文相关的学术论文