基于汉字字频向量的中文文本自动分类系统

来源 :山西大学学报(自然科学版) | 被引量 : 0次 | 上传用户:sunjava2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计(LinearLeastSquareFil,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类
其他文献
目的 探讨胃肠道原发性淋巴瘤的影像学检查方法、诊断、鉴别诊断及与病理的关系。资料与方法 搜集经手术病理或内镜活检证实 ,并有较完整的消化道造影、部分CT检查资料以及
机制设计理论是研究在自由选择、自愿交换、信息不完全及决策分散化的条件下,能否设计一套机制(规则或制度)来达到既定目标的理论。设计一套好的机制需要满足三个条件:帕累托
介绍了一种新型的inside-out核磁共振传感器。该传感器磁体结构由三个沿轴向磁化的圆柱形永磁体同轴排列而成,结构紧凑。通过调节三个磁体之间的距离,可以在磁体结构外侧建立
信息技术和网络技术的发展使得越来越多的信息被制造、收集和传播,于是产生了信息爆炸和信息全球化。然而,全球范围内的信息爆炸以及信息全球化,为人们所带来的不仅仅是因信息高
随着液晶显示技术的快速发展,液晶屏抛光过程中产生的液晶屏抛光废液的量也将越来越大,该废液中含有较高浓度的氢氟酸、氟硅酸和硫酸,高浓度的氟化物暴露在环境中会对人体和
幼师钢琴伴奏技能是学生在实际工作中最重要的一项技能。在钢琴技能课的伴奏教学中采用项目教学,不仅可以促进学生更好地学习必须的知识和技能,还可以有效促进学生能力的发展
尖晶石型Li4Ti5O12作为锂离子电池负极材料以其具有在脱嵌锂过程中体积“零应变”的特性,因而具有优异的循环稳定性。另外它还具有平坦的充放电平台、安全性能好、环境友好、
随着研究的深入,对于高尔基体在植物细胞中的作用,已有了一定的认识。普遍认为植物细胞高尔基体的功能主要有:1)高尔基体与植物细胞多糖类分泌物形成有关;2)植物细胞中高尔基体不参与
<正>小学阶段是培养学生创新能力的起步阶段,小学数学教育是基础教育的主要学科,担负着重要的责任使命。因此,一定要在小学数学教学中培养学生的创新意识、创新素质,全面提高
论文概括了渤海海域的地形环境并对其赤潮发生特点进行分析和阐述,发现渤海赤潮发生呈递增的趋势,尤其是进入21世纪,渤海赤潮主要发生在5-10月份,赤潮灾害明显呈现大面积、长