基于汉字字频向量的中文文本自动分类系统

来源 :山西大学学报:自然科学版 | 被引量 : 0次 | 上传用户:liangxinnet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字-类别两个向量空间的映射函数,并用该函数对测试文本进行分类。
其他文献
文中讨论了线图的萌度,得到了线图荫度的若干界。对于完全图及树,确定了其线图荫度的精确值。
在黄觉民同志《印度和缅甸》一书出版发行50周年的今天,经作者本人同意,我们有幸在此向从事南亚研究的同仁们介绍这位从延安时期就开始探讨印度问题的同志和他的著作,并希望
文中给出实n阶百在奇异不可约上Hessenberg矩阵的三个重要性质,且它被证明。当用QR算法计算矩阵特征值时,它们有重要的应用。
用自制的苯甲酰肼基硫脲及其衍生物合成了两种,4,4’-联噻唑衍生物,其组成与结构已由元素分析,红外光谱和核磁共振谱所表征,并对其进行了抗菌性研究。
于8月中下旬育越冬番茄苗,9月下旬至10月上旬定植,12月上旬开始收获,4月收完,667m2产番茄8000-10000kg,然后去掉棚膜,5月上旬播种生长期110天左右的春玉米,9月中旬收获,667m2
【正】 面对人口迅速增长及其对社会经济发展所造成的严重影响,印度的一些学者和政府官员敏锐地认识到人口迅速增长的严重性,从上世纪末起就大声疾呼控制人口增长。1881年,迈
用积分的极限定义的黎曼积于初学者来说是一个很难理论的概念。它既不是数型极限,也不是函数极限,而且一段特殊的极限。本文试图用多值函数的极限说明黎曼积分的定义。
文中运用熵和(0-1)规划方法,对风险条件下,企业投资活动进行科学决策。
应用扫描电子显微镜和光学体现显微镜研究了蜻科12属12种的阳茎。这12种蜻蜓2分别是:异多多纹eielia phaonSelys,玉带蜻Psuedothemis zonata Burmeister,黄翅蜻Brachythemis contaminata Fabricius,斜痣蜻Tramea VirginiaRamber,晓褐蜻Trithemis auroraBurmeister,锥腹蜻Aciso
首先介绍了时域有限差分方法的基本原理,然后用该方法计算了球形目标的散射场,并与由MIE理论所得到的精确解作了比较,两种结果的很好符合说明了时域有限差分方法的有效性,最后指出了