基于汉字字频向量的中文文本自动分类系统

来源 :山西大学学报：自然科学版 | 被引量 : 0次 | 上传用户：liangxinnet

【摘要】

：

提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器

【作者】

：

曹素丽曾伏虎

【机构】

：

太原电信局,山西大学计算机科学系

【出处】

：

山西大学学报：自然科学版

【发表日期】

：

1999年2期

【关键词】

：

文本分类中文文本自动分类字频向量汉字 text categorization automatic Chinese text categorizati

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型，通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习，实现了基于全局最小错误率的汉字－类别两个向量空间的映射函数，并用该函数对测试文本进行分类。

其他文献

线图的荫度

文中讨论了线图的萌度，得到了线图荫度的若干界。对于完全图及树，确定了其线图荫度的精确值。

期刊

分划荫度线图partitionarboricity line graph

纪念黄觉民同志《印度和缅甸》出版50周年

在黄觉民同志《印度和缅甸》一书出版发行50周年的今天,经作者本人同意,我们有幸在此向从事南亚研究的同仁们介绍这位从延安时期就开始探讨印度问题的同志和他的著作,并希望

期刊

印度政治英国东印度公司帝国主义世界经济地理英国资本主义印度人缅甸马克思印度社会民族解放运动

对于实n阶非奇异不可约上Hessenberg矩阵的重要性质

文中给出实ｎ阶百在奇异不可约上Ｈｅｓｓｅｎｂｅｒｇ矩阵的三个重要性质，且它被证明。当用ＱＲ算法计算矩阵特征值时，它们有重要的应用。

期刊

特征值非奇异不可约上H矩阵eigenvaluenonsingularirreducible upper-Hessenberg matrix

4,4‘—联噻唑衍生物的合成,表征及抗菌性研究

用自制的苯甲酰肼基硫脲及其衍生物合成了两种，４，４’－联噻唑衍生物，其组成与结构已由元素分析，红外光谱和核磁共振谱所表征，并对其进行了抗菌性研究。

期刊

联噻唑衍生物博莱霉素合成抗肿瘤药物抗菌性?Bithiazolebleomycindrug

越冬番茄和春玉米的连作技术

于8月中下旬育越冬番茄苗,9月下旬至10月上旬定植,12月上旬开始收获,4月收完,667m2产番茄8000-10000kg,然后去掉棚膜,5月上旬播种生长期110天左右的春玉米,9月中旬收获,667m2

期刊

春玉米番茄苗连作技术越冬生长期收获播种

印度控制人口增长的政策措施

【正】面对人口迅速增长及其对社会经济发展所造成的严重影响,印度的一些学者和政府官员敏锐地认识到人口迅速增长的严重性,从上世纪末起就大声疾呼控制人口增长。1881年,迈

期刊

实行计划生育控制人口增长印度妇女政策措施印度政府人口出生率人口问题人口教育人口控制迅速增长

黎曼积分与多值函数的极限

用积分的极限定义的黎曼积于初学者来说是一个很难理论的概念。它既不是数型极限，也不是函数极限，而且一段特殊的极限。本文试图用多值函数的极限说明黎曼积分的定义。

期刊

黎曼积分多值函数极限Riemann integralmany-valued functionlimit

风险条件下投资方案的0—1决策

文中运用熵和（０－１）规划方法，对风险条件下，企业投资活动进行科学决策。

期刊

熵投资风险贴现率0-1决策investment risk risk discount rate net profit present value

十二种蜻蜓阳茎的扫描电镜观察

应用扫描电子显微镜和光学体现显微镜研究了蜻科１２属１２种的阳茎。这１２种蜻蜓２分别是：异多多纹ｅｉｅｌｉａｐｈａｏｎＳｅｌｙｓ，玉带蜻ＰｓｕｅｄｏｔｈｅｍｉｓｚｏｎａｔａＢｕｒｍｅｉｓｔｅｒ，黄翅蜻ＢｒａｃｈｙｔｈｅｍｉｓｃｏｎｔａｍｉｎａｔａＦａｂｒｉｃｉｕｓ，斜痣蜻ＴｒａｍｅａＶｉｒｇｉｎｉａＲａｍｂｅｒ，晓褐蜻ＴｒｉｔｈｅｍｉｓａｕｒｏｒａＢｕｒｍｅｉｓｔｅｒ，锥腹蜻Ａｃｉｓｏ

期刊

蜻科阳茎扫描电子显微镜蜻蜓异色多纹蜻LibellulidaepenesSEM

用时域有限差分方法计算电磁散射

首先介绍了时域有限差分方法的基本原理，然后用该方法计算了球形目标的散射场，并与由ＭＩＥ理论所得到的精确解作了比较，两种结果的很好符合说明了时域有限差分方法的有效性，最后指出了

期刊

电磁散射数值模拟时域有限差分法FDTDFDTDelectromagnetic scattering numerical simulation

基于汉字字频向量的中文文本自动分类系统

与本文相关的学术论文