基于两步策略的中文短文本分类研究

来源 :大连海事大学学报 | 被引量 : 0次 | 上传用户：zbbankcomm

【摘要】

：

为更好地挖掘文本信息,研究了将两步策略用于中文短文本分类的3个关键问题,提出了基于组合朴素贝叶斯(NB)和K近邻(KNN)分类器的两步中文短文本分类方法:(1)直接利用NB和KNN的

【作者】

：

樊兴华王鹏

【机构】

：

重庆邮电大学计算机科学与技术研究所,

【出处】

：

大连海事大学学报

【发表日期】

：

2008年03期

【关键词】

：

中文短文本文本分类两步策略朴素贝叶斯(NB) K近邻(KNN)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为更好地挖掘文本信息,研究了将两步策略用于中文短文本分类的3个关键问题,提出了基于组合朴素贝叶斯(NB)和K近邻(KNN)分类器的两步中文短文本分类方法:(1)直接利用NB和KNN的输出构造其对应的二维空间,根据该空间内错误文本的分布将测试文本集分为3部分:能被KNN可靠分类的文本集A,不能被KNN可靠分类但能被NB可靠分类的文本集B,其他文本集C.(2)用KNN、NB分别对文本集A和B进行分类,根据训练语料的类别分布,直接给属于文本集C的文本分配标签.与NB、KNN和支持向量机(SVM)的对比实验表明,该方法可获得较高的分类性能. In order to better mine the textual information, three key problems of using the two-step strategy for Chinese short text classification are studied. Two-step Chinese essay based on the combined Naive Bayes (NB) and K-Nearest Neighbor (KNN) The classification method: (1) directly use the output of NB and KNN to construct the corresponding two-dimensional space, according to the distribution of the error text in the space will be divided into three parts of the test text: can be reliably classified by KNN text set A, can not Which is reliably classified by KNN but which can be reliably classified by NB, and other texts C. (2) Classifies text sets A and B respectively by KNN and NB, and according to the class distributions of training corpus, directly belongs to the text set C The comparison experiments with NB, KNN and Support Vector Machine (SVM) show that this method can achieve higher classification performance.

其他文献

HPLC法测定阿如塔嘎其汤中栀子苷的含量

阿如塔嘎其汤(蒙药)是由诃子、栀子、苏木等六味药组成的多剂量包装的汤剂,用于治疗、头痛、高血压等症,属医院制剂,批准文号为"赤卫药制字[(98)P-0056]号".通过文献检索并参

期刊

高效液相色谱法阿如塔嘎其汤栀子苷含量

回火对C-Si-Mn系双相钢组织与性能的影响

在实验室研究了回火温度对C-Si-Mn双相钢力学性能与显微组织的影响。力学性能测定结果表明,250℃以下的低温回火,对改善双相钢的伸长率具有良好作用,但是其它力学性能的变化

期刊

双相钢回火显微组织力学性能

STD门诊就诊者HSV-Ⅰ、Ⅱ型IgM和IgG的检测与分析

应用酶联免疫吸附试验(ELISA)检测就诊者血清中HSV-Ⅰ、Ⅱ型IgM/IgG抗体.以掌握性传播疾病(STD)门诊就诊者HSV-Ⅰ、Ⅱ型感染情况.结果: 91例就诊者检出HSV-Ⅰ型IgM和IgG分别

期刊

STDHSV-ⅠHSV-ⅡIgMIgG

护理干预对减轻剖宫产术后疼痛的价值

目的探讨护理干预对减轻剖宫产术后疼痛及生理功能恢复的影响.方法选取2007年7～12月间480例剖宫产术后产妇为观察组,采用综合护理干预(疼痛教育、心理护理、提供轻松舒适环

期刊

剖宫产术疼痛手术后护理干预

川芎嗪对急性胰腺炎大鼠细胞凋亡的影响

目的:研究川芎嗪(TMP)对急性胰腺炎(AP)血栓形成、组织病理变化、氧自由基和细胞凋亡的影响机制。方法:采用十二指肠胆胰管逆行加压注射5%牛磺胆酸钠的方法制备大鼠AP模型,动

期刊

川芎嗪急性胰腺炎细胞凋亡大鼠

军用自动测试系统的标准化研究

针对保障装备标准化方面存在的不足,提出了相应的解决措施,同时对自动测试系统涉及的系统研制及软件开发、硬件接口、测试与诊断信息等国际标准进行了研究,为我国军用自动测

期刊

军用装备军用自动测试系统标准化

上皮样血管内皮瘤的影像学表现及文献复习

目的分析上皮样血管内皮瘤(EHE)的影像学表现,以提高对该病的认识.方法收集3例经病理证实的EHE检查资料,结合临床、病理及文献讨论其影像学特点.结果肺上皮样血管内皮瘤(P

期刊

血管内皮瘤上皮样体层摄影术X线计算机放射学

叶酸代谢相关基因的多态性与唐氏综合征的关系

目的研究叶酸代谢中亚甲基四氢叶酸还原酶(methylenetetrahydrofolate reductase,MTHFR)基因的的遗传多态性是否与唐氏综合征(down syndrome,DS)的发生相关. 方法选择100例

期刊

唐氏综合征亚甲基四氢叶酸还原酶(MTHFR)高半胱氨酸多态现象遗传学Down syndromeMethylenetetrahydrofolate r

过期妊娠并羊水过少对妊娠结局的影响

目的探讨过期妊娠并羊水过少对孕产妇及围生儿的影响.方法过期妊娠合并羊水过少孕妇48例作为观察组,选择同期正常足月妊娠48例作为对照组,比较两组间妊娠并发症、分娩情况

期刊

妊娠过期羊水过少分娩结局

液压扩张联合手法松解治疗粘连性肩关节囊炎的疗效观察

目的探讨液压扩张联合手法松解治疗粘连性肩关节囊炎(冻结肩)的疗效.方法 78例冻结肩患者随机分为三组,单纯手法松解组28例行臂丛神经阻滞麻醉下手法松解,手法松解+透明质酸

期刊

液压扩张舒筋整复手法肩凝症Hydraulic pressure distensionMuscle tendon relax reductionFroz

基于两步策略的中文短文本分类研究

其他学术论文