【摘 要】
:
垃圾短信过滤是一个文本分类问题。如何设计分类器,可以在训练样本较少的情况下达到可观的精度是一个重要的问题。本文对传统分类器的结构加以改进,设计了一种基于潜在中间层的两级分类器,每级用贝叶斯方法实现。进一步地,将朴素贝叶斯分类器与之加权结合。实验结果表明,两级分类器大幅度提升了分类错误率的收敛速度。组合分类器在此基础上提高了训练样本较多时的精度,集成了两者的优点。
【出 处】
:
第五届全国信息检索学术会议CCIR2009
论文部分内容阅读
垃圾短信过滤是一个文本分类问题。如何设计分类器,可以在训练样本较少的情况下达到可观的精度是一个重要的问题。本文对传统分类器的结构加以改进,设计了一种基于潜在中间层的两级分类器,每级用贝叶斯方法实现。进一步地,将朴素贝叶斯分类器与之加权结合。实验结果表明,两级分类器大幅度提升了分类错误率的收敛速度。组合分类器在此基础上提高了训练样本较多时的精度,集成了两者的优点。
其他文献
本论文分别以甲醇和水为溶剂,以季胺化试剂处理的酯端基聚酰胺-胺(PAMAM)树状分子为模板,用硼氢化钠还原氯亚铂酸钾制备了树状大分子封装的铂纳米簇复合物。UV-vis光谱和TEM图像表明该树状分子封装的铂纳米簇复合粒子单分散性好,尺寸均一,平均粒径小于5 nm。用这种复合材料修饰酶基生物燃料电池阳极,并进行电化学性能考察。结果表明,由于铂纳米粒子良好的导电性和宏观隧道效应,使得修饰后电极的阻抗减小
浓相气力输送技术具有设备投入成本低、输送量大、能耗低的优点,是目前节能型社会极力倡导的工程技术。本研究以水泥作为输送物料,借助浓相气力输送实验台,对气固两相速度变化的特性进行了研究。结果表明,输送固气比在30以上,气固两相流随流动方向流速增大。
本文制备了[BMIM]Cl and[MMIM]dmp两种离子液体,并分别在这两种离子液体和水中,在常温和较高温度条件下制备出了Fe3O4纳米粒子,对得到的粒子通过透射电镜、X射线衍射分析、热重分析及磁性测量进行了表征研究。结果表明:离子液体在Fe3O4纳米粒子制备过程中除作为溶剂外,还起到了分散剂和稳定剂的作用,可显著提高纳米颗粒的分散性和粒度均匀性;可通过不同的介质来调控纳米Fe3O4颗粒的磁性
本研究探讨ZrO2的添加方式对以boehmite为原料制备次微米级球形α-Al2O3粉末的影响。实验以商用gibbsite为起始原料,依序经230℃热水处理及950-1100℃热处理步骤,先获得boehmite再转为θ-Al2O3。接着分别藉由珠磨加入磨屑方式及与化学品混合方式,将不同含量的ZrO2加进boehmite及θ-Al2O3粉末中,利用DTA、XRD及TEM观察ZrO2的添加方式及含量对
本文采用溶胶-凝胶自蔓延法合成锶掺杂的铁酸镧(LSF)粉体,在此基础上制备了LSF与钇稳定的氧化锆(YSZ)的复合材料,并研究了该材料应用于固体氧化物电解池(SOEC)阳极的各方面性能。通过XRD、TEM、SEM等手段研究了该材料的化学稳定性及微观结构。通过动电位扫描研究了该阳极材料的电化学性能。TEM分析显示以该方法制备得到的LSF20粉体粒径在20~50nm之间,颗粒形状较为规则。SEM结果显
采用机械力化学包覆方法,通过在绢云母表面包覆TiO2制备了绢云母/TiO2复合颗粒(SRI/Ti-CPM)。实验研究了SRI/Ti-CPM制备工艺因素的影响和SRI/Ti-CPM的颜料性能,结果表明,绢云母研磨粒度、复合时间、球料比和TiO2用量对SRI/Ti-CPM性能影响显著;SRI/Ti-CPM具有类似钛白粉的颜料性质,遮盖力为钛白粉的90%,吸油量和紫外线吸收功能与钛白粉相同,用于涂料具有
在水平Y型分支管上,采用压缩空气作为输送动力,小米作为输送物料,进行气固两相分流试验,考察了分流过程中的固相流量分配特性的变化规律。研究发现,随变动支管与主管夹角的增大,流量分配特性曲线呈整体下移趋势;对于不同结构的Y型分支管,当气体速度低于一定值时,流量分配特性曲线将出现拐点,但时机并不同步;继续降低气速,不同夹角的支管的流量分配特性曲线具有不同的单调性。最后,采用人工神经网络对固相流量分配特性
本研究利用微粒成长的热力学模式分析单晶型奈米α-Al1O3纤维之直径与长度间之存在关系。目的在探讨以热处理所制得的Al2O3纤维之直径的下限(最细)。Α-Al2O3纤维以静电纺丝法(Electrospinning)制得。纤维之直径与长度则以高解析电子显微才技术观察量测。其间并对此单晶缀维的成长微结构加以分析。研究发现,此单晶奈米α-Al2O3纤维所能存在的最小直径约为17nm。纤维由发育完好稳定的
每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。这些突发事件或话题在论坛中并不是显而易见的,它们需要通过人工的总结与归纳。这需要花费大量的人力资源,并且效率低下。如何使用机器自动化的方法抽取论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题抽取问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻
近年来,越来越多的研究者关注博客倾向性检索。它的目标是检索出不仅与特定查询主题相关而且具有对该主题有评论的博文单元(包括博义及其评论),并依据倾向性强度(即,度量博丈对特定查询的强弱)进行排序。目前大多数研究工作仅仅通过单个博文单元对查询主题的倾向性强弱对博文进行排序。然而,因为博客是博主表达自己观点情感的媒介,所以博主的个性风格能够很大程度上影响着倾向性强度。例如,乐观的博主往往用褒义程度比较强