【摘 要】
:
基于中文人名用字有较强的性别区分性,提出一种利用朴素贝叶斯从中文人名判定性别的方法,该方法将每个中文人名中的第一个字(字1)、第二个字(字2)、第一和第二个字组合(字1字2)作为区分特征,利用朴素贝叶斯分类方法对该人名所属性别进行判定.在一个41万多的中文人名语料上进行训练和测试,对比了依据不同特征组合进行性别判定的准确率,分别采用字1,字2,字1+字2,字1+字1字2,字2+字1字2,全部区分特
【机 构】
:
安阳师范学院计算机与信息工程学院,河南安阳 455000 昆明理工大学信息工程与自动化学院,云南,
【出 处】
:
2013年中国计算机学会人工智能会议
论文部分内容阅读
基于中文人名用字有较强的性别区分性,提出一种利用朴素贝叶斯从中文人名判定性别的方法,该方法将每个中文人名中的第一个字(字1)、第二个字(字2)、第一和第二个字组合(字1字2)作为区分特征,利用朴素贝叶斯分类方法对该人名所属性别进行判定.在一个41万多的中文人名语料上进行训练和测试,对比了依据不同特征组合进行性别判定的准确率,分别采用字1,字2,字1+字2,字1+字1字2,字2+字1字2,全部区分特征:字1+字2+字1字2构成的特征向量进行性别判定,平均判定准确率分别为72.75%,86.92%,88.84%,87.37%,89.35%,90.06%,取得了最好为90.06%的平均判定准确率.
其他文献
千伏级锥束CT在放射治疗、外科手术、牙科诊断等领域都有广泛的应用。然而,频繁地使用千伏级锥束CT,也会给患者甚至医生带来额外的射线辐射损伤。相关统计结果表明,X射线辐射能够诱发很多癌症的发生,特别是儿童和女性对射线辐射异常敏感。因此,合理使用锥束CT,同时降低锥束CT辐射剂量,对于降低射线辐射并发症风险显得非常重要。本文以锥束牙科CT为基础,总结了降低锥束CT辐射剂量的常用措施,包括降低电流、局部
目的 基于近似熵对常压10%缺氧后大鼠脑电图(EEG)进行分析,探讨应用近似熵衡量缺氧对脑损伤程度的可行性.方法 Wistar雄性大鼠70只,由军事医学科学院实验动物中心提供,随机分为对照组和10%的缺氧组;利用军事医学科学院提供的常压低氧舱.采用多导生理仪分别于缺氧前及缺氧后即刻、6h、1d、3d、7d及14 d,对大鼠EEG及近似熵进行检测;在10%缺氧后6h、1d、3d、7d和14 d取大脑
在不完美信息扩展式博弈的研究工作中,如何利用次优对手的弱点来获得更高的博弈收益是难点问题之一。常用方法是对手采用建模。该方法首先对对手的策略建立模型,然后对所建立的策略模型计算最佳反应策略。但由于对对手策略所建立的模型未必是准确的,从而导致计算出的最佳反应不能保证是真正意义上的最佳反应。为了避免对手建模,本文提出了从遗憾最小化的角度来利用次优对手弱点的思想,并基于一种离线的均衡计算方法——虚拟遗憾
近年来,隐私保护事务数据发布得到了研究者的广泛关注。事务数据的稀疏性导致个体隐私保护与数据效用性之间很难达到平衡。目前已有的方法大多是基于分组的匿名模型,但该类模型依赖于攻击者背景知识,且发布的数据无法满足事务数据分析任务的需要。针对事务数据隐私保护发布的数据安全性与效用性不足,基于差分隐私与压缩感知理论,提出一种有效的面向应用的事务数据发布策略(TDPS)。首先构建事务数据库的完整Trie项集树
Chan-Vese模型是一种在图像力和外部约束力作用下从初始轮廓向目标边界运动的变形曲线,在图像分割、边缘检测等研究领域得到了广泛应用。但由于图像个体差异性较大,目前针对CV模型中初始轮廓的自动提取问题研究较少。本文提出了一种基于视觉认知的自适应CV模型图像分割方法,首先根据视觉注意机制和bottom-up的底层图像特征分析,自动获取图像中目标区域的先验形状信息,用于约束CV模型中的初始轮廓,在此
HIV的传播是个体的行为、疾病的干预措施和个体之间的社会网络协同演化的结果。提出了基于agent的动态加权二部无标度网络方法的异性HIV传播和于预仿真模型,二部网络中的女性人群根据高危行为不同分为普通人群和女性性工作者(Female Sex Workers,FSW),男性人群根据高危行为不同分为普通人群和女性性工作者客户(Clients of female sex worker,CSW),给出了利
提出了一种基于指纹局部纹线距离的指纹分类方法,通过计算指纹的局部纹线距离并按照局部纹线距离对指纹库中的指纹进行排序,该方法可以有效的提高指纹的检索速度。
针对红外可见光图像融合,提出一种将显著计算和自适应脉冲耦合神经网络(PCNN)结合起来,指导多尺度图像融合中的低频系数融合的方法。这种方法合理利用了视觉显著计算的结果,充分反映出人眼对像素点的感知强度,在融合图像中最大程度保留源图像中的显著信息,因此能获得较好的融合效果。通过对一种多尺度变换方法,形态非抽样小波的图像融合实验,证明了该方法的有效性。
由于受到图像背景因素的影响,基于单纯分水岭算法较难高精度实现视频图像中人物轮廓的分割与追踪。为解决分水岭算法的过分分割问题,提出了基于颜色空间转换的区域合并划分目标轮廓区域,同时基于人物头部轮廓信息生成人物领域轮廓模型。通过对人物领域边界线生成的初步轮廓模型进行高斯函数的卷积运算,生成形态轮廓模型的有效对象模板,实现视频图像中人物领域中不基于帧间差分和移动向量亦能在视频图像中追踪移动对象。基于颜色
织物图像纹理多样化及疵点类别较多,但疵点在复杂的纹理背景中较为显著。因此,借鉴人类视觉感知机理,进行织物疵点检测具有很好的研究价值。本文结合织物图像特性,提出一种基于纹理差异视觉显著性模型的织物疵点检测算法。其基本思想是首先对图像进行分块,计算各个图像块LBP(局部二值模式)纹理特征,与图像块平均纹理特征的相似度比较,进行显著度计算,从而有效突出了疵点区域。最后利用改进阈值分割算法,实现对疵点区域