【摘 要】
:
本文提出了一种提高中文文本分类器推广性能的方法.一般而言,采用机器学习的方法对文本集合进行训练,可以获得文本分类器.本文引入了文本语义不变性常识,并将其融合到文本分
【机 构】
:
中科院计算技术研究所智能信息处理重点实验室,北京大学计算机系
论文部分内容阅读
本文提出了一种提高中文文本分类器推广性能的方法.一般而言,采用机器学习的方法对文本集合进行训练,可以获得文本分类器.本文引入了文本语义不变性常识,并将其融合到文本分类器中,提出了改进文本分类器的方法.与支撑向量机相结合,设计并实现了改进的文本分类器.对中文文本分类的实验表明,文本语义不变性常识的运用有效地改善了分类器的推广性能.
其他文献
利用等离子发射光谱仪、能谱仪、X射线衍射以及金相分析等手段,研究了RE和Al5TiB对消失模铸造B319铝合金组织的影响.研究表明,在消失模铸造条件下,RE的质量分数为0.2%时可使B
用挤压铸造制备Mullite/ZL101复合材料.用光学显微镜及透射电镜(TEM)观察复合材料及其基体合金的微观组织,用硬度测试及差示扫描量热仪研究Mullite/ZL101复合材料及其基体合
武钢炼铁厂在无料钟炉顶布料控制改造中采用分段线性化/经验公式法描述流量-开度曲线,在恒料流控制中采用流量反馈改进下料门控制,利用折返布料完善现有布料方式,显著提高了
高压、低温条件下 ,天然气中含有一定的水分 ,在管道、井筒以及地层多孔介质孔隙中形成水合物 ,水合物的形成会造成巨大的危害。水合物的结构有I、II和H型 ,大多数水合物理论
目的:观察外周血白细胞(WBC)计数在2型糖尿病患者中的水平及其影响因素.并应用罗格列酮进行干预治疗,探讨罗格列酮的血管保护作用.方法:75例2型糖尿病患者应用罗格列酮4 mg/d
针对孤岛油田采出液性质变化,导致现有破乳剂效果变差的问题,研制了以改性酚醛树脂为起始剂的PO/EO多嵌段聚醚的扩链产物,即油溶性原油破乳剂GD-2。该产品于2001年8月在孤岛
该文在对Bluetooth无线通讯技术和网络技术讨论基础上,结合设备状态监测现场的具体应用特点,提出了一种新型的分布式无线状态监测体系的基本框架,并讨论了这种系统实施的可能
目的:应用近红外漫反射光谱法对红霉素薄膜衣片进行一致性检验。方法:使用矢量归一化对某厂家红霉素薄膜衣片进行预处理,建立一致性检验方法。结果:确定Conformity Index(CI)
分析EJB组件访问数据库的实现技术及优势,给出EJB体系结构中Session Beans和Entity Beans访问数据库的实现过程.
简要地介绍一条已经用于实际生产的适合于各类型小轿车车体焊接的全自动生产线,它主要由机器人、自动设备和传输链等构成。年产量为24万台。生产效率及产品质量均属世界先进