【摘 要】
:
本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不
【机 构】
:
清华大学计算机科学与技术智能技术与系统国家重点实验室
论文部分内容阅读
本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词不断出现 ,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明 ,在统计阈值选择合适的时候 ,通过构建的词表进行分词进而进行网页分类 ,能有效地提高网页分类的分类精度。此外 ,本文还分析了单字和分词对于文本分类的不同影响及其原因。
其他文献
1前言由于铝及铝合金具有一系列优良的物理、化学性能,在许多领域得到广泛的应用。尤其是铝合金在低温下无脆性转变,价格又较奥氏体不锈钢低,加上易成形、加工,故在空气分离设备(深
本文分析了我国农业科技体制改革的逻辑,解释了农业科技体制改革滞后的原因。农业科技体制改革是一个内生变量,其主要影响因素包括政府农业生产目标、农产品及农业生产的特殊
<正> 骨盆骨折导致后部尿道完全或不完全断裂,是泌尿外科较为常见的严重复合伤。由于骨盆骨折使手术不能在截石位完成,且又常合并有休克及其它脏器严重损伤,故使一期尿道修复
目前,九轴全地面起重机在超大型工业应用中日益增多,与其它起重机相比较,其优势在于底盘设计技术上。尤其以互联式油气悬架为代表,通过油气悬架自身改进使得全地面起重机性能
<正>先兆流产属妇产科常见病,有些患者迫切要求保胎,渴望生一个正常的健康的宝宝,我院自1999年至2002年3月间,应用"紫河车"胶囊进行保胎,收到良好效果。1一般资料本组观察对
<正>郑立柱著,人民出版社2019年1月出版,23. 6万字,68元该书以晋察冀边区党的文艺政策与实践为研究对象,全面考察了晋察冀边区的文艺政策与具体实践。作者首先考察了抗战时期
钠基固体吸收剂脱除燃煤烟气CO2技术具有反应温度低、能耗低等优点,日益受到学术界的关注。该技术的主要不足是吸收剂的活性成分碳酸钠与CO2的反应(碳酸化反应)活性较低。针
<正> 由于许多英语词和汉语词的涵义范围不同,使用习惯也不同,同一个意义,两种语言用来表达的词的数量因而也就不可能完全相等。因此,如果机械地按词面意义逐词对译,不仅难以
在国家大力支持教育国际化的大环境下,扩大教育开放、加强国际交流与合作是促进高等教育发展的要求。随着中外合作办学的发展和成熟,对与之配套的各种管理服务工作提出了更高
灾害的发生发展呈现链式有序的传承效应(灾害链),为灾害的预防和控制带来了不小的困难。上海虹桥综合交通枢纽集多种换乘方式于一体,一旦发生灾害,势必造成连锁反应,造成巨大