【摘 要】
:
中文文本统计软件Cici高效地实现了对超大规模中文文本语料N-gram串频次的统计与检索。通过统计不同规模中文语料库发现,当N等于6时,语料库中包含的不同N-gram汉字串数量最多
【机 构】
:
华中师范大学语言学系,武汉大学计算机学院
【基金项目】
:
教育部人文社会科学研究项目:逻辑推理与词义匹配相融合的中文网页语义检索技术研究(10YJA740120);湖北省教育厅人文社会科学研究项目:基于语义理解的中文网页检索方法研究(2010b032)资助
论文部分内容阅读
中文文本统计软件Cici高效地实现了对超大规模中文文本语料N-gram串频次的统计与检索。通过统计不同规模中文语料库发现,当N等于6时,语料库中包含的不同N-gram汉字串数量最多。根据"句子"的平均长度和数量,可以准确估算语料库中包含的N-gram串数量。根据多数汉字串在语料库中出现频次低于10次的特点,提出对汉字串频次信息实现分段存储与排序,即对频次不超过10的汉字串独立存储,对频次高于10的汉字串进行分段排序与存储。对大规模中文文本应先进行分块统计,然后合并分块统计结果,建议分块规模约为20MB。
其他文献
近几年,全国各大城市相继建成了绕城公路,但随着社会经济的飞速发展,城市化进程加快,原设计的绕城公路部分路段出现了交通拥堵等问题。该文就杭州绕城高速公路发展的思路和改
辩论,是指持不同意见的双方彼此用一定理由来说明自己对事物或问题的看法,反驳对方观点的行为,因此具有独特的语言特色。文章从辩题和辩词两方面入手,分析了辩论所赋予二者的
电子游戏作为现代科技的产物,对儿童及青少年心理发展的影响越发引起心理学家的注意。Anderson和Bushman在2002年提出了一般攻击模型,可解释青少年期间攻击行为的发展与暴力
近年发生的医患纠纷案件严重影响了医院正常的秩序和社会的和谐稳定。造成医患纠纷案件形成的因素是多样的,有法律制度方面、医疗机构方面、医疗体制方面、患者及家属方面等,
居民人均可支配收入倍增指的是实现初次分配和再次分配共同基础上的双倍增长,这是提高居民生活水平、生活质量的基本要求。通过研究广西城镇居民人均可支配收入的具体情况,探
目的:对更昔洛韦原料及注射液中的杂质进行检测、鉴定,并进行方法学研究。方法:采用Agilent ZORBAX 300-SCX(4.6 mm×250 mm,5μm)色谱柱,以乙腈-0.05%三氟乙酸(50∶50)为流
分税制改革以后,中国税收出现了明显的增长,基于理论与实证分析研究显示,中国的税收收入在经过一个高速增长期以后,开始出现明显的放缓趋势,尽管有进一步推行减税措施的需要,
一、撰写英语教学论文要树立良好的心态提及英语教学论文写作,不少人总觉得写论文高不可攀,不敢问津。这些心态使我们对论文写作望而生畏,以致不敢提笔。因此,对我们中小学英
中小企业是国家国民经济命脉中不可缺少的重要一环,同时商业银行在信贷市场上的竞争也在逐渐加剧,这使商业银行对于中小企业信贷市场的业务开拓成为不可逆的大趋势,但商业银
近年来,汉语学习在泰国出现了热潮,越来越多的汉语教师志愿者被派往泰国各个中学从事汉语教学工作,提高泰国学生汉语学习的认识已成为必要。调查研究表明,年龄和性别、地域,