字频统计相关论文
本文介绍了作者近期从5千余万字当代语料中对GB13000.1字符集20902字和88102条词语进行流通频度统计的结果.比用历史语料统计的使......
针对现存多模匹配算法WM存在的三个缺点:每次参与匹配的模式串数量大、字符比较次数多、失配时文本串匹配窗口向右移动距离过小,提......
文字处理不只是字形处理:显示、排版、打印。它有更广阔的领域,更高的层次,如音频、字频统计、排序、自动添加附加成份等等。字符编码......
"泻"是一个常用字,按照《汉字信息字典》所载有关字频统计,其使用频序与"鞋"相近,我们每个人都能随意说出若干由"泻"组成的常用词。对......
汉字历史悠久,在漫长的岁月中积淀了非常深厚的汉字本体历史,逐步建立囊括几千年历史文明的超大型汉字形体数字仓库——字料库,是......
随着新式学堂的诞生,教科书在传统文化传播过程中担当的重要作用也越来越突出。民国处于特殊的过渡时期,民国教材也处在由文言向白话......
学位
最近,由北京书同文数字化技术有限公司承担的国家语委“十五”科技重点项目“古代汉语字频统计”“中国古籍用字在ISO/IEC10646CJK......
对常用字在教育资源电子文本中的覆盖率、使用率、字频统计算法进行了研究,并根据算法通过计算机语言开发常用字覆盖率统计分析系......
本文以唐代碑志材料中的楷书为研究对象,利用中国碑刻电子平台,对唐代碑志的楷书形体进行全面的整理。
在对本文所选取的500篇......
本文以汉简中的隶书为研究对象,利用计算机及电子文本,对西域汉简中的隶书进行全面的整理。
对敦煌汉简、居延汉简、武威汉简等......
作者以《西安碑林-唐开成石经-春秋左氏传》为底本,建立相应的字料库。基于字料库提供的材料,将底本出现的全部文字进行整理、分类和......
本论文以开成石经《孟子》拓本的第一手材料为研究对象,主要运用“字料库建设理论”、“字的单位”理论及“异体字的界定”理论中的......
语料处理软件(HC2007YLCL)自从2006年初投入试用以来,经过多次修改和完善,已经相当成熟,本软件已经于2007年12月12日获得国家版权,......
本文用误差估计方法,在给定误差限和置信概率的条件下,解出了汉字字频统计的抽样规模,解出了一种汉字字频统计的抽样规模,提出了一种汉......
本文着重介绍利用“后邻字符树”的方法在领域语料库中生成字符树库,用于自动文摘候选句子选取时提高精度,介绍了报邻字符树的构造,后......
为增强校园网的信息安全,研究基于文本的自适应的智能型不良网页过滤关键技术,提出一种创新模式并开发设计了实验系统。该模式是通......
本文以民国时期图书目录数据整理为例,讨论书目数据库数据文本整理过程中字频统计方法的应用问题。通过在数据库内部为目录字段创建......
本文论述了用计算机对专业语料库进行单字及其后继字的统计,自动生成字频及各字后继词信息的方法,并应用于文献自动文摘,本方法能在系......
为了获取数字通信中未知线路的帧同步信息,提出了一种子同步码盲检测方法.通过对帧同步问题进行建模,得出了不同字宽的字频统计中子同......
信息的特征码与关键词是信息搜索及内容过滤的核心。特征码的变异或隐蔽来自病毒与杀毒对抗机制,非法信息文件为逃避以内容过滤为......
汉字是语素文字。语素文字的性质决定了汉字体系的基本特征:字种数量庞大且不确定.由于字种和语素相关,语素和意义相关,任何字频统计结......
【正】 80年代以来,出版辞书形成热潮,种类繁多。别的不说,里程碑式的《汉语大字典》和《汉语大词典》就各编一部,正陆续出版。连......
藏文字频统计是藏文信息处理的基础性工作,通过对藏文字的部件、音节、结构和字的频度与通用度等定量统计与定性分析,为藏文信息处理......
为快速有效地过滤不良网页以保障校园网信息安全,创造性地提出了一个基于字频统计和数据挖掘技术的不良网页过滤模式,通过自适应样......
提出了一种基于颜色空间和字频统计结合的车牌分割方法。该方法是在HSV彩色空间中,充分利用车牌图像提供的彩色信息,构造出5级灰度......
对常用字在教育资源电子文本中的覆盖率、使用率、字频统计算法进行了研究,并根据算法通过计算机语言开发常用字覆盖率统计分析系......
基于语义的文本过滤方法往往具有较大的时空开销,为了设计实用快捷而有效的过滤系统,创造性地提出了一个基于字频统计和数据挖掘技术......
李贺是中唐最具代表性的诗人之一,被称为"诗鬼",他的诗风瑰丽奇峭,凄迷浓艳,这种诗风的形成与他对色彩的独特的运用方式是紧密相连......
本文提出了几个可以改善中文自动文摘系统的文摘效果的措施:1.将字频统计方法和词频统计方法有机结合起来;2.进一步研究人工文摘中......
异体字问题是现代汉字研究的热点问题之一。自20世纪50年代以来,学界对现代汉字异体字研究的焦点主要集中在异体字的界定、类型、......
<正>作为国家语委"十五"规划重点项目"课程改革实验教材语言文字状况调查与研究"的内容,我们首先对语文出版社义务教育课程标准实......
<正>充分认识突破零的重要意义开端意味着突破零。做任何事,突破零是最难的,初小中文教学面临的任务正是要帮助学生突破零。这些年......
根据中文古籍信息检索技术的需求 ,本文在大规模语料库上对古汉语进行了统计分析。首先给出了在信息处理中多个专用语料库的动态知......
<正>一、《字频千字文》只选一千个高频字学龄前儿童要不要识字,已经是个不必再争论的问题。事实是,现在恐怕没有哪个小孩入学前一......
本文选取了在新课标颁布前后出版的两套苏教版小学一年级语文教材作为研究对象,从识字量的多少、常用字的选用、识字等级的分布等......
<正>王小波(1952-1997)是中国最富创造性的作家之一(摘自百度百科,王小波词条),《黄金时代》是其当之无愧的代表作。作为当代文字......
本文全面考察了世界主要华语区域——中国大陆、台湾,新加坡、马来西亚等4个国家和地区小学语文课本,利用语料库语言学理论与计算......