论文部分内容阅读
本文以民国时期图书目录数据整理为例,讨论书目数据库数据文本整理过程中字频统计方法的应用问题。通过在数据库内部为目录字段创建以汉字字形为单位的单字索引表,统计书目数据文本实际使用汉字频率分布情况,在此基础上进行异形字归并整理,最后通过索引关联实现书目数据文本字形的统一。数据库支持下的字频统计,可以作为书目数据文本整理的一种有效的方法。