论文部分内容阅读
越来越多的数据库系统采用存储局域网络作为持久数据存储部件,系统规模往往达到TB级,测试这样规模的数据库系统通常需要人工生成符合一定统计特性的数据.尽管在数据库性能评估中数据集的生成技术已经有很大的进展,但是针对汉语短文本数据生成的研究还相对不足.针对以上问题,在分析数据生成研究现状的基础上,对数据生成器的可移植性、可扩展性和可伸缩性进行了讨论,研究并实现了汉语短文本的生成技术.