论文部分内容阅读
本文报告COLSEC语料库的设计原则与标注方法。文章描述该类语料库设计应考虑的任务场景、话语类型、话题、学习者背景等语域因素,继而讨论语料库转写与标注应遵循的"真实""准确"和"完整"原则,以及相应的头文件信息标注、话语信息标注、语音错误赋码等关键问题。我们还讨论了语料库后期加工中的赋码器选择、词类赋码格式以及转换为在线互联网资源所涉及的格式问题。文章最后阐述了基于口语语料库可进行的有关应用研究。