基于规则与统计相结合的藏文文本自动查错方法研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:baidawei888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对目前藏文文本自动查错方法的不足,该文提出了一种基于规则和统计相结合的自动查错方法.首先以藏文拼写文法为基础,结合形式语言与自动机理论,构造37种确定型有限自动机识别现代藏文字;然后利用查找字典的方法识别梵音藏文字;最后利用互信息和t-测试差等统计方法查找藏语词语搭配错误和语法错误等真字词错误,实现藏文文本的自动查错.实验测试集由100篇新闻类语料构成,共包含49处错误.实验表明,该文方法能有效发现非字错误和真字词错误,该方法的查错召回率达到83.7%,查错准确率达到70.7%,F值达到76.7%.
其他文献
氢能小镇是一种以氢能产业、文旅和社区为核心的,以解决能源、经济和空间结构问题为前提,并将社会空间和物理空间进行高度融合的小型社会生态体系发展模式.文章通过文献调查、案例分析和总结归纳对国内出现的氢能小镇模式进行研究,总结其空间结构特征和设计要素,对氢能小镇模式进行概念规划设计.
城市测绘与城市的发展密不可分,未来的发展趋势对具体的参数和信息会有更高要求.城市测绘不仅要辅助城市规划设计,还要适应经济发展的客观需要.随着我国测绘技术的不断优化和深化,积累了大量的土地测绘成果数据,是重要的资源.用于城市测绘的地理信息管理系统日益成熟和普及,包括GIS系统处理能力的进一步优化和升级,特别是通过云计算和网络大数据集成技术的大规模测绘信息.规模化城市测绘土地管理测绘项目成果各类统计数据综合管理和利用,极大地提升了城市测绘成果数据综合管理效率和综合应用管理效果.大规模城市地理空间和地图信息统计
为进一步改善城市水环境、提高新型城镇化质量,结合上位规划指标要求及研究区生态环境本底现状,提出了榆中生态创新城海绵城市总体规划.文章根据研究区的特征构建海绵中心,保障区域自然海绵结构,并针对城市的不同组成系统,制定了海绵城市总体建设策略.为了更好地管理榆中生态创新城雨洪综合系统,海绵城市建设与管理及控制性详细规划的落实为总体目标提供技术支撑.
文章采用ABAQUS有限元软件建立了5根再生混凝土柱数值模型,进行轴压作用下不同设计变量对再生混凝土柱受力性能的研究.轴压作用下再生混凝土柱的破坏形式与普通混凝土柱类似;随着再生骨料取代率和长细比的提高,柱的轴心受压承载力降低;随着再生骨料取代率的增加,柱的侧向挠度减小.文章建立的ABAQUS有限元模型可以进行类似轴压作用下再生混凝土构件的受力行为模拟.
针对传统方法获取地下空间数据效率低的问题,文章直接利用地面激光扫描仪快速获取地下人防工程的激光点云数据,在GPS信号极弱的情况下利用集成的GNSS/IMU获取的惯导信息拼接各扫描站点云数据,借助少量控制点可得到满足测图精度要求的点云数据,使室内外测图一体化大面积生产成为可能.
在工业遗产的保护更新流程中引入数字技术,这是在新的时代背景下为传统保护与再利用策略注入新活力的有效途径.文章以中东铁路支线附属建筑群窑门站区旧址为例,结合中东铁路工业遗产的自身特征,探索数字技术在中东铁路工业遗产保护更新流程中具备的优势,提出以BIM+AR为引导的中东铁路工业遗产空间信息数据库和成果展示路径.
异形网架球结构普遍施工难度大,精度低.项目在施工过程中通过BIM软件建立高精度BIM模型,获得网架球理论球心坐标.网架拼(吊)装过程中,利用4组反光贴实测球面坐标,输入自主开发运算程序迅速得出球心实测坐标,将实测坐标与理论坐标比较,调整网架拼(吊)装位置,从而提高施工的紧凑及流畅性,达到缩短工期,节约成本的目的.
作为智慧环卫的基础支撑,环卫精细化监管平台需要不断更新优化.本文通过对北京市各区现有环卫平台的调研,发现环卫精细化管理主要存在数据分散、数据标准不一;档案记录、历史台账不全;事件处置模式传统等问题.针对存在的问题,提出“一个环卫监管平台、一套环卫数据资源体系、全方位的环卫监管运营服务、便捷的掌端应用”四位一体的优化方案.
目前交通噪音已然成为严重影响农村声环境舒适性的噪声源之一,为了解乡镇沿街建筑室外声环境现状,文章应用PKPM室外声环境sound软件对湖南省新邵县严塘镇207国道路段进行了室外声环境模拟,分析影响乡镇沿街建筑的主要因素,并提出合宜的优化策略.
基于深度学习的跨语言情感分析模型需要借助预训练的双语词嵌入(Bilingual Word Embedding,BWE)词典获得源语言和目标语言的文本向量表示.为了解决BWE词典较难获得的问题,该文提出一种基于词向量情感特征表示的跨语言文本情感分析方法,引入源语言的情感监督信息以获得源语言情感感知的词向量表示,使得词向量的表示兼顾语义信息和情感特征信息,用于跨语言文本的情感预测.实验以英语为源语言,分别以汉语、法语、德语、日语、韩语和泰语6种语言为目标语言进行跨语言情感分析.实验结果表明,该文所提模型与机器