【摘 要】
:
为解决公共语音识别引擎无法准确识别林业领域结构化词汇的问题,提出了一种基于汉字字音特征分层迭代求精的语音输入纠错算法,针对林业领域内信息的结构化特点、属性取值特定
论文部分内容阅读
为解决公共语音识别引擎无法准确识别林业领域结构化词汇的问题,提出了一种基于汉字字音特征分层迭代求精的语音输入纠错算法,针对林业领域内信息的结构化特点、属性取值特定且没有上下文的特点,通过研究汉字的读音,以及对公共语音识别引擎识别出错误结果集合中各元素的韵母、声母和字数与林业领域内具有代表性的489个结构化树种名词汇之间的关联分析,设计出有针对性的三套编码规则。为提高匹配过程的速度,本文应用迭代匹配的算法,不仅能做到快速匹配,节省时间,而且保证了匹配的准确度。经过对三套编码规则进行迭代匹配实验结果分析比对,筛选出第三代字音编码及字数编码及其匹配算法,实验结果最好,匹配准确度最高,能够有效提高林业领域内结构化树种名词汇录入准确度以及录入效率。因此,选择该套组编码以及算法做扩大规模实验分析,将实验数据规模扩大到6661个树种名词汇数据中,其基本涵盖所有结构化树种名词汇。大规模匹配实验结果表明,通过该套组编码以及算法,优化识别出匹配到树种名的实验结果要优于未优化的结果,达到本文研究目的。因此,证明该套组编码以及算法的可行性与有效性。
其他文献
随着时代的发展,地市级博物馆对社会发展的作用日益凸显,其建设也引起了各级党和政府的重视。我国相继建成了一批规模较大、功能较全的博物馆。然而,就现状来看,管理模式的单
甲基营养型芽孢杆菌(Bacillus methylotrophicus)NJ13菌株是一株对人参锈腐病菌(Ilyonectria robusta)具有较好防病效果的生防菌株。本研究开展了NJ13菌株与人参锈腐病菌DQX01的互作研究,确定了抑制锈腐病菌孢子萌发的互作关键时间点,通过转录组测序技术分析了互作过程中的NJ13菌株的基因差异表达变化和基因表达谱,以期了解NJ13中可能参与抑制DQX01孢
随着生物医学文献数量的迅速增长,如何从浩如烟海的生物医学文献中快速有效地提取有价值的信息和知识,成为当前亟待解决的问题。化学物蛋白质关系抽取(Chemical Protein Rela
无源光网络(Passive Optical Network,PON)作为一种终端接入技术,是低成本解决宽带光接入问题的最佳方案之一。然而,目前已经大量铺设的PON系统由于其上下行接入带宽较低,难
随着国民经济与城市规模的的发展,我国的供配电网络主要采用深埋于地下的电缆线路,以提高供电的可靠性与城市建设的美观。电缆线路主要埋在阴暗潮湿的环境中,一旦受到挤压、
混凝土是当前建筑结构普遍采用的主要承重结构材料,其火灾性能研究是建筑火灾安全研究的热点。目前关于高温后混凝土力学性能的研究较多,但绝大部分研究采用的是传统测量方法
让计算机真正理解人类的语言,一直是自然语言处理领域的终极目标。机器阅读理解任务则正是评价计算机对于人类语言理解能力的一个重要方法。近年来,随着预训练语言模型技术的
在金属氢化物贮氢材料中,镁基贮氢合金因其高的理论贮氢容量而备受各国研究人员的关注。近期,研究工作者们通过合金化、表面改性、添加催化剂和制备纳米颗粒等方法使得镁基贮
目的:通过一系列体外实验鉴定一种选择性结合MUC4的多肽ZP-16,并用于体内检测MUC4过度表达的胰腺癌。方法:1、多肽荧光探针ZP-16-Cy5的合成与表征:委托上海生工公司完成。2、ZP-16-Cy5的免疫荧光细胞化学实验:各肿瘤细胞株经Western Blot检测其MUC4表达水平后分别与抗MUC4荧光抗体(1G8-FITC)和ZP-16-Cy5进行免疫荧光化学实验,激光共聚焦显微镜观察各
交通对象信息的准确采集是交通效率与交通安全的基本条件之一。利用智能移动终端的传感器进行道路行人状态和车辆信息采集,实现对交通参与者的识别和统计,可以大大降低交通对