【摘 要】
:
在语种识别中,传统的N-Gram方法对文本长度依赖度高,因而无法有效地对短文本进行语种识别。现有的基于神经网络的模型无法同时考虑词本身信息和词间组合信息,从而降低了短文
【机 构】
:
中国科学院新疆理化技术研究所,中国科学院大学,新疆理化技术研究所新疆民族语音语言信息处理实验室
【基金项目】
:
国家自然科学基金项目(U1703133);中科院西部之光项目(2017-XBQNXZ-A-005);中国科学院青年创新促进会项目(2017472);新疆维吾尔自治区重大科技专项(2016A03007-3);新疆维吾尔自治区高层次人才引进工程项目(Y839031201)
论文部分内容阅读
在语种识别中,传统的N-Gram方法对文本长度依赖度高,因而无法有效地对短文本进行语种识别。现有的基于神经网络的模型无法同时考虑词本身信息和词间组合信息,从而降低了短文本语种识别的质量。针对以上问题,提出一种基于深度学习的字符级短文本语种识别方法。采用卷积神经网络从字符向量中获取词中字符组合信息;通过长短期记忆网络获取词与词之间的特征信息;使用全连接网络实现相似语言的语种识别。在维吾尔语、哈萨克语以及DSL2017数据集上的实验结果表明,该方法可以有效地提高相似语言短文本的识别精度。
其他文献
阐述了有关历史名人的学识和笃行,分析了如何处理好图书馆传统文化和现代文化之间关系的问题,指出了应注重传统图书馆文化中对系统性文献的管理,学习图书馆历史名人精严无瑕
1989年全国农业资源普查时因没有找到菜芙蓉这种植物,被生物界确认为其已经灭绝,可2003年8月初中国农科院研究员唐益雄在河北省邢台市考查植物资源时却意外的在内邱县发现了
<正>椎动脉型颈椎病是中老年患者多发疾病,在临床上较为多见。据报道,椎动脉型颈椎病约占颈椎病发病率的10%15%,仅次于神经根型颈椎病,约有70%的颈椎病患者伴有椎动脉受累的
利用MODIS植被指数产品,对江西省双季早稻总产进行的估算。以江西省行政区划为分区,2005—2009年江西省8个主要水稻种植区域为样本,对分区内早稻总产与分区内增强型植被指数
品种来源:晋麦54/长5613审定情况:2007年通过山西省审定,编号“晋审麦2007006”;2008年通过国家审定,编号“国审麦2008014”。特征特性:冬性,中早熟。播期抗旱出苗率高,苗全苗齐苗壮。
在整个高速公路工程建设中,路基填筑是关键内容,对路面施工和整个工程质量提高具有重要影响。如果路基填筑施工不合格,碾压不到位,压实度未满足施工规范标准,可能导致较大的工后沉
5CrMnMo长期以来一直是我公司热锻模的主要材料,但多年来使用寿命却普遍较低,一般的锻模寿命仅在1000-2000件之间,模具消耗量极大,模具的生产和供应十分紧张。在提高锻模的使用方
2003年“非典”高居“中国主流报纸十大流行语”之首。而笔者发现,一个并没有列入十大流行语.只排在“非典专题十大流行语”第三位的词语(中国语言文字网),近来却活跃起来。它就
如今,网购已然成为市民日常生活中重要的购物方式,大到家具电器,小到日用百货,只要动动手指在网上下单就能送货上门。不过,在网购过程中,市民需“火眼金睛”去分辨商品的真伪
新城疫和禽流感均是由病毒感染引起的家养和野生禽类的急性高度接触性传染病。野鸟尤其是野生水鸟是禽流感病毒(AIV)和新城疫病毒(NDV)的天然宿主,并在禽流感和新城疫传播过程中