【摘 要】
:
中文分词是指把一整句话按照既定的规范切分为一个个单独的词,它是中文自然语言处理(Natural Language Processing,NLP)的一个基础任务,也是信息检索、智能问答、机器翻译等多个NLP的关键底层任务。毫无疑问,中文分词作为前期文本处理的关键环节,效果的好坏会对后面的任务处理有直接影响。基于规则和统计的传统分词方法,大多依赖手工特征模板的设计,并且用大量的工作来验证模板的有效性,
论文部分内容阅读
中文分词是指把一整句话按照既定的规范切分为一个个单独的词,它是中文自然语言处理(Natural Language Processing,NLP)的一个基础任务,也是信息检索、智能问答、机器翻译等多个NLP的关键底层任务。毫无疑问,中文分词作为前期文本处理的关键环节,效果的好坏会对后面的任务处理有直接影响。基于规则和统计的传统分词方法,大多依赖手工特征模板的设计,并且用大量的工作来验证模板的有效性,效率较低。近几年,互联网高速发展,大量新型词汇的出现更使得分词任务的难度愈来愈大。词汇覆盖不全,传统分词方法准确率随之下降。与此同时,深度学习迅猛发展,以神经网络基础的分词方法在NLP领域得以广泛应用。神经网络通过迭代学习规模较大的数据得到的模型泛化能力更强、分词效果更好。模型的输入向量由字向量与标签向量组成,通过Word2Vec字向量预处理工具做字符嵌入向量表示,应用以双向短时记忆神经网络(Bi-LSTM)与条件随机场(CRF)结合的中文分词模型作为基础模型。除了与传统的条件随机场(CRF)模型进行对比,本文在现有的中文分词开源数据集研究韵律信息对于中文分词的影响。由于韵律在现代文数据集上的结构表现一般,本文收集整理韵律结构保留最强的唐诗宋词制作古诗词数据集,获取每行文本对应的音频信息,以此得到古诗词数据的文字和阅读时的韵律结构。本文主要贡献如下:(1)本文构建了古诗词分词数据集,爬虫的方式获取典故库以及文本,预处理并结合匹配算法和人工校对得到标准数据集。另外为了获取声音特征信息,爬虫获取诗词集文本对应每行的TTS音频。(2)针对韵律对于分词效果的影响的研究,将韵律信息,包括平仄信息、声韵母信息、音调信息以及声音特征信息,融合于主流框架并与基础模型对比分析。(3)针对主流的神经网络中文分词系统Bi-LSTM+CRF提出了融合BERT的改进方法,研究使用BERT做字向量预处理,融合更多语义信息,对模型识别效果的影响。本文研究韵律在中文分词系统上的应用,以及BERT迁移用作字向量预处理的办法,经大量实验表明,该方法能一定程度上提高分词精度。
其他文献
棚户区改造是城镇化进程中的攻坚难题,也是改善民生的重大举措,如何让低矮拥挤的棚户区焕发活力,关系到广大棚户区居民的切身利益。习近平总书记指出:加快棚改,事关千千万万群众安居乐业。我们的城市不能一边是高楼大厦,一边是脏乱差的棚户区。政府作为棚户区改造中的第一责任人,要发挥好主导作用,统筹做好规划、政策制定、房屋拆迀、安置房建设、配套设施建设等社会管理工作,使各方利益达到互利共赢,那么,政府如何发挥主
人们生活水平提高的同时,卫生健康问题也日益显得重要。肝病是指发生在肝脏的病变,是一种常见的危害性极大的疾病,肝病患者因过度饮酒、吸入有害气体、摄入被污染的食物和毒品所致,肝脏有许多基本功能,肝脏疾病给医疗服务的提供带来了许多问题。一直以来肝病的诊断方法都受到学者们的广泛关注,分类技术在各种自动医疗诊断工具中非常流行,对某些疾病的诊断准确率已远超过人类医生。现在肝病的诊断检测大部分是基于功能检测,此
在湿天然气管道输送过程中,随着管路沿线地势等因素的影响,管道内的温度和压力等参数会发生改变,从而导致湿天然气在管道中析出液体。当湿天然气的输送速度较低时管道中析出
本论文主要研究了米氏酸烯烃和多取代苄卤的立体选择性环丙烷化反应,以及DMSO促进的螺环丙基米氏酸的立体专一性热解脱羧型Cloke-Wilson重排反应,合成了一系列多取代γ-丁内
无论公司规模如何,人力资源管理对所有公司都至关重要,因为它在员工的社会绩效中起着关键作用。在这方面,本研究试图研究人力资源管理实践如何影响公司的社会绩效。该研究基于2018年几内亚的港口公司。为了研究这种关系,本研究选了一变量:招聘,培训,评估,报酬,参与。为了弄清楚人力资源管理实践如何影响公司的社会绩效,本研究考虑了诸如以下问题:人力资源管理实践如何影响几内亚港的业绩?几内亚港人力资源管理做法的
电子皮带秤被广泛的应用于现代工业生产中。电子皮带秤在皮带运输物料的过程中对物料进行动态称重,可以有效提高工作效率。在对计量精度要求越来越高的现代工业生产流程中,传
当今世界万物互联、纷繁复杂。历经探索,人们逐渐认识到复杂网络是洞察世界的有力工具:通过将事件抽象化为网络节点、将事物间彼此关联关系映射为网络边,得到描述某一特定系统的网络,即可帮助人们理解该特定系统背后蕴藏的自然或社会问题。以金融领域为例:在过去的数十年里,已经有许多学者尝试将复杂网络引入其金融问题研究中,构建金融网络并对网络开展分析,更全面地理解金融系统中已存在的现象,并从中探讨系统内个体乃至整
对于高航速、大功率、多工况的高性能排水型船舶,采用螺旋桨或喷水推进器等单一类型的推进器往往难以满足船舶快速性、全工况范围高效推进、振动噪声小等多指标综合兼优的要求。针对这类船舶,在推进装置的推进器这一端采用喷水推进器与螺旋桨联合使用的混合推进方式(简称泵桨混合推进)来提升推进性能是一种值得探索的研究工作。本文以船舶泵桨混合推进系统为研究对象,开展了泵桨混合推进船舶推进性能理论分析方法、推进性能与流
笼型异步电动机拥有结构简单、使用寿命长和价格低廉等优点,所以在传动领域的应用非常广泛。但是由于恶劣工况,仍容易发生电机故障,给生产生活带来巨大经济损失。因此及时对电机进行故障检测,做好早期预防,保障电机稳定可靠地运行十分重要。转子断条故障作为一种常见的电机故障,占电机故障总数的10%左右。交流变频调速技术因其效率高、节能以及可靠性好等优点在电机驱动中应用地越来越广泛,但是变频调速状态下的异步电动机
钒由于自身独特的物理化学性质,现如今被广泛的应用于各种新兴产业。目前从含钒矿物中提取钒的方法主要是酸浸,但酸浸液中杂质离子较多,因此实现绿色高效的分离富集钒是当下