AI不会断句?

来源 :科学导报 | 被引量 : 0次 | 上传用户:lt13770509399
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  人工智能经常“看不懂”中文句子,让人哭笑不得。在日前举行的自然语言处理领域(NLP)顶级学术会议ACL 2020上,来自创新工场大湾区人工智能研究院的两篇论文入选。这两篇论文均聚焦自然语言处理中文分词领域。
   据研究人员介绍,分词及词性标注是中文自然语言处理的基本任务,但当前没有比较好的一体化解决方案,而且中文分词普遍存在歧义和未登录词的难题。
   基于此,两篇论文各自提出了键-值记忆神经网络的中文分词模型和基于双通道注意力机制的分词及词性标注模型,将外部知识(信息)融入分词及词性标注模型,剔除了分词“噪音”误导,提升了分词及词性标注效果。

中文分词主要面临歧义和未登录词两大难点


   据介绍,中文分词的目的是在中文的字序列中插入分隔符,将其切分为词。例如,“我喜欢音乐”将被切分为“我/喜欢/音乐”。
   创新工场大湾区人工智能研究院执行院长宋彦分析,中文语言因其特殊性,在分词时面临着两个普遍的主要难点。
   一是歧义问题,由于中文存在大量歧义,一般的分词工具在切分句子时可能会出错。例如,“部分居民生活水平”,其正确的切分应为“部分/居民/生活/水平”,但存在“分居”“民生”等歧义词。
   二是未登录词问题。未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词。这类问题在跨领域分词任务中尤其明显。宋彦介绍,这些未登录词,会非常影响分词和词性标注模型和系统的性能。

利用记忆神经网络提升中文分词性能


   对此,其中一篇论文提出了基于键-值记忆神经网络的中文分词模型。
   宋彦介绍,该模型利用n元组(即一个由连续n个字组成的序列,比如“居民”是一个2元组,“生活水平”是一个4元组)提供的每个字的构词能力,通过加(降)权重实现特定语境下的歧义消解。并通过非监督方法构建词表,实现对特定领域的未标注文本的利用,进而提升对未登录词的识别。
   把可能成词的组合全部找到以后,加入到该分词模型中。然后通过神经网络,学习哪些词对于最后完整表达句意的帮助更大,进而分配不同的权重。例如,在“部分居民生活水平”这句话中,“部分”“居民”“生活”“水平”这些词会被突出,而“分居”“民生”会被降权处理,从而预测出正确的结果。
   据介绍,为了检验该模型的分词效果,论文进行了严格的标准实验和跨领域实验。“我们在5个经常使用的标准中文分词数据集(MSR、PKU、AS、CityU、CTB6)上面,都达到了最好的效果,在这五个数据集上的分数都刷到了历史新高。”宋彦说。

双通道注意力机制剔除“噪音”误导


   第二篇论文则提出了一种基于双通道注意力机制的分词及词性标注模型。
   据介绍,中文分词和词性标注是两个不同的任务。词性标注是在已经切分好的文本中,给每一个词标注其所属的词类,例如动词、名词、代词、形容词。词性标注对后续的句子理解有重要的作用。
   “‘他马上功夫很好’这句话,在使用外部的句法知识的时候,可能会存在‘马上’这个词被分错的情况。正确的结果应该是‘马’和‘上’分开,但是这儿如果被分成一个词,就会被识别为一个副词。”宋彦举例说。
   研究人员介绍,针对这一问题,该论文提出的模型将中文分词和词性标注视作联合任务,可一体化完成。模型分别对自动获取的上下文特征和句法知识加权,预测每个字的分词和词性标签,不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权,从而识别特定语境下不同上下文特征和句法知识的贡献。
   为了测试该模型的性能,论文在一般领域和跨领域分别进行了实验。宋彦介绍,一般领域实验结果显示,该模型在5个数据集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超过前人的工作。
其他文献
“学完Python,可以上天”“零基础入门,小白三天也能学会”……近期,社会上兴起了各种人工智能“速成”班,声称可以通过几个月的学习,实现“转行”和人生逆袭。  笔者调查发现,这类机构往往存在讲师资质参差不齐、学员简历造假、培训效果被夸大等问题。专家认为,作为一个面向未来的产业,人工智能方兴未艾。但行业出现的“虚火”,也给了教培行业“投机取巧”的机会,消费者对此需要保持“冷思考”。上至68岁、下至
期刊
“这个机器人由蓝牙遥控器控制,能爬高地、越沟壑,还可以在许多无法搭建救援平台的地方,完成搭建并救出被困人员。”近日,15岁的李佳翀向笔者展示了她发明的多地形救援机器人。李佳翀就读于寿阳县第三中学。别看她年纪小,但已经有多项小发明了。  在众多小发明中,最令李佳翀自豪的就是这个多地形救援机器人。说起这项发明,源于一场令人叹惋的事件。2016年3月,在寿阳县方山森林大火中,李佳翀的老舅、65岁的老党员
期刊
7月15日是第六个世界青年技能日。在新一轮产业革命背景下,厚植技能人才沃土,让技能魅力“圈粉”,让技能青年“发光”,是我国实现制造大国到制造强国伟大跨越的关键一步。   党的十八大以来,我国技能人才工作取得积极进展,各项政策措施不断完善,工匠精神逐渐深入人心。但也必须清醒地认识到,技能人才总量偏少、结构不优、流失不断等诸多问题依然存在,尤其是人才断档问题突出,青年高技能人才短缺依然是技能人才队伍持
期刊
长江2020年第2号洪水形成!淮河发生2020年第1号洪水!太湖发生流域性大洪水……7月以来,我国南方多地强降雨天气频发,洪涝等灾害已致数千万群众受灾。在防汛抗洪中,“黑科技”创新产品得以应用,成为利器。有意思的是,5G技术成为诸多“黑科技”创新产品的关键要素和重要支撑。电子哨兵、“5G﹢VR”远程实时观测、移动拼装式防洪墙……5G让防汛抗洪更智慧、更高效,在更大程度上保障了人民群众的生命财产安全
期刊
日前,浙江省农业正高职称评审会结果出炉,在全省109名新晋农业正高职称人员中,有4位身份很不尋常,他们的职业都是农民,是浙江省首批获得正高职称的农民,他们分别在蔬菜、畜牧、种子、茶叶种植领域深耕多年,也被称作“新型职业农民”。   正高级职称向“职业农民”开放,既是对人才的尊重,也是大力培养乡村振兴人才的创新之举,具有显著的积极效应。一方面,有利于促进农民职业化。以职称改革为支点,更好集结三农“生
期刊
近日,湖南留守女孩钟芳蓉以文科676分的优异成绩报考北京大学考古专业一事引发关注。钟芳蓉表示,受敦煌研究院名誉院长樊锦诗先生的影响,以及对未来规划的考虑,她最终选择了北京大学考古专业,以后还会读研深造,做考古研究。一时间,网友对钟芳蓉“报考考古专业”的选择产生疑惑:为什么不读更好就业、更赚钱的专业呢?与其他热门专业相比,考古专业不仅要坐冷板凳,而且没“钱”途,因而为她感到惋惜。   这么多网友“真
期刊
加快推进新型城镇化建设,意味着既要完善市政基础设施和公共服務设施,还要推进智慧城市建设和生态城市建设,让城市更宜居宜业。为此,包括城市交通、住房、医疗卫生等领域都需要升级改造。如果按照3亿人进入城市计算,一旦城市空间打开,突破土地、环境容量等制约,每年通过新型城镇化带动有效投资的空间大致在20万亿元至50万亿元规模。目前,各地都在积极推进新型城镇化发展,但根据各地人流量,需要因城施策,有的城市把重
期刊
桌面上,一只折纸小狗踩着音乐鼓点,前进的样子憨态可掬;它前方突然出现一只手,小狗“判断”前路遇障,于是缓缓地后退;快退到了桌沿,小狗似乎觉察到了危险,变退为进;有人在小狗的耳边叫唤了一声,“受到惊吓”的小狗停了下来,作“左右观察”状……   记者从杭州电子科技大学获悉,近日该校人文艺术与数字媒体学院副教授施妍带领一群不同学科专业的学生,开发出“折紙交互机器人”儿童教学系统。该系统通过寓教于乐的方式
期刊
最近,科技型企业引发了一波上市热潮,京东数科、蚂蚁集团两大“科技巨头”先后披露即将登陆科创板。从上市角度来看,强调科技未来将更有竞争力。技术及与技术相关的场景、流量等本来就是这些互联网头部企业的比较优势。转向科技、经营场景也符合国家对金融服务实体经济的政策要求。对于科技型企业来说,成功上市還有利于公司治理结构不断完善和战略目标稳健持续,也使公司价值有了公开且被广泛认可的评估机制,坚定各利益相关方对
期刊
科学导报讯 记者张娜 邰丰 为深入贯彻“健康中国”战略,推进由山西省科协主导的健康山西科普行动,8月6日,由山西科技新闻传媒集团健康365服务中心、山西省专家学者协会主办的健康365科普大讲堂公益行动在太原市喜善汇启动。山西省科协党组成员、副主席郝建新,中国曲艺家协会副主席、国际关公文化艺术促进会会长马小平,山西科技传媒集团党委负责人、董事、科学导报社社长罗光明出席活动。   罗光明在致辞中表示,
期刊