论文部分内容阅读
在北京语言大学唯一的理工类学院——信息科学学院读书,我的处境总是有些尴尬。每当亲戚朋友问我:“你在北语学什么语言啊?”我只能略带调侃地回答:“C语言啊(一种编程语言)。”本科时,我在北语读信息管理与信息系统专业。在人工智能的浪潮中,自然语言处理有很好的发展前景,因此我决定在北语继续攻读自然语言处理方向的硕士学位。
语言也能计算
以前我一直认为计算机和语言学是两个世界的,彼此没有什么关系,直到接触到自然语言处理领域,我才逐渐了解到原来语言也是可以计算的,这也是它之所以文理科学生兼收的原因。
如今智能教育非常火热,语法改错便是其中的一个重要功能,具有很大的应用价值。比如留学生在中文写作时,经常会犯一些语法错误,市面上一些基于规则的成熟的语法改错工具可以帮助他们修改作文。老师也可以在相关软件的辅助下批改学生作文,以减轻工作负担。还有我们常用的办公软件Word中的字频统计、拼写检查等功能,都是语言计算的应用。
不久前,理科出身的我参加了一个语法改错评测任务。我和小组成员一起把目前最新的神经网络模型应用到语法改错任务中,结果发现只能达到60%左右的准确率,有时候连基础的单复数、时态错误都改不对。但无论我们如何改進算法,最终也只能把准确率提升到80%~90%,剩下的10%必须有语言学理论的加持。比较常见的做法是从语言学理论中总结出一些规则,用计算机可以理解的方式表示出来,作为先验知识输入给模型。这样一来,才有可能在改错速度和质量上都超越人类,甚至达到100%的准确率。
对于文科背景的同学来说,他们没有接受过系统的数学和计算机教育,很难转型为我们这种研究算法的程序员,但他们更擅长结合一些计算的手段,进行语言学或文学方面的研究。前不久我参加了中国计算语言学大会,看到一个针对《西游记》中“真假美猴王”的研究,觉得非常有意思。
“真假美猴王”这个章节引发了很多不同的解读,引起几个文科背景的研究生的兴趣,他们首先把观点总结为以下三种:
(1) 认为真的孙悟空已经被如来佛祖打死,《西游记》后半部分取经的是六耳猕猴;
(2) 认为真的孙悟空还活着,死的是六耳猕猴,孙悟空是唐三藏的精神导师,这个事件是唐三藏的修行,消灭了唐三藏的心魔,《西游记》后半部分中,孙悟空的桀骜不驯并没有收敛;
(3) 认为真孙悟空还活着,“心魔”即是六耳猕猴,是孙悟空的反抗精神,“真假美猴王”事件之后孙悟空被“同化”,屈服于神权,再无反抗之意的悲剧结局。
到底真的孙悟空有没有死?为了找出真相,他们开始对“真假美猴王”事件前后,孙悟空与其他角色的对话进行分析,比较孙悟空在该事件前后对其他角色情感值的变化。我们都知道,在台词的前缀中通常会出现“大笑道”“骂道”“后悔道”等含有浓烈感情色彩的词。另外,台词中孙悟空对其他人物的称呼也很能表现他对人物的情感是正面的还是负面的。比如他常常叫八戒“呆子”,叫妖怪“孽畜”,对尊敬的人会称呼“陛下”“公主”,这些都可以作为计算感情值的指标。就这样,他们以老版《西游记》为语料,把符合条件的台词从语料中抽取出来,通过对各种指标的计算,得到了孙悟空在“真假美猴王”事件前后对其他角色的情感值得分。最终他们得出“真的孙悟空没有被如来打死,但这个事件消除了他的反抗精神”的结论。
看吧,原来计算机和语言学是这么密不可分!
像语言学家一样做研究
自然语言处理是一个交叉学科,想要在这个领域做出创新性的工作,就必须有一双善于发现的眼睛。这不仅能帮助我们从新的角度思考问题,更可能成为我们的学术灵感源泉。比如我有个师姐注意到“刷微博”“刷朋友圈”中的“刷”字是一种新的用法,于是就想到去研究这个字的语义变化。
在前不久的语料库语言学课上,老师布置了一个作业,让我们考察一个词的搭配情况。“搭配”在语料库语言学中是一个很重要的概念,有一套完整的理论。它要求我们在考察一个词的搭配时,不仅限于看它的常见搭配词,还要看它和搭配词是否构成了一定的语法结构,它的语义及情感是否受到搭配词的影响等等。比如“造成”一词,本来是中性的,但由于它经常跟不好的事情一同使用,使它也带有了一些消极意义。
要做好这个作业,首先得选到值得探究的词语。为了寻找灵感,我用了一种笨方法——浏览语料库。一次,我看到了“整整”一词。除了作为一种语气上的强调外,我隐隐觉得它还有一些比较特别的语法功能和语义特点。于是,我找出了语料库中“整整”一词出现的所有场景。除了“整整红领巾”偶尔用作动词之外,它绝大多数都是跟数量词或动词 数量词搭配,来形容数量之大、动作持续时间之长,比如“整整30年”“整整忙活了一天”,并且它传达的消极态度占多数,比如“‘大屠杀’整整持续了5个月。”
有意思的是,除了表示“整数”之外,我发现与“整整”连用的数量词有时还会是零数、概数。例如:“班主任和同学们整整聊了三个半小时”“筹备了整整两个多月时间,百队杯篮球京沪交流赛终于在上周末成行。”“从大厅就开始排队,整整花费了30多分钟。”
这到底是怎么回事呢?我找到“整整”在《汉语大词典》中的义项:“(1)整齐严谨貌;(2)工整;(3)达到一个整数的,十足的。” 为什么字典里面只有整数的释义呢?一心想搞明白缘由的我又翻阅了许多文献,果然发现有学者提出,应该针对“整整”不一定完全表示整数的用法修改释义,“这种用法虽然在比例上不占优势,但却非常重要。”
看到这里,你还相信我是学计算机的吗?
年度流行语的诞生
每年的 “2018汉语盘点”系列活动,都是由北京语言大学国家语言资源监测与研究平面媒体中心共同承担完成的。作为这个中心的一名研究生,我有幸参与了“2018年度中国媒体十大流行语”和“汉语盘点2018”年度字词的筛选、发布工作。 每年的流行词、流行语层出不穷,要完成中国媒体十大流行语、年度字词的筛选工作,背后的工作量相当之大。就拿我重点参与的“2018年度中国媒体十大流行语”筛选发布工作来说吧,考虑到报纸的发行量、更新周期以及地域分布等因素,我们选择了人民日报、北京日报、深圳特区报、齐鲁晚报、华西都市报等国内16家影响力和发行量较大的报纸作为语料库,收集到从2018年1月1日至11月底的全部报纸文本,语料规模近5亿字次。接下来,我们利用语言信息处理技术,根据词语出现的频次,结合人工后期處理提取、筛选,得出流行语的候选词表。
在筛选流行语的过程中,我成了语言监测这个大任务中的“小监测器”,不自觉地跟上了时代的主旋律。许多新词高度浓缩了一年时间里的中国和世界风貌,尽现时代民生民情。有些跟我们的生活息息相关,比如由滴滴打车引发关注的“网约车安全”,频频出现在电商领域的“大数据杀熟”,备受关注的长春“问题疫苗”;有些离我们有些遥远,比如在西昌卫星发射中心用长征三号乙运载火箭发射两颗卫星的“一箭双星”,在上海举办十二个国家参与的“进博会”等。一旦出现热点事件,都会在第一时间引起我们高度关注,像中美贸易摩擦、川航英雄机长、重庆公交车坠江这些我们比较感兴趣的话题,我和小伙伴甚至能像时事分析评论员那般,滔滔不绝地说上许久。
由于我们的语料来源于主流媒体,网络上流行的“安排”“真香”“冲鸭”“凉凉”等词,因在报纸语料中很少出现,最终没有进入候选词库。但作为年轻人,我和团队小伙伴们养成了一个共同的习惯:每当生活中遇到有意思的词或热点事件,大家的第一反应都是“说不定能出流行语!”前段时间,我发现“隐形贫困人口”一词突然流行,它是指有些人看起来每天有吃有喝但实际上非常穷。仔细一想,这说的不就是我自己嘛!我当时就想:“这个词真不错!做流行语研究的时候一定得跟老师提出来!”
2018年12月6日,经过我们初步筛选以及专家评审的“汉语盘点2018”年度候选字词正式发布,稳、芯、退、战、改革开放四十年、锦鲤、贸易摩擦等热门字词都涵盖其中。2018年12月15日,“2018年度中国媒体十大流行语”正式发布。十大流行语为:宪法修正案、命运共同体、进博会、贸易摩擦、锦鲤、板门店宣言、立德树人、“一箭双星”、幸福都是奋斗出来的、改革开放四十周年。2018年12月20日,由网友最终票选的“汉语盘点2018”年度字词发布:国际年度字“退”;国际年度词“贸易摩擦”;国内年度字“奋”;国内年度词“改革开放四十年”。
责任编辑:曹晓晨
语言也能计算
以前我一直认为计算机和语言学是两个世界的,彼此没有什么关系,直到接触到自然语言处理领域,我才逐渐了解到原来语言也是可以计算的,这也是它之所以文理科学生兼收的原因。
如今智能教育非常火热,语法改错便是其中的一个重要功能,具有很大的应用价值。比如留学生在中文写作时,经常会犯一些语法错误,市面上一些基于规则的成熟的语法改错工具可以帮助他们修改作文。老师也可以在相关软件的辅助下批改学生作文,以减轻工作负担。还有我们常用的办公软件Word中的字频统计、拼写检查等功能,都是语言计算的应用。
不久前,理科出身的我参加了一个语法改错评测任务。我和小组成员一起把目前最新的神经网络模型应用到语法改错任务中,结果发现只能达到60%左右的准确率,有时候连基础的单复数、时态错误都改不对。但无论我们如何改進算法,最终也只能把准确率提升到80%~90%,剩下的10%必须有语言学理论的加持。比较常见的做法是从语言学理论中总结出一些规则,用计算机可以理解的方式表示出来,作为先验知识输入给模型。这样一来,才有可能在改错速度和质量上都超越人类,甚至达到100%的准确率。
对于文科背景的同学来说,他们没有接受过系统的数学和计算机教育,很难转型为我们这种研究算法的程序员,但他们更擅长结合一些计算的手段,进行语言学或文学方面的研究。前不久我参加了中国计算语言学大会,看到一个针对《西游记》中“真假美猴王”的研究,觉得非常有意思。
“真假美猴王”这个章节引发了很多不同的解读,引起几个文科背景的研究生的兴趣,他们首先把观点总结为以下三种:
(1) 认为真的孙悟空已经被如来佛祖打死,《西游记》后半部分取经的是六耳猕猴;
(2) 认为真的孙悟空还活着,死的是六耳猕猴,孙悟空是唐三藏的精神导师,这个事件是唐三藏的修行,消灭了唐三藏的心魔,《西游记》后半部分中,孙悟空的桀骜不驯并没有收敛;
(3) 认为真孙悟空还活着,“心魔”即是六耳猕猴,是孙悟空的反抗精神,“真假美猴王”事件之后孙悟空被“同化”,屈服于神权,再无反抗之意的悲剧结局。
到底真的孙悟空有没有死?为了找出真相,他们开始对“真假美猴王”事件前后,孙悟空与其他角色的对话进行分析,比较孙悟空在该事件前后对其他角色情感值的变化。我们都知道,在台词的前缀中通常会出现“大笑道”“骂道”“后悔道”等含有浓烈感情色彩的词。另外,台词中孙悟空对其他人物的称呼也很能表现他对人物的情感是正面的还是负面的。比如他常常叫八戒“呆子”,叫妖怪“孽畜”,对尊敬的人会称呼“陛下”“公主”,这些都可以作为计算感情值的指标。就这样,他们以老版《西游记》为语料,把符合条件的台词从语料中抽取出来,通过对各种指标的计算,得到了孙悟空在“真假美猴王”事件前后对其他角色的情感值得分。最终他们得出“真的孙悟空没有被如来打死,但这个事件消除了他的反抗精神”的结论。
看吧,原来计算机和语言学是这么密不可分!
像语言学家一样做研究
自然语言处理是一个交叉学科,想要在这个领域做出创新性的工作,就必须有一双善于发现的眼睛。这不仅能帮助我们从新的角度思考问题,更可能成为我们的学术灵感源泉。比如我有个师姐注意到“刷微博”“刷朋友圈”中的“刷”字是一种新的用法,于是就想到去研究这个字的语义变化。
在前不久的语料库语言学课上,老师布置了一个作业,让我们考察一个词的搭配情况。“搭配”在语料库语言学中是一个很重要的概念,有一套完整的理论。它要求我们在考察一个词的搭配时,不仅限于看它的常见搭配词,还要看它和搭配词是否构成了一定的语法结构,它的语义及情感是否受到搭配词的影响等等。比如“造成”一词,本来是中性的,但由于它经常跟不好的事情一同使用,使它也带有了一些消极意义。
要做好这个作业,首先得选到值得探究的词语。为了寻找灵感,我用了一种笨方法——浏览语料库。一次,我看到了“整整”一词。除了作为一种语气上的强调外,我隐隐觉得它还有一些比较特别的语法功能和语义特点。于是,我找出了语料库中“整整”一词出现的所有场景。除了“整整红领巾”偶尔用作动词之外,它绝大多数都是跟数量词或动词 数量词搭配,来形容数量之大、动作持续时间之长,比如“整整30年”“整整忙活了一天”,并且它传达的消极态度占多数,比如“‘大屠杀’整整持续了5个月。”
有意思的是,除了表示“整数”之外,我发现与“整整”连用的数量词有时还会是零数、概数。例如:“班主任和同学们整整聊了三个半小时”“筹备了整整两个多月时间,百队杯篮球京沪交流赛终于在上周末成行。”“从大厅就开始排队,整整花费了30多分钟。”
这到底是怎么回事呢?我找到“整整”在《汉语大词典》中的义项:“(1)整齐严谨貌;(2)工整;(3)达到一个整数的,十足的。” 为什么字典里面只有整数的释义呢?一心想搞明白缘由的我又翻阅了许多文献,果然发现有学者提出,应该针对“整整”不一定完全表示整数的用法修改释义,“这种用法虽然在比例上不占优势,但却非常重要。”
看到这里,你还相信我是学计算机的吗?
年度流行语的诞生
每年的 “2018汉语盘点”系列活动,都是由北京语言大学国家语言资源监测与研究平面媒体中心共同承担完成的。作为这个中心的一名研究生,我有幸参与了“2018年度中国媒体十大流行语”和“汉语盘点2018”年度字词的筛选、发布工作。 每年的流行词、流行语层出不穷,要完成中国媒体十大流行语、年度字词的筛选工作,背后的工作量相当之大。就拿我重点参与的“2018年度中国媒体十大流行语”筛选发布工作来说吧,考虑到报纸的发行量、更新周期以及地域分布等因素,我们选择了人民日报、北京日报、深圳特区报、齐鲁晚报、华西都市报等国内16家影响力和发行量较大的报纸作为语料库,收集到从2018年1月1日至11月底的全部报纸文本,语料规模近5亿字次。接下来,我们利用语言信息处理技术,根据词语出现的频次,结合人工后期處理提取、筛选,得出流行语的候选词表。
在筛选流行语的过程中,我成了语言监测这个大任务中的“小监测器”,不自觉地跟上了时代的主旋律。许多新词高度浓缩了一年时间里的中国和世界风貌,尽现时代民生民情。有些跟我们的生活息息相关,比如由滴滴打车引发关注的“网约车安全”,频频出现在电商领域的“大数据杀熟”,备受关注的长春“问题疫苗”;有些离我们有些遥远,比如在西昌卫星发射中心用长征三号乙运载火箭发射两颗卫星的“一箭双星”,在上海举办十二个国家参与的“进博会”等。一旦出现热点事件,都会在第一时间引起我们高度关注,像中美贸易摩擦、川航英雄机长、重庆公交车坠江这些我们比较感兴趣的话题,我和小伙伴甚至能像时事分析评论员那般,滔滔不绝地说上许久。
由于我们的语料来源于主流媒体,网络上流行的“安排”“真香”“冲鸭”“凉凉”等词,因在报纸语料中很少出现,最终没有进入候选词库。但作为年轻人,我和团队小伙伴们养成了一个共同的习惯:每当生活中遇到有意思的词或热点事件,大家的第一反应都是“说不定能出流行语!”前段时间,我发现“隐形贫困人口”一词突然流行,它是指有些人看起来每天有吃有喝但实际上非常穷。仔细一想,这说的不就是我自己嘛!我当时就想:“这个词真不错!做流行语研究的时候一定得跟老师提出来!”
2018年12月6日,经过我们初步筛选以及专家评审的“汉语盘点2018”年度候选字词正式发布,稳、芯、退、战、改革开放四十年、锦鲤、贸易摩擦等热门字词都涵盖其中。2018年12月15日,“2018年度中国媒体十大流行语”正式发布。十大流行语为:宪法修正案、命运共同体、进博会、贸易摩擦、锦鲤、板门店宣言、立德树人、“一箭双星”、幸福都是奋斗出来的、改革开放四十周年。2018年12月20日,由网友最终票选的“汉语盘点2018”年度字词发布:国际年度字“退”;国际年度词“贸易摩擦”;国内年度字“奋”;国内年度词“改革开放四十年”。
责任编辑:曹晓晨