论文部分内容阅读
“地震能否被预测”等成公众关注科技问题
地震能否被预测、癌症能否被攻克、哥德巴赫猜想能否最终被证明……这些问题入选中国科协近日发布的“10个公众关注的科技问题”。
“10位传播科技的优秀人物”、“10部公众喜爱的科普作品”、“10个影响中国的科技事件”和“10项引领未来的科学技术”评选结果也同时发布。
为纪念中国科协成立50周年,中国科协今年3月在全国范围内组织开展了“五个10”系列评选活动。
大众评选出的10个公众关注的科技问题是:空间探测与绕月工程,基因的研究与应用,能源资源如何可持续发展、可再生能源能够发挥多大作用,核能发展的前景,纳米技术、纳米材料及其应用,楼兰古城的消失之谜,癌症能否被攻克,地震能否被预测,SARS等传染病如何防治,哥德巴赫猜想能否最终被证明。
同时评选出的10位传播科技的优秀人物是:袁隆平、钱学森、华罗庚、茅以升、叶至善、邓稼先、钱三强、竺可桢、李四光、王选。
10部公众喜爱的科普作品是:《珊瑚岛上的死光》、《登上健康快车、宇宙与人》、《机械工人速成看图》、《竺可桢科普创作选集》、《华罗庚科普著作选集》、《十万个为什么》、《泥石流》、《名家名作中的为什么(自然科学卷)》、《中外著名科学家的故事》。
10个影响中国的科技事件是:“两弹一星”研制成功、杂交水稻选育成功及其推广应用、“神舟五号”载人航天飞行成功、中国首次“探月工程”取得圆满成功、中国大陆首例“试管婴儿”诞生、2003年暴发SARS疫情、陈景润取得“哥德巴赫猜想证明”世界领先成果、《中华人民共和国科学技术普及法》颁布实施、中国接入互联网、中国建立院士制度。
10项引领未来的科学技术是:基因修饰技术、未来家庭机器人、新型电池、人工智能技术、超高速交通工具、干细胞技术、光电信息技术、可服用诊疗芯片、感冒疫苗、无线能量传输技术。
汉语缩略语的自动处理技术
缩略语在自然语言中十分常见。人们在运用语言时,总是力求经济、简单。通过对词或多词缩略,较好地起到了精炼表达的效果。例如,由“奥林匹克运动会申办委员会,缩略为“奥申委”,压缩了3/4的汉字。
然而,缩略语的大量使用,形成了自然语言处理中未登录新词的主要词源,导致了中文信息处理在分词、词性标注、词义确定与歧义排除、命名实体识别和实体共指消解等诸多问题上的严重障碍;同时,由于原形式与缩略形式在表层上的不同,对信息检索、关键词抽取等应用也造成了影响。例如,以“欧洲经济与货币联盟”作为检索条目,对含有“欧盟”的文本可能会漏检,反之亦然。由此可见,缩略语处理是自然语言处理中一项重要的基础性工作。
缩略语处理包括多个方面,如缩略语自动识别、缩略式与原形式关系的确定、缩略语歧义的消解等。北京大学信息科学技术学院计算语言学研究所的孙栩、王厚峰教授和王波于不久前发表的论文《缩略语预测:基于支持向量回归的统计学习方法》报道了他们在汉语缩略语自动处理方面的最新研究成果。他们在缩略语识别和缩略语歧义消解等缩略语自动处理研究基础上的进一步深入,主要就缩略语自动预测进行了研究。
所谓缩略语预测,就是给定了一个完整的形式,如欧洲经济与货币联盟,预测最可能的缩略语是欧盟。文章提出了一个基于机器学习的缩略语预测方法,将预测看作为可信值估算和排序问题;以支持向量回归(SVR)作为估算器,得到候选缩略语和它们对应的SVR函数值,此值用于对候选缩略语排序,最后选择排序高的候选为可能的缩略语。
缩略语预测可以用于多个应用领域,特别在信息检索中。当加入缩略语作为关键词扩展查询时,可以大大降低漏检。作者曾在人民日报1个月的语料上,查询相关“欧盟”的文章,如果以“欧洲经济与货币联盟”作为检索词,则只能得到不到实际文章20%的检索结果,因为很多文章含有“欧盟”但不含“欧洲经济与货币联盟”。通过加入缩略语进行扩展后,则可以检索到与“欧盟”和“欧洲经济与货币联盟”相关的所有文章。
地震能否被预测、癌症能否被攻克、哥德巴赫猜想能否最终被证明……这些问题入选中国科协近日发布的“10个公众关注的科技问题”。
“10位传播科技的优秀人物”、“10部公众喜爱的科普作品”、“10个影响中国的科技事件”和“10项引领未来的科学技术”评选结果也同时发布。
为纪念中国科协成立50周年,中国科协今年3月在全国范围内组织开展了“五个10”系列评选活动。
大众评选出的10个公众关注的科技问题是:空间探测与绕月工程,基因的研究与应用,能源资源如何可持续发展、可再生能源能够发挥多大作用,核能发展的前景,纳米技术、纳米材料及其应用,楼兰古城的消失之谜,癌症能否被攻克,地震能否被预测,SARS等传染病如何防治,哥德巴赫猜想能否最终被证明。
同时评选出的10位传播科技的优秀人物是:袁隆平、钱学森、华罗庚、茅以升、叶至善、邓稼先、钱三强、竺可桢、李四光、王选。
10部公众喜爱的科普作品是:《珊瑚岛上的死光》、《登上健康快车、宇宙与人》、《机械工人速成看图》、《竺可桢科普创作选集》、《华罗庚科普著作选集》、《十万个为什么》、《泥石流》、《名家名作中的为什么(自然科学卷)》、《中外著名科学家的故事》。
10个影响中国的科技事件是:“两弹一星”研制成功、杂交水稻选育成功及其推广应用、“神舟五号”载人航天飞行成功、中国首次“探月工程”取得圆满成功、中国大陆首例“试管婴儿”诞生、2003年暴发SARS疫情、陈景润取得“哥德巴赫猜想证明”世界领先成果、《中华人民共和国科学技术普及法》颁布实施、中国接入互联网、中国建立院士制度。
10项引领未来的科学技术是:基因修饰技术、未来家庭机器人、新型电池、人工智能技术、超高速交通工具、干细胞技术、光电信息技术、可服用诊疗芯片、感冒疫苗、无线能量传输技术。
汉语缩略语的自动处理技术
缩略语在自然语言中十分常见。人们在运用语言时,总是力求经济、简单。通过对词或多词缩略,较好地起到了精炼表达的效果。例如,由“奥林匹克运动会申办委员会,缩略为“奥申委”,压缩了3/4的汉字。
然而,缩略语的大量使用,形成了自然语言处理中未登录新词的主要词源,导致了中文信息处理在分词、词性标注、词义确定与歧义排除、命名实体识别和实体共指消解等诸多问题上的严重障碍;同时,由于原形式与缩略形式在表层上的不同,对信息检索、关键词抽取等应用也造成了影响。例如,以“欧洲经济与货币联盟”作为检索条目,对含有“欧盟”的文本可能会漏检,反之亦然。由此可见,缩略语处理是自然语言处理中一项重要的基础性工作。
缩略语处理包括多个方面,如缩略语自动识别、缩略式与原形式关系的确定、缩略语歧义的消解等。北京大学信息科学技术学院计算语言学研究所的孙栩、王厚峰教授和王波于不久前发表的论文《缩略语预测:基于支持向量回归的统计学习方法》报道了他们在汉语缩略语自动处理方面的最新研究成果。他们在缩略语识别和缩略语歧义消解等缩略语自动处理研究基础上的进一步深入,主要就缩略语自动预测进行了研究。
所谓缩略语预测,就是给定了一个完整的形式,如欧洲经济与货币联盟,预测最可能的缩略语是欧盟。文章提出了一个基于机器学习的缩略语预测方法,将预测看作为可信值估算和排序问题;以支持向量回归(SVR)作为估算器,得到候选缩略语和它们对应的SVR函数值,此值用于对候选缩略语排序,最后选择排序高的候选为可能的缩略语。
缩略语预测可以用于多个应用领域,特别在信息检索中。当加入缩略语作为关键词扩展查询时,可以大大降低漏检。作者曾在人民日报1个月的语料上,查询相关“欧盟”的文章,如果以“欧洲经济与货币联盟”作为检索词,则只能得到不到实际文章20%的检索结果,因为很多文章含有“欧盟”但不含“欧洲经济与货币联盟”。通过加入缩略语进行扩展后,则可以检索到与“欧盟”和“欧洲经济与货币联盟”相关的所有文章。