基于表示学习的中文分词算法探索

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:Test_518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作。随着基于神经网络的表示学习方法的兴起,使得自动学习特征成为可能。该文探索了一种基于表示学习的中文分词方法。首先从大规模语料中无监督地学习中文字的语义向量,然后将字的语义向量应用于基于神经网络的有监督中文分词。实验表明,表示学习算法是一种有效的中文分词方法,但是我们仍然发现,由于语料规模等的限制,表示学习方法尚不能完全取代传统基于人工设计特征的有监督机器学习方法。
其他文献
为了保持果蔬的新鲜程度,延长其贮藏时间,常用冷藏、气调、辐射等技术进行处理,但这些技术存在操作复杂,成本高等不足,而价格较低的市售保鲜膜则存在功能性差、污染环境等问题。本
办好我国高校,办出具有中国特色的世界一流的大学,人才培养是目的、立德树人是根本。新时代的高校人才培养、立德树人需要转换育人模式。笔者基于大学生成长"金字塔"模型,探
<正>进入秋气,气温逐渐降低,空气比较干燥,而干燥的气候极易损伤肺阴,从而产生口干咽燥、干咳少痰、皮肤干燥、便秘等症状,重者还会咳中带血,所以我国历代医家都认为,秋季养
<正>几年前,我有幸作为翻译随一内地的团组在巴基斯坦首都伊斯兰堡工作和生活了整整一个月。在身处异国他乡的日子里,我们天天和巴基斯坦朋友相处, 顿顿和巴基斯坦饭菜打交道
朝鲜民族舞蹈服饰的艺术特征伴随着其传统文化的形成、发展而成长,形成了独特的文化格局与形态特点,与之相适应的舞蹈服饰当然也折射出其地理环境、生产方式所形成的地域色彩
<正>江苏省扬州汽车运输集团公司(以下简称公司)成立于1949年6月,是交通行业唯一获"全国质量奖"、首届交通运输部"交通质量奖"的道路运输企业。经过60多年的开拓发展,目前公
班主任工作是学校思想教育工作的重要组成部分,从本期起特辟“班主任工作研究”栏目。恳望班主任踊跃来稿,共同将此栏目办好。
<正>素食并非源自佛教,但自从南北朝时梁武帝萧衍推崇佛教,并倡导佛教徒吃素后,佛教和素食就有了不解之缘。但中国的素食在源流上还有寺院素食、宫廷素食和民间素食之分。寺
通过对中日两国大学生对"便携式智能媒体"依赖程度的比较研究,作者发现,社会化方式的不同以及对大学生活态度的不同,在很大程度上影响了中日两国大学生对待便携式智能媒体的
<正>从世界各国公路路面发展的历程来看,高速公路的路面类型主要有沥青混凝土路面(柔性路面)和水泥混凝土路面(刚性路面)两大类,本文探讨了此两类常见高速公路路面的特征、病