【摘 要】
:
现行的中文分词工具在遇到中文新词时经常会切分出大量“词碎片”,导致输出结果丢失完整词结构所具有的信息,而新词识别技术普遍存在计算效率偏低、人工标注成本高、受限太多等问题。针对这些问题和实证经验,本文尝试通过结合统计特征、中文语法信息和单样本分类模型One Class SVM(One Class Support Vector Machine)进行中文新词发现,其主要思路是先对中文长文本语料进行分词处
论文部分内容阅读
现行的中文分词工具在遇到中文新词时经常会切分出大量“词碎片”,导致输出结果丢失完整词结构所具有的信息,而新词识别技术普遍存在计算效率偏低、人工标注成本高、受限太多等问题。针对这些问题和实证经验,本文尝试通过结合统计特征、中文语法信息和单样本分类模型One Class SVM(One Class Support Vector Machine)进行中文新词发现,其主要思路是先对中文长文本语料进行分词处理得到基础词串的有序排列,接着以基础词为单元进行组词造词和统计特征提取,最后通过停止词匹配构建单样本训练集并训练单样本分类模型,预测备选字串是否为有效中文新词词汇。该方法主要有三点优势:用中文字符串取代单个中文字符作为基本的造词单元和统计单元,大幅降低后台文本扫描计算的时间复杂度。基于文献研究和实证经验,本文补充了多种统计特征和中文语法特征以提高预测模型的拟合能力。将传统的互信息PMI(Pointwise Mutual Information)新词发现返岗发或逻辑回归LR(Logistic Regression)新词发现方法改为基于单样本分类算法One Class SVM的决策规则,既可提高拟合效果,又能降低人力标注成本。本文还在搜狗新闻语料和多类互联网招聘文本数据进行了实验,并和互信息PMI新词发现方法、逻辑回归LR新词发现方法进行效果对比,结果表明单样本分类方法在中文新词发现尤其是领域术语识别方面有很好的识别效果和泛化能力。除此之外,本文还分析了与新词发现效果相关的重要特征,讨论了中文新词发现的主要应用场景,如文本分词、词典编制、情感分析等。
其他文献
科举制作为古代中国一项重要的选拔官员的方式,赋予了教育以强烈的制度激励——那些成功通过科举考试的读书人,更有可能成为国家官僚体系的一份子。尽管科举制被废至今已逾百年,但它对人们的激励是否仍持续至今?如果是,具体是通过哪些途径?如果不是,又有哪些因素促使了这种改变?认识清楚这些问题,不仅可以进一步证实制度的重要性,也有助于我们更全面地理解科举制的历史价值。通过探究明清进士与现代人才空间分布的关系,本
退役军人安置是国家社会保障工作的重中之重。合理安置退役军人,解决军人服役的后顾之忧不仅有利于军队高素质兵源的招募,对于巩固国防建设也大有裨益。当前如何将庞大的退役军人红利转为人才红利,提高退役军人的整体竞争力,实现退役军人群体的高质量就业,已成为我国退役军人安置工作面临的一个重要问题。美国作为当今世界的军事强国,在退役军人安置问题上积累了很多有益的经验。二战结束前美国颁布了首个退役军人权利法案,开
调整产业结构是我国经济增长方式转型的重要内容,产业结构在微观层面上则为企业专业化分工水平,企业集中精力发展主营业务,分离不擅长的业务,生产具备专业优势的产品,提高专业化分工水平,有助于改善产业内的分工协作,促使产业结构向更健康的方向调整。资本市场政策则是引导产业结构调整的重要制度安排,资本市场固有的融资、资源配置、和产权界定功能有助于企业筹集资金发展主营业务,降低企业间的交易费用,激励企业选择市场
传统债务与经济的研究是基于面板数据的阈值回归模型。处于阈值上下的债务,对经济增长有着截然相反的影响。但在宏观经济中,微观经济主体的差异常会互相抵消,故经济增长等宏观经济变量的变化更可能是一个连续平滑的过程。因此文章在传统的面板阈值回归模型上,使用面板平滑阈值回归模型,以欧元区和经合组织国家为样本进行分析。为了控制2008到2012年期间经济增长的波动,加入银行危机变量,发现模型效果更好,因此文章以
近年来我国政府一直致力于推进资本市场对外开放的进程。股票市场是资本市场的关键组成部分,其作为企业上市、融资、兼并收购等行为的重要平台,与实体经济之间存在密切的联系。然而目前股票市场开放对我国实体经济的影响还没有得到充分的研究。“沪港通”是我国股票市场开放的重要政策,它的开通所带来的冲击很可能影响企业的风险决策行为,而企业的风险水平变化会进一步影响我国实体经济的发展。本文基于“沪港通”部分开通试点的
实体企业“脱实向虚”引得各界广泛关注。如何平衡好虚拟经济与实体经济的关系,让金融更好的服务于实体经济,是当前金融改革的关键所在。同时,2008年全球金融危机之后,为加速经济复苏,一系列经济政策相继发布,经济政策不确定性明显上升。在这样的背景下,中国经济政策不确定性与实体企业金融化问题值得探讨。因此,本文考察经济政策不确定与实体企业金融化的关系,探究经济政策不确定性的上升是否为加速企业金融资产配置的
随着我国金融行业的深入发展,中国股票市场的发展愈发迅猛,也越来越受到投资者的关注。不仅仅是投资者,学术研究者们也致力于寻找各种有效的预测模型对于股票市场进行预测。发展至今,在股票市场领域,已有大量研究文献运用技术指标分析、时间序列预测等预测模型对股票市场进行预测。然而,实际上这些股票市场预测模型的有效性往往会受到数据窥察效应(Data Snooping Bias)的影响。由于存在数据窥查效应,股票
在全球化的影响下产生文化趋同现象的同时也滋长了文化多元性,地域性建筑创作是当代建筑创作的一个热点,不同国家、不同地区建筑师们都不断尝试新的思维、新的工具与新的技术,另辟蹊径,对于地域性建筑的创作呈现出的百花齐放现象,路虽有异却殊途同归。闽南是一个有着鲜明地域特征的地区,这种鲜明的特征不仅反映在建筑文化中,更是体现在闽南文化上。其开放与包容的综合意识使它对外来文化始终保持一个学习的态度,善于吸收外来
近些年来,“共享”这一概念的火爆带动了共享住宿领域的发展,Airbnb、小猪短租等头部在线短租平台在共享住宿行业进行了积极探索。国内在线短租行业虽然起步较早,但是发展较缓,行业内部格局未定。此外,在住宿行业中,酒店业始终处于主导地位,因而在线短租同时面临着机遇和挑战。要在国内共享住宿领域争得一席之地,抓住消费者的心理是关键。客户在现有的在线短租服务中获得了什么样的用户体验,影响用户体验的因素是什么
随着互联网、大数据、人工智能等数字化技术的深度发展,各行各业都在发生翻天覆地的变革,其中银行业是受金融科技发展影响最为深刻而复杂的传统金融行业之一。一方面,金融科技无疑对商业银行的传统经营模式和盈利水平带来了巨大的冲击和压力;而另一方面,金融科技也为商业银行的转型发展以及盈利能力的提高带来极大的赋能作用。本文将探究金融科技的发展(具体来说是中国金融科技产业的发展)究竟是如何影响商业银行盈利水平的。