基于条件随机场的汉语词汇特征研究

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:Norazhongli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语语言在书面表达时不具有天然分词的特性,词汇与词汇之间没有分词标记,因此在汉语文本的识别中需结合其行文的习惯及规则,即所谓的词汇特征。已有研究通常在实验中显式地标注词汇特征来提高识别效果,增加了人工处理流程,极大地加重了算法移植的工作量。研究并归纳了常用汉语语言的词汇特征,并利用条件随机场(conditional random fields,CRF)的特征提取能力,自行实现了复杂特征函数,在语料只具有简单标注的前提下,隐式地提取词汇特征,提高了识别效果。实验证明,在汉语分词中应用复杂词汇特征能有效
其他文献
种公猪在养殖生产中占有重要的地位,因此是重点养殖对象,做好种公猪的养殖工作是提高猪群品质、降低养殖成本、提高生猪养殖经济效益的关键。一般情况下,种公猪的利用年限在2
目前已提出的真值发现方法无法解决对象由多个单值属性与多值属性共同组成的情况,若将这些属性拆分后分别处理则会破坏属性间原有的关联,导致计算结果不准确。为此提出一种多属性数据的联合真值发现方法 ATD4MA,将对象各观察值通过遗传算法中的染色体进行建模,针对问题特性对群体初始化算法和染色体基本动作进行改进,控制染色体的演化行为对各属性进行约束,以各对象的真值染色体与各数据源提供的观察值染色体间的差异加
碳纤维复合材料在公路桥梁加固应用中,因具有众多优点而成为桥梁加固工程领域的一项重大技术革新。为此.就碳纤维材料的加固工艺及其注意事项进行探讨,以助其推广应用。
社交网络影响力最大化问题是基于特定的传播模型,在网络中寻找一组初始传播节点集合,通过其产生最终传播影响范围最大的一种最优化问题。已有的相关研究大多只是针对单关系社交网络,即在社交网络中只存在一种关系,但在现实中,社交网络的用户之间往往存在着多种关系,并且这多种关系共同影响着网络信息传播及其最终影响范围。在线性阈值模型的基础上,结合网络节点间存在的多种关系,提出MRLT传播模型来建模节点间的影响力传
针对大数据聚类低效的问题,提出一种方形邻域快速网格密度聚类算法(square-neighborhood and gridbased DBSCAN,SGBSCAN)。首先给出方形邻域密度聚类定义,利用方形邻域代替圆形邻域,降低时间复杂度;其次提出方形邻域密度聚类的grid概念,快速确定高密度区域内核心点与数据点之间的密度关系;最后提出grid密度簇,利用网格之间的关系加快密度簇的形成。算法应用于16
为了提高毛驴育肥期的增重效果,提高育肥阶段的经济效益,笔者对多种形式的育肥驴饲养场进行走访,总结其饲养过程中所出现的各类问题及影响育肥效果的影响因素,分析其产生原因
针对电影上映前后影评情感会发生较大变化,导致电影行业分析者分析影评情感对票房预测的影响具有一定难度的问题,提出一种基于影评情感类型与强度的自回归票房预测模型,并构建了面向票房预测的影评情感可视分析系统MRS-VIS。系统基于时空特征,提出一种空间插值可视化视图,并结合多种可视化经典视图,帮助电影行业分析者对一部电影在上映前后的影评情感进行多角度探索与分析。系统支持分析者在情感分析的基础上,通过交互