【摘 要】
:
随着时代的进步,大量的自然语言文本出现在了电子商务、论坛、博客等网站上。它们数据量太大,所以无法用人力来一一分析,使用电脑来对这些数据进行语义分析是必然的选择。现在主要的自然语言处理方法有两种,一种是基于统计的方法,它是机器学习领域的成果,主要原理是用词组出现的概率来计算舆情信息;另一种是基于有限状态机的方法,主要原理是由语言专家归纳语法规则,系统读取这些规则并处理文本、生成舆情信息。第二种方法在
论文部分内容阅读
随着时代的进步,大量的自然语言文本出现在了电子商务、论坛、博客等网站上。它们数据量太大,所以无法用人力来一一分析,使用电脑来对这些数据进行语义分析是必然的选择。现在主要的自然语言处理方法有两种,一种是基于统计的方法,它是机器学习领域的成果,主要原理是用词组出现的概率来计算舆情信息;另一种是基于有限状态机的方法,主要原理是由语言专家归纳语法规则,系统读取这些规则并处理文本、生成舆情信息。第二种方法在准确率上要超过第一种方法,而且能够做到短句的精确处理。本文就是基于第二种方法展开研究的,它也叫做基于规则的方法。本文提出了一种基于规则和有限状态机的自然语言处理方法,它能够处理自然语言、生成语法树、抽取舆情信息,而且非常高效和准确。这种方法有别于基于概率统计的n-gram方法。基于统计的方法依赖于词组出现的概率、标准语料以及机器学习。本文中阐述的方法的原理是语言学家总结归纳出许多语法规则,这些规则会生成有限状态机,有限状态机就可以匹配文本,并且生成语法树。有限状态机是规则的最佳实现,它能够把一个个规则转变成有限状态机的状态和转移,能够线性地处理自然语言。系统处理的整个过程分为切词、识别词干、添加词性、语法规则匹配、生成语法树、提取舆情等步骤。在语法树中,能够看到基本语法结构,比如主谓宾等。在规则开发过程中需要用到基线来作为标准,考量规则的正确性。当基线中的文本量非常大的时候,系统运行规则就会消耗大量时间,这对于规则开发人员调试规则造成了很大困难。本文提出了一个规则调试系统来帮助规则开发人员解决这个问题。调试系统能够接受一些指令进行工作,它是一个集群,能够过滤掉许多不必要的基线中的句子、单步执行某一个有限状态机、从中途恢复状态机,从而节约大量的时间。最后,本文评估了自然语言处理系统,发现它通常有着大于80%的准确率,超过了机器学习方法的准确率。还对调试系统各方面的性能进行了比较,发现它能够在调试规则方面大幅度提高响应速度。本文的研究对于基于规则的自然语言处理和大数据基线的处理方法具有参考意义。
其他文献
质子交换膜燃料电池具有无污染、噪声低、能量密度高、燃料转换效率高、响应速度快的显著优点,得到了迅速发展,但寿命仍然是制约其大规模商业化的重要原因。局部电流密度作为质子交换膜燃料电池运行过程中的重要参数,既能作为电池运行过程中的故障诊断和定位工具,提升电池运行的稳定性和和耐久性;又能提供电池运行期间其内部现象的有关信息,为深入理解电池反应机理以及优化电池设计提供有力指导,因此研究局部电流密度具有非常
堆芯仪表密封结构是核电厂反应堆本体结构的重要组成部分之一,承担了反应堆冷却剂系统压力边界的安全屏障作用。在反应堆各种工况下,确保冷却剂压力边界的密封性。其结构形式,密封材料的压缩回弹、轴向压力传递、径向压力转换因子等性能指标对密封性与可靠性起着决定性作用。本文参考AP1000堆芯仪表密封结构设计,以CAP1400堆芯仪表密封结构为研究对象,进行密封结构分析,并在此基础上开展快拆装密封结构用柔性石墨
近年来,跨境电信诈骗在我国频发,但因其诸多特点导致管辖权冲突不断,影响我国司法机关及时惩治犯罪。本文先后从现行法及普遍管辖原则入手,尝试解决管辖权冲突,继而通过对跨境电信诈骗管辖权冲突进行分类,认为一类是基于同一管辖原则产生的特有冲突,这一类冲突因跨境电信诈骗的虚拟性、团伙性特征产生,对于这一类冲突,本文认为可将属地原则中的信号传输地进行排除;另一类是基于不同管辖权原则产生的固有冲突,这一类冲突不
牛乳中富含多种营养物质和生物活性成分,为人类提供重要的营养,但容易受腐败菌和致病菌的影响而造成腐败变质。牛乳同时也是可产生强烈的过敏反应的主要食品过敏源之一。因此,研究能有效杀菌、保持营养并降低其致敏性的牛乳加工方式具有重要意义。本研究选取单循环和多循环高静压、短波紫外和远红外加工方式,分析了不同加工处理方式对α-酪蛋白微观结构、过敏性、消化性和抗氧化性的影响,并研究了这些处理对牛乳理化品质、微生
对小程序平台和云服务器租赁等新型网络服务提供者而言,应当灵活理解与适用《侵权责任法》第36条规定的“通知删除”规则。《侵权责任法》第36条第2款将适用主体扩展为“网络服务提供者”的同时,又相应地将必要措施进行了弹性扩展,增加了法律适用的灵活性,由此新型网络服务提供者应落入“通知删除”规则的适用主体范围之内。司法实践过程中,应明确“通知删除”规则的本质属性,将其作为免责条款适用,避免利益天平过分倾斜
灯盏乙素(Scutellarin)是从菊科植物短葶飞蓬中提取分离的黄酮类成分,长期用于脑栓塞、中风后遗症、冠心病及其他缺血及微循环障碍疾病的临床治疗,具有较好的疗效和安全性。灯盏乙素苷元(Scutellarein)是灯盏乙素脱去葡萄糖醛酸基团的苷元部分,是灯盏乙素口服吸收的主要形式。与灯盏乙素相比,苷元的脂溶性增加,脑缺血损伤保护作用也更强。因此,灯盏乙素苷元有望成为一种新的、较为安全有效的脑缺血
我国将主要目的测试视作主要的反滥用措施来防止税收协定滥用,并且在该方面有着较长时间的适用历史,但未曾出台过进一步的实施细则,加上主要目的测试赋予了执法机关很大的自主裁量权,因此,主要目的测试在我国适用时可能发生某些问题。若想要较好地发挥主要目的测试条款的应有作用,这些问题亟需解决。BEPS多边公约的签署,不是国际反避税的终点。作为签订有大量双边税收协定国家,我国仍需要在立法、执法等方面不断完善主要
Thailand and China have a historical relationship that dated from the ancient time.The relationship of two countries began more than 2,000 years agoduring the Han Dynasty era.The different political i
目的:本研究通过对上海市三所高校大学生体力活动、屏幕时间以及焦虑、睡眠质量的调查:1)了解目前上海市大学生体力活动水平、屏幕时间现状以及焦虑水平和睡眠质量状况;2)研究体力活动与大学生焦虑及睡眠质量之间的关系;3)研究屏幕时间与大学生焦虑及睡眠质量之间的关系;4)研究体力活动和屏幕时间共同作用与大学生焦虑及睡眠质量之间的关系,以此为我国健康教育和健康促进项目在大学生人群中进行顺利推广提供科学的依据
近年来,由于经济和互联网的高速发展,出现了“数据爆炸”现象,造成了信息过载,由此引出了推荐系统。本文主要针对推荐系统中基于用户的协同过滤(user-CF)算法进行改进。首先,学习了一些较成熟的推荐算法,对各个算法的研究思路及优缺点分别进行概述。其次,针对user-CF算法中用户冷启动的问题,建立基于用户画像的相似度计算模型。最后,针对用户-评分矩阵高维稀疏的问题,建立基于内容的推荐与user-CF