论文部分内容阅读
摘 要:随着我们社会信息的日趋复杂,人们在制作个人信息时难免出现一些拼写格式上的错误。这些错误虽小,但常常给人们带来不必要的损失。随着科学技术的发展和统计学习方法的有效应用,近年来,自然语言处理技术已经成为语义搜索以及人工智能的重要研究方向。自然语言处理的重难点是对英文文本中单词与语法的错误进行检测与纠正。本论文基于kettle这个最新软件,通过将数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程,对数据进行统一的格式处理。
关键词:数据库;JAVA;kettle
一、系统背景
近些年随着科学技术的日益发展,新的技术更新换代,众多领域如语音识别、OCR识别都对拼写错误展开了迫切的研究。令人欣慰的是已经有部分成果转换成了商品。在全球范围内,我们能看到Expert Ease公司推出的Deal Proof产品。这款产品嵌入了英文拼写检查功能。与此同时,Newton公司推出的Proofread产品也同样具有英文单词拼写检查系统。
本文首先介绍英文拼写检查中的错误类型以及检错纠错方法,并利用一种方法及其改进算法实现一简单的英文拼写检查系统。
二、系统目标
三、應用技术介绍
(1)java技术。Java语言以它独特的魅力赢得了世界上大部分程序员的认可,他良好的跨平台性,可移植性,安全性等优点使之风靡全球。SUN公司(2009年4月并入甲骨文公司)最初开发Java语言是为了解决智能家用电器的控制和通信问题。随着Internet的发展,Sun公司逐步将Java语言改造成适合计算机网络应用的程序设计语言。目前Java语言已经成为网络程序设计的主流编程语言之一,在全球云计算和移动互联网的产业环境下,Java更具备了显著的优势和广阔的发展前景。
(2)Kettle技术。Kettle这个单词翻译成中文名字为茶壶的意思,是BI为解决pentaho项目设计的一个子项目,作为一项专业的ETL工具,目前的易用性不是特别好,但是相对于其他的ETL工具,Kettle工具除了开源免费以外,它的功能性,稳定性还是很不错的。此外,由于整个pentaho平台都是使用java语言进行开发,所以Kettle本身就具备了跨平台性的特点,编辑出来的成果也能在各个操作系统上正常运行,这是Kettle软件最大的优点。同时,ETL工具采用JDBC标准,对数据库的兼容性要比ODBC、OLE/DB工具要好得多。Kettle工具由四个部分:Chef,Spoon,Kitchen,Pan组成。这四个部分听起来名字有点奇怪,更像是一些厨房用具,那么组成Kettle工具的四个部分分别是什么东西呢,官方文档给出了这样的解释:
kettle是一个ETL工具,名字是“Kettle E.T.T.L. Environment”的首字母组成的缩写,chef是用来设计job的一个图形用户界面,设计出来的job是用放到ketchen里面执行的,spoon是来设计transformation的GUI,然后transformation是放到pan里面执行的,kitchen和pan说白了就是执行我们编出来的ETL包的工具,因为kettle是跨平台的嘛,所以把执行环境独立出来,我是这样理解的。
上面提到了transformation和job这两样东西,在Kettle中的一个ETL包其实就是一个job,而一个job则由一个或者多个transformation组合而成。在transformation中则包含了数据的输入输出、转换、连接、聚合等各种判断处理综合在一起。而我们实现FTP/HTTP传输、外部程序调用和执行Ttransformation等都是我们的job的组件。
(3)SQL数据库。简单的来说数据库就是指数据仓库的意思,即一个存放数据的地方。我们周围有很多东西都是有数据库的踪迹。例如我们手机的通讯录就是一个小的数据库,而我们的图书馆则更像一个大型数据库。较小的数据库可以用手工实现增删改查的应用,但是大型数据库的管理必须依托计算机的高精准计算。目前计算机主要应用的三大领域:数据处理、科学计算、过程控制中,数据处理所占的比重达到了70%。数据库技术也在20世纪60年代作为最新技术应运而生。
(4)项目管理工具。Microsoft Project 2003 里面所有的项目信息都是集中有序的管理的,进而为所有的项目提供一个精准的描绘。Microsoft Project 2003可以分别支持企业级别和项目组级别的项目管理,常用的包括资源管理、任务调度、跟踪、报表、小组协议等, 同时强有力的标准化数据定义。
四、系统分析
(1)用户特点.用户一般为有部分计算机使用经验的管理员,对计算机有一定使用技能,熟悉计算机操作。
(2)假定和:约束。假定数据库容量够大,所有的数据中拼写问题都能得到纠正。
(3)环境支持:
①运行环境支持:浏览器,计算机(CPU PII以上,内存1G上)。
②软件环境
③硬件环境:CPU PII以上,内存1G上,联网支持,印机。
五、功能实现
数据中拼写错误的检查与纠正这个课题,就是在数据中错误信息进行纠错。本次我就常出现的拼写错误中大小写问题和拼写过程中的格式问题,进行演示纠正。首先准备了有错误信息的表格,导入到kettle中,经过以excel导入程序,发现错误信息,纠正错误信息,以excel导出程序。从而完成拼写错误的纠正。
六、设计心得
本次设计中,实现了数据中拼写错误的检查与纠正。操作演示的过程中,也用到了最新相关的软件,这大大节约了编写代码的时间。用户在运用此软件进行操作时,容易上手,这大大节约了时间,提高办事效率。
新技术的不断产生,需要我们不断鞥信自己的知识,以最简单的方法,解决问题,以最小的投资获得最大的回报。
作者简介:钟声(1990—),男,江西萍乡人,研究生,助教,主要研究方向:数字媒体。
关键词:数据库;JAVA;kettle
一、系统背景
近些年随着科学技术的日益发展,新的技术更新换代,众多领域如语音识别、OCR识别都对拼写错误展开了迫切的研究。令人欣慰的是已经有部分成果转换成了商品。在全球范围内,我们能看到Expert Ease公司推出的Deal Proof产品。这款产品嵌入了英文拼写检查功能。与此同时,Newton公司推出的Proofread产品也同样具有英文单词拼写检查系统。
本文首先介绍英文拼写检查中的错误类型以及检错纠错方法,并利用一种方法及其改进算法实现一简单的英文拼写检查系统。
二、系统目标
三、應用技术介绍
(1)java技术。Java语言以它独特的魅力赢得了世界上大部分程序员的认可,他良好的跨平台性,可移植性,安全性等优点使之风靡全球。SUN公司(2009年4月并入甲骨文公司)最初开发Java语言是为了解决智能家用电器的控制和通信问题。随着Internet的发展,Sun公司逐步将Java语言改造成适合计算机网络应用的程序设计语言。目前Java语言已经成为网络程序设计的主流编程语言之一,在全球云计算和移动互联网的产业环境下,Java更具备了显著的优势和广阔的发展前景。
(2)Kettle技术。Kettle这个单词翻译成中文名字为茶壶的意思,是BI为解决pentaho项目设计的一个子项目,作为一项专业的ETL工具,目前的易用性不是特别好,但是相对于其他的ETL工具,Kettle工具除了开源免费以外,它的功能性,稳定性还是很不错的。此外,由于整个pentaho平台都是使用java语言进行开发,所以Kettle本身就具备了跨平台性的特点,编辑出来的成果也能在各个操作系统上正常运行,这是Kettle软件最大的优点。同时,ETL工具采用JDBC标准,对数据库的兼容性要比ODBC、OLE/DB工具要好得多。Kettle工具由四个部分:Chef,Spoon,Kitchen,Pan组成。这四个部分听起来名字有点奇怪,更像是一些厨房用具,那么组成Kettle工具的四个部分分别是什么东西呢,官方文档给出了这样的解释:
kettle是一个ETL工具,名字是“Kettle E.T.T.L. Environment”的首字母组成的缩写,chef是用来设计job的一个图形用户界面,设计出来的job是用放到ketchen里面执行的,spoon是来设计transformation的GUI,然后transformation是放到pan里面执行的,kitchen和pan说白了就是执行我们编出来的ETL包的工具,因为kettle是跨平台的嘛,所以把执行环境独立出来,我是这样理解的。
上面提到了transformation和job这两样东西,在Kettle中的一个ETL包其实就是一个job,而一个job则由一个或者多个transformation组合而成。在transformation中则包含了数据的输入输出、转换、连接、聚合等各种判断处理综合在一起。而我们实现FTP/HTTP传输、外部程序调用和执行Ttransformation等都是我们的job的组件。
(3)SQL数据库。简单的来说数据库就是指数据仓库的意思,即一个存放数据的地方。我们周围有很多东西都是有数据库的踪迹。例如我们手机的通讯录就是一个小的数据库,而我们的图书馆则更像一个大型数据库。较小的数据库可以用手工实现增删改查的应用,但是大型数据库的管理必须依托计算机的高精准计算。目前计算机主要应用的三大领域:数据处理、科学计算、过程控制中,数据处理所占的比重达到了70%。数据库技术也在20世纪60年代作为最新技术应运而生。
(4)项目管理工具。Microsoft Project 2003 里面所有的项目信息都是集中有序的管理的,进而为所有的项目提供一个精准的描绘。Microsoft Project 2003可以分别支持企业级别和项目组级别的项目管理,常用的包括资源管理、任务调度、跟踪、报表、小组协议等, 同时强有力的标准化数据定义。
四、系统分析
(1)用户特点.用户一般为有部分计算机使用经验的管理员,对计算机有一定使用技能,熟悉计算机操作。
(2)假定和:约束。假定数据库容量够大,所有的数据中拼写问题都能得到纠正。
(3)环境支持:
①运行环境支持:浏览器,计算机(CPU PII以上,内存1G上)。
②软件环境
③硬件环境:CPU PII以上,内存1G上,联网支持,印机。
五、功能实现
数据中拼写错误的检查与纠正这个课题,就是在数据中错误信息进行纠错。本次我就常出现的拼写错误中大小写问题和拼写过程中的格式问题,进行演示纠正。首先准备了有错误信息的表格,导入到kettle中,经过以excel导入程序,发现错误信息,纠正错误信息,以excel导出程序。从而完成拼写错误的纠正。
六、设计心得
本次设计中,实现了数据中拼写错误的检查与纠正。操作演示的过程中,也用到了最新相关的软件,这大大节约了编写代码的时间。用户在运用此软件进行操作时,容易上手,这大大节约了时间,提高办事效率。
新技术的不断产生,需要我们不断鞥信自己的知识,以最简单的方法,解决问题,以最小的投资获得最大的回报。
作者简介:钟声(1990—),男,江西萍乡人,研究生,助教,主要研究方向:数字媒体。