论文部分内容阅读
随着电子商务的高速飞跃式的发展,电子营销这种销售方式受到了广泛的关注。邮件凭借其庞大的用户量受到了电子营销业的追捧。然而在生活节奏快速的今天,人们虽然可以接受基于邮件的电子营销方式,但是由于时间有限很难分出精力去关注这些邮件打折促销信息。但是值得关注的是在信息飞速发展的今天,各种打折消息往往都会通过邮件传播。于是为了不让人们错过这些对自己有用的消息,本课题对于邮件中的打折信息进行有效消息的过滤,提取出人们更关注的消息,从而节省人们宝贵的时间。又由于移动互联网的飞速发展,人们利用移动设备连接网络的时间在飞速的增长,在电脑旁的上网时间在不断下降,加之Android系统的51.7%的市场占有率,稳稳的排在智能操作系统的首位,于是本论文选择Android平台作为软件最终的使用平台,力图为人们提供符合人们使用习惯的基于Android系统的邮件打折信息排行软件。本系统通过分析大量的邮件打折信息发现,自然语言处理词性标注之后的打折信息有诸多的特征,可以帮助我们更准确快速的提取出邮件中的打折信息和商店信息。为了加强自然语言处理中分词步骤的准确性我们提出了针对于打折邮件的CRF分词算法。另外为了加强自然语言处理中词性标注的准确程度本次研究分析了基于自然语言处理的隐马尔科夫模型,提出了基于增强隐马尔科夫模型的完整的自然语言处理词性标注解决方案。主要包括以下内容:1)分析了电子商务的快速发展以及邮件的广泛普及,介绍了Android平台的广泛应用前景以及基于Android的通信协议,分析了Android平台的主要应用软件。2)提出了处理广告邮件的迫切性,分析了SMTP、POP3、IMAP等邮件收发协议,找到了可以屏蔽邮件的不同协议类型,用统一的入口去获取邮件内容的接口。3)分析了自然语言处理技术的广泛应用范围,介绍了自然语言处理领域的现存问题以及自然语言处理的三种模型——隐马尔科夫模型和最大熵模型以及条件随机场模型。4)针对于要处理的邮件信息的特点提出了基于条件随机场的邮件分词算法并验证了其正确性。这部分解决了邮件中的交集型及组合型切分歧义问题。5)提出了改进隐马尔科夫模型的完整词性标注方案。对于增强型隐马尔科夫模型做了验证,实验证明增强型隐马尔科夫模型在词性标注上的显著优势。6)实现了基于自然语言处理技术的Android广告邮件排行软件,介绍了本软件的类构成,软件设计流程,软件模块构成及操作方式。