论文部分内容阅读
随着互联网行业的飞速发展以及信息量爆炸式递增,一些针对用户的信息自动化提取工具的需要也迫在眉睫。如何有效的在海量信息中提取出自己需要的安全信息,比如图片、文本、邮箱地址等,正是本文所解决的问题。传统的html网页采用的是半结构化传输形式,这种形式的文本它只适合浏览,不适合用来做数据安全传输交换。