论文部分内容阅读
在这个信息爆炸的时代,互联网上丰富的信息给我们带来了无数机遇,同时也带来了挑战:如何从浩如烟海的数据中找到真正有用的信息?如何为企业用户带来所需要的行业资讯?
对于上述问题,海量信息技术有限公司(简称海量公司)的副总裁兼首席科学家周富秋博士认为,通过采用智能计算技术,对海量信息进行筛选,从中可以得到用户真正想要的信息。对于智能计算技术,周富秋做了进一步的解释,该技术是建立在自然语言处理(Nature Language Process,NPL)基础上的,通过人工筛选的庞大语料库,按照事先设计的算法,对海量数据进行识别,从中找到对用户有用的信息和情报。
周富秋所在的海量公司是一家成立于1999年、专注于中文智能计算和信息数据挖掘技术的民营企业。该公司沿着“字符到语义、非结构化到结构化”的技术路线,经过多年的技术积累,所研发的海量中文智能分词基础件已经广泛应用于腾讯、猫扑网、Myspace等大型网站。此外,海量公司还为微软、Autonomy、Askjeeves等国外公司提供中文智能计算技术,帮助他们实现软件本土化。
周富秋将数据信息处理分为3个层次。为了更好地解释这3个不同的层次,他绘制了一个3层金字塔模型:位于底部的是数据,在其之上是筛选出来的信息,而在金字塔塔尖的就是经过技术提取的精华内容—情报。对于数据和信息的处理,周富秋认为目前主要采用了浅度智能自然语言处理技术(NPL Shallow),而通过这种方式提取出来的内容(数据和信息),主要是Google和百度等搜索引擎厂商正在从事的主要工作。而对于在数据和信息基础上进行精加工产生的精华—情报,则是海量公司正在致力去做的工作,而他们所采用的技术叫做深度智能自然语言处理技术(NPL Deep)。这种技术,周富秋认为正是海量公司的核心竞争力所在。
目前,海量公司已经开发除了基于上述技术的数据挖掘产品“海纳”。该产品可以通过智能计算技术为网络媒体、行业门户、企业情报部门提供在线网络数据挖掘服务。“海纳”可以自动对指定的网站页面进行监控,对于所发现的新增页面及时提示,并对重复信息进行归总。用户只需要单击鼠标,就可以对网页内容进行转载收录。“海纳”运用智能计算技术,替代人工完成大量信息加工工作,简化编辑工作,经过深度加工提升信息价值。海纳是一款在线产品,用户所有操作都是在客户端完成,而其所有的智能分析和自然语言处理工作均在海量公司的专用机房内完成。据产品总监沈止戈介绍,该公司目前为“海纳”投入了100台大型服务器。
对于自然语言处理来说,语料库是一切工作的基础。沈止戈透露,他们拥有国内最大规模的语料库(北京大学的语料库位居第二),而该公司有近20名语言方面的专业人士每天不停地更新语料库,保证对于新词的收录。而这样做,就保证了对于中文语句分词的机器识别准确率。
海量公司下一步的研究重点将主要集中在对数据信息的深度加工,并且针对不同用户需求提炼出有用的情报信息,为用户决策提供依据。沈止戈向记者演示了一个实例。海量公司对于某体育网站近期的NBA相关新闻进行加工,通过数据挖掘技术从中得出NBA各球队的相关情报。计算机通过分析,很快就生成了一份报表,报表中显示太阳队的后卫名叫纳什,主教练名叫安东尼。
对于上述问题,海量信息技术有限公司(简称海量公司)的副总裁兼首席科学家周富秋博士认为,通过采用智能计算技术,对海量信息进行筛选,从中可以得到用户真正想要的信息。对于智能计算技术,周富秋做了进一步的解释,该技术是建立在自然语言处理(Nature Language Process,NPL)基础上的,通过人工筛选的庞大语料库,按照事先设计的算法,对海量数据进行识别,从中找到对用户有用的信息和情报。
周富秋所在的海量公司是一家成立于1999年、专注于中文智能计算和信息数据挖掘技术的民营企业。该公司沿着“字符到语义、非结构化到结构化”的技术路线,经过多年的技术积累,所研发的海量中文智能分词基础件已经广泛应用于腾讯、猫扑网、Myspace等大型网站。此外,海量公司还为微软、Autonomy、Askjeeves等国外公司提供中文智能计算技术,帮助他们实现软件本土化。
周富秋将数据信息处理分为3个层次。为了更好地解释这3个不同的层次,他绘制了一个3层金字塔模型:位于底部的是数据,在其之上是筛选出来的信息,而在金字塔塔尖的就是经过技术提取的精华内容—情报。对于数据和信息的处理,周富秋认为目前主要采用了浅度智能自然语言处理技术(NPL Shallow),而通过这种方式提取出来的内容(数据和信息),主要是Google和百度等搜索引擎厂商正在从事的主要工作。而对于在数据和信息基础上进行精加工产生的精华—情报,则是海量公司正在致力去做的工作,而他们所采用的技术叫做深度智能自然语言处理技术(NPL Deep)。这种技术,周富秋认为正是海量公司的核心竞争力所在。
目前,海量公司已经开发除了基于上述技术的数据挖掘产品“海纳”。该产品可以通过智能计算技术为网络媒体、行业门户、企业情报部门提供在线网络数据挖掘服务。“海纳”可以自动对指定的网站页面进行监控,对于所发现的新增页面及时提示,并对重复信息进行归总。用户只需要单击鼠标,就可以对网页内容进行转载收录。“海纳”运用智能计算技术,替代人工完成大量信息加工工作,简化编辑工作,经过深度加工提升信息价值。海纳是一款在线产品,用户所有操作都是在客户端完成,而其所有的智能分析和自然语言处理工作均在海量公司的专用机房内完成。据产品总监沈止戈介绍,该公司目前为“海纳”投入了100台大型服务器。
对于自然语言处理来说,语料库是一切工作的基础。沈止戈透露,他们拥有国内最大规模的语料库(北京大学的语料库位居第二),而该公司有近20名语言方面的专业人士每天不停地更新语料库,保证对于新词的收录。而这样做,就保证了对于中文语句分词的机器识别准确率。
海量公司下一步的研究重点将主要集中在对数据信息的深度加工,并且针对不同用户需求提炼出有用的情报信息,为用户决策提供依据。沈止戈向记者演示了一个实例。海量公司对于某体育网站近期的NBA相关新闻进行加工,通过数据挖掘技术从中得出NBA各球队的相关情报。计算机通过分析,很快就生成了一份报表,报表中显示太阳队的后卫名叫纳什,主教练名叫安东尼。