论文部分内容阅读
摘 要:经济全球化的发展使任何企业都不能忽视企业的快速变化的市场的影响,从而把握信息尽快全球化已成为企业制胜的关键;这同样适用于政府、行业管理部门,收集的信息产业和企业的最新发展,将能够迅速对市场、行业和企业的实时、准确的动态监管,以最高的效率和制定相关的政策指导,使行业一直在健康的发展轨道。近年来,互联网的飞速发展给人们提供了各种各样的信息,在这个行业中也蕴含着丰富的商业信息。针对上述问题和需求,网络信息传播和非结构化的特点,现有的Web信息挖掘技术的应用,提出了多学科信息块分割,从企业建立一个商业实体的节点名称代码提取和分类所需的信息,并最终建立一个基于Web信息挖掘的经营分析系统,以促进商业企业和产业的经营与管理。
关键词:web信息;挖掘;分析
一、非结构化web信息提取
本文所提出的系统主要是对企业信息的收集和分析。由于商业信息比其他网页内容更规范,商业网站页面也有规则格式,类似或同一站点有几种格式类似于信息抽取,具有一定的方便性。但是您必须看到业务信息有其特殊性,并且相同的信息块可能包含许多业务信息。考虑到上述因素,本文可以提取信息分为两个步骤:第一步,先过滤掉网页上没有的信息,根据特定的框架格式的网页,网页的文本的主要信息是孤立的,表单网页信息和构建的文档对象模型(DOM)页面生成相应的页面模板信息;步骤2:分词,词频统计,和主题的信息块得到的网页分类的具体内容。在数字表单的情况下,该表的格式可用于标识专业域名词典中的业务信息记录。
具体的信息分离操作包含以下的步骤:
(1)循环读取页面信息
(2)读取标题
(3)读取表格
(4)提取段落信息
(5)提取图片
(6)构造新的提取模板
经过上述的信息块分离操作,最终可形成一棵HTML信息块树,以达到信息分离的目的。
二、信息抽取
在经过上一节所述处理后,信息是分散的,但必须考虑到业务信息本身的复杂性和混合性,往往可能包含多个话题中同一条信息的信息。因此,在第1节的基础上,本系统还采用了一种信息抽取算法来获取各种商业意义的web信息块。具体步骤如下:
(1)对文本信息块使用通用切分词表进行分词处理
(2)再在商业领域实体名字典的指导下,统计信息块中各关键词出现的频率
(3)通过计算关键词频率,计算出每个句子的权重
(4)根据句子权重将信息块分离成多个主题
(5)从新产生的主题信息块抽取出信息块所含的商业信息,存入信息库中
经上述处理就能将混杂于页面信息块中的各个主题信息加以分离和提取。
三、信息评价
网络上的大量信息,由于人性、技术原因,但也有一些矛盾,甚至没有真正的内容,应该采取评价机制来确保提交结果的可靠性。该系统利用先验知识和信息反馈对台湾进行评估。分析的一些信托渠道尽可能多地获得各种各样的信息,各种信息来源的信用评级,当相同的数据源具有不同价值观的冲突,最后的结果按照信贷,持续监控反馈,动态调整权重和评级。
首先在领域专家指导下建立相关的评价体系,该评价体系重点从信息的两个特征上进行评价,权威性及准确性。
权威性包括信息是否表明了:
(1)作者。作者在文献涉及领域受教育、培训及工作经验;有无作者联系方式,作者的同行声誉;
(2)网站主办者。主办机构在改领域的声誉等
(3)引用资料来源,是否明确标出引用资料来源,以及来源是否具有权威性
准确性在于验证信息内容是否与领域需求有关,该信息与领域需求的关联性有多大等。
通过对信息的权威性及准确性进行评价和分级,能够做到一下两点:
(1)信息筛选:能够去除与领域需求无关联的信息
(2)信息加权:筛选后的信息,依照信用评级附加权重。当信息仓库中存在有关键词的信息,但其表述信息内容不同时,依据信息的加权值大小评判真实性。
信息评价系统涵盖了相关领域的范围和文法规则。信息信用评级从手动识别方法开始,以在域专家的指导下标记起始URL列表的地址。级别分为1级至10级。在系统的设计与实现中,该方法可以更好地对信息源进行评价,但还需要进一步研究,才能得出真正正确的信用评级。
四、信息提交与反馈
该系统提取的信息范围很广,信息的范圍也很大,但对于特定的用户来说,它只想查看一小部分的视图。所以向B/S方式的结果,合法用户可以很容易地访问系统通过互联网提供通过使用java编程语言系统提供的服务,后台数据库为SQL Server2000。在jsp模式下实现用户调用。考虑到很多企业都有自己的信息分析系统,系统还预留了一个与企业接口的B(业务信息/智能系统)系统,将系统的结果以接口调用给企业BI系统,供用户使用。
同时,为了改变信用等级评价体系运用到系统中,可以改变的动态调整的趋势,从终端用户获得的评价结果也可以分析原始信息,新信息的密度等因素,将调整规则基础和信息来源,学习SOM。系统添加用户反馈,获取结果,提交接口的功能,自动获取用户的信息,并向用户提供现有信息的选择。
五、Conclusion
在这篇文章中,我们建立了基于Web信息挖掘的商业信息分析系统,利用现有的Web信息挖掘技术,根据原始数据的异构信息块分割的特殊性提出,商业实体名称代码引导商业信息提取和分类,最后将分散在Web信息抽取处理,通过潜在的商业,实际效果具有实用价值,对企业管理进行有效的指导。但同时,系统和一些进一步的改进:企业名称是提取关键信息的分析,较好的解决了现有的实体和条目的命名系统,对一些新的单词,你需要学习鉴别方法是清楚的;此外,信息源具有更高的信用评级的准确评估……这将是我们设计研究的重点。
关键词:web信息;挖掘;分析
一、非结构化web信息提取
本文所提出的系统主要是对企业信息的收集和分析。由于商业信息比其他网页内容更规范,商业网站页面也有规则格式,类似或同一站点有几种格式类似于信息抽取,具有一定的方便性。但是您必须看到业务信息有其特殊性,并且相同的信息块可能包含许多业务信息。考虑到上述因素,本文可以提取信息分为两个步骤:第一步,先过滤掉网页上没有的信息,根据特定的框架格式的网页,网页的文本的主要信息是孤立的,表单网页信息和构建的文档对象模型(DOM)页面生成相应的页面模板信息;步骤2:分词,词频统计,和主题的信息块得到的网页分类的具体内容。在数字表单的情况下,该表的格式可用于标识专业域名词典中的业务信息记录。
具体的信息分离操作包含以下的步骤:
(1)循环读取页面信息
(2)读取标题
(3)读取表格
(4)提取段落信息
(5)提取图片
(6)构造新的提取模板
经过上述的信息块分离操作,最终可形成一棵HTML信息块树,以达到信息分离的目的。
二、信息抽取
在经过上一节所述处理后,信息是分散的,但必须考虑到业务信息本身的复杂性和混合性,往往可能包含多个话题中同一条信息的信息。因此,在第1节的基础上,本系统还采用了一种信息抽取算法来获取各种商业意义的web信息块。具体步骤如下:
(1)对文本信息块使用通用切分词表进行分词处理
(2)再在商业领域实体名字典的指导下,统计信息块中各关键词出现的频率
(3)通过计算关键词频率,计算出每个句子的权重
(4)根据句子权重将信息块分离成多个主题
(5)从新产生的主题信息块抽取出信息块所含的商业信息,存入信息库中
经上述处理就能将混杂于页面信息块中的各个主题信息加以分离和提取。
三、信息评价
网络上的大量信息,由于人性、技术原因,但也有一些矛盾,甚至没有真正的内容,应该采取评价机制来确保提交结果的可靠性。该系统利用先验知识和信息反馈对台湾进行评估。分析的一些信托渠道尽可能多地获得各种各样的信息,各种信息来源的信用评级,当相同的数据源具有不同价值观的冲突,最后的结果按照信贷,持续监控反馈,动态调整权重和评级。
首先在领域专家指导下建立相关的评价体系,该评价体系重点从信息的两个特征上进行评价,权威性及准确性。
权威性包括信息是否表明了:
(1)作者。作者在文献涉及领域受教育、培训及工作经验;有无作者联系方式,作者的同行声誉;
(2)网站主办者。主办机构在改领域的声誉等
(3)引用资料来源,是否明确标出引用资料来源,以及来源是否具有权威性
准确性在于验证信息内容是否与领域需求有关,该信息与领域需求的关联性有多大等。
通过对信息的权威性及准确性进行评价和分级,能够做到一下两点:
(1)信息筛选:能够去除与领域需求无关联的信息
(2)信息加权:筛选后的信息,依照信用评级附加权重。当信息仓库中存在有关键词的信息,但其表述信息内容不同时,依据信息的加权值大小评判真实性。
信息评价系统涵盖了相关领域的范围和文法规则。信息信用评级从手动识别方法开始,以在域专家的指导下标记起始URL列表的地址。级别分为1级至10级。在系统的设计与实现中,该方法可以更好地对信息源进行评价,但还需要进一步研究,才能得出真正正确的信用评级。
四、信息提交与反馈
该系统提取的信息范围很广,信息的范圍也很大,但对于特定的用户来说,它只想查看一小部分的视图。所以向B/S方式的结果,合法用户可以很容易地访问系统通过互联网提供通过使用java编程语言系统提供的服务,后台数据库为SQL Server2000。在jsp模式下实现用户调用。考虑到很多企业都有自己的信息分析系统,系统还预留了一个与企业接口的B(业务信息/智能系统)系统,将系统的结果以接口调用给企业BI系统,供用户使用。
同时,为了改变信用等级评价体系运用到系统中,可以改变的动态调整的趋势,从终端用户获得的评价结果也可以分析原始信息,新信息的密度等因素,将调整规则基础和信息来源,学习SOM。系统添加用户反馈,获取结果,提交接口的功能,自动获取用户的信息,并向用户提供现有信息的选择。
五、Conclusion
在这篇文章中,我们建立了基于Web信息挖掘的商业信息分析系统,利用现有的Web信息挖掘技术,根据原始数据的异构信息块分割的特殊性提出,商业实体名称代码引导商业信息提取和分类,最后将分散在Web信息抽取处理,通过潜在的商业,实际效果具有实用价值,对企业管理进行有效的指导。但同时,系统和一些进一步的改进:企业名称是提取关键信息的分析,较好的解决了现有的实体和条目的命名系统,对一些新的单词,你需要学习鉴别方法是清楚的;此外,信息源具有更高的信用评级的准确评估……这将是我们设计研究的重点。