基于Web信息挖掘的商业分析系统设计

来源 :科技风 | 被引量 : 0次 | 上传用户:sxytsxyt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:经济全球化的发展使任何企业都不能忽视企业的快速变化的市场的影响,从而把握信息尽快全球化已成为企业制胜的关键;这同样适用于政府、行业管理部门,收集的信息产业和企业的最新发展,将能够迅速对市场、行业和企业的实时、准确的动态监管,以最高的效率和制定相关的政策指导,使行业一直在健康的发展轨道。近年来,互联网的飞速发展给人们提供了各种各样的信息,在这个行业中也蕴含着丰富的商业信息。针对上述问题和需求,网络信息传播和非结构化的特点,现有的Web信息挖掘技术的应用,提出了多学科信息块分割,从企业建立一个商业实体的节点名称代码提取和分类所需的信息,并最终建立一个基于Web信息挖掘的经营分析系统,以促进商业企业和产业的经营与管理。
  关键词:web信息;挖掘;分析
  一、非结构化web信息提取
  本文所提出的系统主要是对企业信息的收集和分析。由于商业信息比其他网页内容更规范,商业网站页面也有规则格式,类似或同一站点有几种格式类似于信息抽取,具有一定的方便性。但是您必须看到业务信息有其特殊性,并且相同的信息块可能包含许多业务信息。考虑到上述因素,本文可以提取信息分为两个步骤:第一步,先过滤掉网页上没有的信息,根据特定的框架格式的网页,网页的文本的主要信息是孤立的,表单网页信息和构建的文档对象模型(DOM)页面生成相应的页面模板信息;步骤2:分词,词频统计,和主题的信息块得到的网页分类的具体内容。在数字表单的情况下,该表的格式可用于标识专业域名词典中的业务信息记录。
  具体的信息分离操作包含以下的步骤:
  (1)循环读取页面信息
  (2)读取标题
  (3)读取表格
  (4)提取段落信息
  (5)提取图片
  (6)构造新的提取模板
  经过上述的信息块分离操作,最终可形成一棵HTML信息块树,以达到信息分离的目的。
  二、信息抽取
  在经过上一节所述处理后,信息是分散的,但必须考虑到业务信息本身的复杂性和混合性,往往可能包含多个话题中同一条信息的信息。因此,在第1节的基础上,本系统还采用了一种信息抽取算法来获取各种商业意义的web信息块。具体步骤如下:
  (1)对文本信息块使用通用切分词表进行分词处理
  (2)再在商业领域实体名字典的指导下,统计信息块中各关键词出现的频率
  (3)通过计算关键词频率,计算出每个句子的权重
  (4)根据句子权重将信息块分离成多个主题
  (5)从新产生的主题信息块抽取出信息块所含的商业信息,存入信息库中
  经上述处理就能将混杂于页面信息块中的各个主题信息加以分离和提取。
  三、信息评价
  网络上的大量信息,由于人性、技术原因,但也有一些矛盾,甚至没有真正的内容,应该采取评价机制来确保提交结果的可靠性。该系统利用先验知识和信息反馈对台湾进行评估。分析的一些信托渠道尽可能多地获得各种各样的信息,各种信息来源的信用评级,当相同的数据源具有不同价值观的冲突,最后的结果按照信贷,持续监控反馈,动态调整权重和评级。
  首先在领域专家指导下建立相关的评价体系,该评价体系重点从信息的两个特征上进行评价,权威性及准确性。
  权威性包括信息是否表明了:
  (1)作者。作者在文献涉及领域受教育、培训及工作经验;有无作者联系方式,作者的同行声誉;
  (2)网站主办者。主办机构在改领域的声誉等
  (3)引用资料来源,是否明确标出引用资料来源,以及来源是否具有权威性
  准确性在于验证信息内容是否与领域需求有关,该信息与领域需求的关联性有多大等。
  通过对信息的权威性及准确性进行评价和分级,能够做到一下两点:
  (1)信息筛选:能够去除与领域需求无关联的信息
  (2)信息加权:筛选后的信息,依照信用评级附加权重。当信息仓库中存在有关键词的信息,但其表述信息内容不同时,依据信息的加权值大小评判真实性。
  信息评价系统涵盖了相关领域的范围和文法规则。信息信用评级从手动识别方法开始,以在域专家的指导下标记起始URL列表的地址。级别分为1级至10级。在系统的设计与实现中,该方法可以更好地对信息源进行评价,但还需要进一步研究,才能得出真正正确的信用评级。
  四、信息提交与反馈
  该系统提取的信息范围很广,信息的范圍也很大,但对于特定的用户来说,它只想查看一小部分的视图。所以向B/S方式的结果,合法用户可以很容易地访问系统通过互联网提供通过使用java编程语言系统提供的服务,后台数据库为SQL Server2000。在jsp模式下实现用户调用。考虑到很多企业都有自己的信息分析系统,系统还预留了一个与企业接口的B(业务信息/智能系统)系统,将系统的结果以接口调用给企业BI系统,供用户使用。
  同时,为了改变信用等级评价体系运用到系统中,可以改变的动态调整的趋势,从终端用户获得的评价结果也可以分析原始信息,新信息的密度等因素,将调整规则基础和信息来源,学习SOM。系统添加用户反馈,获取结果,提交接口的功能,自动获取用户的信息,并向用户提供现有信息的选择。
  五、Conclusion
  在这篇文章中,我们建立了基于Web信息挖掘的商业信息分析系统,利用现有的Web信息挖掘技术,根据原始数据的异构信息块分割的特殊性提出,商业实体名称代码引导商业信息提取和分类,最后将分散在Web信息抽取处理,通过潜在的商业,实际效果具有实用价值,对企业管理进行有效的指导。但同时,系统和一些进一步的改进:企业名称是提取关键信息的分析,较好的解决了现有的实体和条目的命名系统,对一些新的单词,你需要学习鉴别方法是清楚的;此外,信息源具有更高的信用评级的准确评估……这将是我们设计研究的重点。
其他文献
在高职学生中,有一部分人急于求成,对学习英语的方法认识不足,甚至走入误区,学习效果欠佳。结合英语实践教学,探讨高职学生英语学习中的误区,并提出了中肯的建议,以期使学生走出误区
介绍了实验选课与管理系统在物理实验教学中的应用情况,并总结在完善实验教学内容、强化实验教学管理、优化实验教学过程和改进实验考核方式等方面所取得的教学经验及成效。
[摘要] 《护理技术》精品课程以人才培养为根本,以能力培养为主线,坚持以人为本、因材施教、求实创新的教育思想,着力建设《护理技术》精品课程,进行《护理技术》课程教学改革。从《护理技术》课程理论教学体系、教学内容、教学方法及手段等方面进行了全方位、多层次的探索与实践,并取得了阶段性成果。  [关键词] 护理技术 精品课程 教学改革  精品课程是教育部正在实施的“高等学校教学质量和教学改革工程”的重要
摘 要:给排水系统是目前高层建筑设计的重点内容,给排水系统的完善性可以确保用户在用水时水压的稳定性,方便人们的生活。此外,对消防问题进行了探析,提出高层建筑中给排水设计的要点内容。  关键词:高层建筑;给排水;消防设计    目前,高层建筑在设计的同时要参考很多的意见,给排水设计在高层建筑中占有非常重要的地位。同时,在设计时会出现很多因素的困扰,产生很多问题。这篇文章就高层建筑在设计时出现的困扰进
期刊
对提高口腔实习学生的实习效果进行了有益的探索,建立完整的考核体系,增强带教老师的责任意识,提升教学效果。
[摘要] 本文分析了高校思想政治教育生活化的意义和必要性,探寻了思想政治教育生活化缺失的表征,提出高校思想政治教育作为一种属人的、社会性的活动,应该贴近生活,引领生活,并最终融入生活,并提出了高校思想政治教育生活化的实践路径。  [关键词]高校 思想政治教育 全面发展 生活化 缺失 回归    高校思想政治教育的根本目的是塑造和提高大学生政治思想和道德水平,对受教育者施加一定的教育影响,促进大学生
阐述了构建基础课实验教学示范中心的重要性与必要性,以及构建工作带来的辐射和示范作用。提出了建设基础课实验教学示范中心重在建设,重在效果的观点。
以罗克韦尔自动化三层网络技术为平台,以过程控制装置、交流调速系统、伺服控制系统和顺序控制系统为被控对象,设计了综合实验系统。学生可以利用校园网络完成相关实验教学任
语言的学习是以交流为目的的一个积累的过程,听说读写译这几个方面是有着紧密联系的。在语言学习中,口语能力的提升是其十分重要的组成部分。提升口语的方式方法多种多样,将以第