【摘 要】
:
研究淘宝网和百度有啊这两个国内有代表性的C2C电子商务平台上的销售记录及其用户信息的抽取.针对两个网站上的店铺销售数据,设计一个基于JerichoHtmlParser的、以Html数据标
【机 构】
:
泉州师范学院数学与计算机科学学院,华侨大学计算机学院
论文部分内容阅读
研究淘宝网和百度有啊这两个国内有代表性的C2C电子商务平台上的销售记录及其用户信息的抽取.针对两个网站上的店铺销售数据,设计一个基于JerichoHtmlParser的、以Html数据标签为地标的Web数据抽取算法;针对两个网站上的用户信息,设计一个基于正则表达式的Web数据抽取算法.设计实现了一个Web抽取系统,可以按不同的抽取规则实现对不同站点上数据的抽取.最后通过对上述2个平台上实际数据的抽取,验证了设计方案的有效性,实验证实了所设计的原型系统具有较高查全率和准确率.
其他文献
从改革开放以来,国家针对事业单位及管理体制进行予一系列改革,改革的成果是促进了社会事业的发展,提高了事业单位的活力。随着企业化管理在军队企业25年的推行,笔者认为企业化管
通过阐述知识供应链的概念,分析Web2.0的优势及二者的关系,并在此基础上研究如何通过Web2.0的各项技术来优化图书馆的知识供应链,构建了基于Wiki与Blog的知识创新、基于Folksonomy
为了深入分析现行新农合存在的现实困境,寻求新型农村合作医疗制度的优化路径;本文分析了三方主体所存在的主要问题,探析新农合制度的优化路径和对策;有利于进一步优化新农合
当今金融危机已经慢慢蔓延到我国实体经济中,对钢铁行业的影响是显而易见的,我国钢铁企业面临着经济结构转型才能求发展的局面,本文就是分析钢铁企业行业整合,通过重组,结构
2006年我国颁布了新的企业会计准则,并规定该准则于2007年1月1日起施行。新的企业会计准则与旧准则相比发生了很多变化,尤其在某些方面,如公允价值的使用上有了全新的规定。
对翻译工作者来说,译文的准确、简洁和文采是共同的追求,翻译文学作品是如此,翻译政治文献也应如此。然而,政治文献中高频率用词的翻译,如何做到既简洁达意、又不单调重复,给