基于Python的通用论坛正文提取的研究

来源 :科学与技术 | 被引量 : 0次 | 上传用户:hcpysw3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文首先分析了研究背景、研究主题、研究工具与研究意义,同时阐述了研究方式,最后总结了研究流程,仅供参考。
  关键词:Python;通用论坛;正文提取;分析研究
  本文在BBS类论坛网页基础上,开展文本数据爬取与分析,开展通用论坛正文提取研究,借助HTML、Python工具,构建BBS类论坛网页文本数据抓取算法,详细分析如下。
  1 研究背景与研究意义
  1.1 研究背景
  在大数据背景下,直接带动了各行各业的发展。互联网内网页数据是以半结构形式存在,部分信息被广告、垃圾链接遮挡。采取何种手段,实现网页文本信息的有效提出,为用户提供合理的阅读信息,成为当前急需解决的问题。
  1.2 研究意义
  一般情况下,网页采取的是超文本标记语言表达方式,简称HTML。在网页信息提取阶段,需要先获取BBS类论坛网页,借助Python语言,实现相关内容提取。
  2 研究方式
  2.1 正则表达式
  正则表达式属于一种模糊匹配所需网页信息,属于模糊匹配文字的最佳工具,具备很强的功能性特点,借助简单快捷的方式,可实现复杂字符串的控制,以此精准获取所需文本内容。
  2.2 Python语言
  Python本身属于一款免费应用的软件,本身融合了多项功能,自带的各项技术,通过加载相应插件,可实现网络平台的搭建。借助Python语言与正则表达式能够实现网页信息的有效提取[1]
  3 研究流程
  3.1 流程分析
  论坛正文提取流程主要包括:参照已知样本数据,锁定网页网址—开展数据预处理—应用正则表达式,判定现阶段网页内容是否属于提取内容—依据正则表达式,匹配网页信息需求—确定匹配模型—分析预期结果,给出最优解决方案。
  3.2 数据分析
  3.2.1 HTML结构与解析
  HTML本身属于一种标准的标记语言,主要是为Web页面创建提供依据。HTML文档本身属于一种纯文本文档,可实现对象文档的形象描述,凸显出各个细胞在浏览器内的显性特征。
  3.2.2 BBS网页结构分析
  基于BBS与URL分析,能够发现BBS网页内具备很多核心结构信息,页面上不同元素的特定标记不同,不同特定标记之间,借助Python语言可为网页信息挖掘提供方向。
  3.2.3 DOM树与HTML文档解析
  DOM、HTML文档获取、修改、删除或添加,均需要遵循HTML元素标准。就具备价值的信息,提取出来可为企业、政府的决策提供指导。
  3.3 数据处理
  BBS类网页文本会榨取网页自身的语言结构与语言标签,站在网页视觉分块特征基础上,开展各项分析与阐述。一般情况下,网页内的文本数据均位于标签[table]节点内,为实现页面“噪声”的去除,一般需要对每个节点开展相应处理,以此获取不含标签的纯文字符串[2]
  为实现数据的有效抓取,需要对整体数据开展相应剔除。比如:以Web网页为例,若网页无法正常打开,或指定的主题内容不存在,则需要对整体数据开展非正常剔除。或在网页无法打开,指定主题不存在或已删除,弹出返回操作指令,也需要非正常剔除整体数据。
  通过研究BBS類网页HTML文档结构,在网页源代码阶段,为实现主贴内容的抽取、保障回帖信息的精准,需要构建对应的算法,实现目标信息的有效抓获。借助正则表达式中的匹配功能,可实现URL信息的快速抽取。为避免同一链接重复访问的情况出现,需要将已经访问过的URL备份到已经访问的队列中。作为网页内的“源”,网络爬虫需要将种子网页内的有效链接提取出来,并将其纳入到后补爬行队列中,参照用户希望的规定,实现URL的精准提取[3]
  3.4 建模挖掘
  互联网本身就如同一张巨大的蜘蛛网,Crawler则如同一只蜘蛛,在大网上自由扫荡,实现互联网内各种文本信息的侦探,精准获取其中的有效文本信息。为实现舆情的有效获取,论坛正文提取方式主要如下。
  3.4.1 获取任意类型BBS类网站内的URL信息。
  3.4.2 就任意类型的BBS类网页,在正文提取阶段,需要在相关数据项上精准回帖,主贴置顶。本文研究中,通过在网页正文提出基础上,借助html标签对正文内容、正文发布时间、正文作者等开展深入分析,以此保障网页正文内容的有效提取[4]
  3.4.3 就BBS论坛网页信息抓取,需要先对网页内的信息开展聚类处理。
  3.4.4 爬取用户需要的数据项信息,针对主贴发表作者、主贴主题、主贴内容、主贴发表时间等资料详细的网页。采取BBS类论坛网页开展信息抓取,借助论坛内的网络爬虫,通过不断冲击,在超链接地址上获取更多的网页[5]
  3.5 结果分析
  就模型挖掘,经过数据处理之后,最终结果如下:
  标题信息
  {标题信息:从这一案例中,你明白了什么道理?-人生哲理-大师}
  题主信息
  {题主信息:“夏天有点冷”}
  题主发帖内容
  {题主发帖内容:[{在网上看到一则信息,大概内容是:“某山区一对年轻情侣,准备年底结婚”},{“但是,在通知所有亲朋好友之后,女方要求给12万,寓意“月月红”,为新娘购买三金。”},{“男方认为要求有点过分,已经买车买房,酒席钱全部由男方出,还要12万与三金不合理,与女方商议不果,直接退婚”}{“男人不是百万富翁就别谈婚论嫁!”}}
  回帖信息   {回帖信息:这就是中国光棍那么多的原因},{回帖信息:看来以后还得多生女儿!}
  回帖作者
  {回帖作者:老兄顶住}
  回帖时间
  {回帖时间:2017-12-11,22:16:40}
  3.6 算法分析
  本文应用的一种固定算法,研究的是与BBS类似的网页,就任意类型的BBS网站,在网页信息提取过程中未能达到预期效果。在算法使用与算法匹配阶段,需要参照相关原则,开展实时更新。本文使用的算法,并不适用不断更新的网页源代码。
  4 结束语
  综上所述,就论坛正文提取研究,本文以BBS为例,借助正则表达方式,匹配网页代码需要的信息,并将其提取出来,以此保障正则表达式的精准应用。在使用之前,使用者需要充分了解网页源代码的结构,参照所需内容,在各个标签基础上开展多网页分析。通过应用最大相似度的正则表达方式,能够实现网页源代码匹配标记。但本文研究存在着一定的局限性,还需要广大专家学者开展深入研究。
  参考文献
  [1]赵光亮,令狐雨薇,朱德孙,赵顺艳,杨陶,陈凤.基于Python的通用论坛正文提取研究[J].电脑知识与技术,2018,14(24):259-260.
  [2]刘锐,谭文韬,付园斌,王红.一种通用论坛信息提取方法[J].小型微型计算机系统,2018,39(07):1398-1404.
  [3]范媚琳,司明皎,孟媛.论坛正文内容提取通用方法的研究[J].科技风,2017,26(14):81-87.
  [4]李文强. 基于多特征融合的网页正文提取及双语网站探测[D].哈尔滨工业大学,2014,22(02):41-45.
  [5]李媛. 舆情系统中web信息抽取子系统的设计与实现[D].电子科技大学,2013,22(25):60-64.
  贵州师范学院2017年度学生科研项目自主研究项目“基于Python的通用论坛正文提取的研究”(项目编号:2017DXS047);“ 贵州师范学院大学生互联网+创新创业训练中心”(项目 编号:黔教高发[2015]337号、黔教高发(2017)158号);贵州省高技术产业示范工程专项项目(黔发改投资[2015] 1588号);贵州省教育厅创新群体重大研究项目(合同编号:黔教合KY字[2016]040);貴州省普通高等学校工程研究中心(合同编号:黔教合KY字[2016]015)
其他文献
摘要:钻机提升系统作为石油钻机的核心,在起下钻等作业流程中起着至关重要的作用,按照提升方式的不同将钻机提升系统分为了绞车式和液压式提升系统,对两种提升系统的结构组成进行了分析,并调研了国内外提升系统的应用状况,最后对两种提升系统的优缺点进行了总结分析。可以预见,具备先进性的液压式提升系统会在今后的石油钻机中占据重要地位。  关键词:油钻机;提升系统;绞车式;液压式  1提升系統分析  1.1绞车式
期刊
摘要:随着经济的发展和社会的进步,人民对于生活的质量普遍要求提高,改善工作环境,提供更舒适的生活环境已成为普遍需求。因为电气智能化技术的迅速发展,电气工程的地位也愈来愈重要,目前电气工程占了建筑行业工程的百分之二十,要想达到企业预期设计的目的,就必须在建设工程中把握好各个环节,重视电气监理。对整个建筑工程的电气实施有效的管理,是保证建筑工程优质高效的前提。电气监理作为电气工程的重要组成部分,会影响
期刊
摘要:尝试一种三元件ISD悬架结构,建立四分之一悬架模型,运用多目标函数优化结构的参数,对比分析了传统被动、优化前后ISD三种悬架系统的性能。结果表明,优化后的ISD悬架的车身加速度、轮胎动载荷和悬架动行程均方根值都不同程度的减小,说明经参数优化的ISD悬架可有效改善驾驶和乘坐体验。  关键词:惯容器;车辆悬架;参数优化  1.引言  “惯容器-弹簧-阻尼”悬架体系的确立突破了传统被动悬架的性能瓶
期刊
摘要:本文主要是对建筑施工给排水施工组织设计优化进行探究,通过对国内施工企业施工组织现状进行研究,抓住建筑给排水工程编制施工组织设计的重点,从而有针对性的对建筑工给排水施工组织设计优化进行探究,探讨出更合理的解决方案。  关键词:建筑施工;给排水施工;组织设计优化  前言  进入21世纪后,城市化进程越来越快,建筑行业得到快速发展,建筑的给排水的内容不断得到了扩充,设计的复杂性也逐渐提高,難度也在
期刊
摘要:新课标提出,要“以学生的终身发展为本”。所谓终身发展,即学生具备一定的自主学习的能力和终身学习的意识,而这些都需要教师进行培养。在初中数学教学中,教师应该如何培养学生自主学习能力呢?下面笔者将从以下几个方面展开研究。  关键词:初中生;数学;自主学习;能力培养  在初中数学教学活动开展中,教师要对学生的自主学习能力培养给予充分的重视,借助多样化的手段培养学生的自主学习能力,尤其要发挥自主学习
期刊
摘要:板材数字化渐进成形技术具有无需专用模具、可提高板材成形极限、可用于加工变形程度大、形状非常复杂的板材零件、易于实现板材成形自动化等特点,适用于小批量、多品种、难成形的钣金件加工。本文通过对金属板料渐进成形的专利申请从申请年度分布、技术原创国分布、申请目标国分布进行了分析,并列出国外和国内的主要申请人,分析了金属板料渐进成形的技术演进过程,为熟悉的金属板料渐进成形提供一些参考。  关键词:渐进
期刊
摘要:凤凰水电厂由水库、坝后一级电站和下游二级电站组成。坝后一级电站安装2台立轴混流水轮发电机组,总装机容量3.4MW,机端电压6.3kV。经过变电站升压为35kV后并入电网。机组励磁方式为自并励励磁。  一、概述  凤凰水电厂坝后一级电站位于广东省潮州市凤凰镇,是韩江支流凤凰流域中凤凰水库的坝后式电站,装有二台1.7WM的立式混流水轮发电机组,设计发电水头23.5m,最大发电流量17.14 m?
期刊
摘要:通过轻度改性的重质碳酸钙、非改性的重质碳酸钙与完全改性的輕质碳酸钙在无纺布填充的应用试验对比分析,经轻度改性的重质碳酸钙完全可应用于无纺布行业,取代价格昂贵的轻质碳酸钙,经济效益显著。  关键词:无纺布;重钙;轻钙;改性  无纺布的力学性能主要有拉伸强度、弯曲强度和冲击强度,三种力学性能中,拉伸强度越大,弯曲强度和冲击强度越小;反之,弯曲强度和冲击强度越大。所以要综合考虑,达到最佳的平衡点。
期刊
摘要:随着社会经济的急速发展,人民的生活越来越好,在很多方面的要求都有所提高,房屋建筑方面尤为突出,房屋建筑的安全性和稳定性成为关注的焦点。房屋建成后会使用很多年,必须要保证质量。如今房屋建筑结构发生了一些变化,加固技术也需要不断探究创新,才能更好的保护人民的生命财产安全。本文主要针对房屋建筑的结构加固施工技术进行讨论。  关键词:房屋建筑;结构加固;施工技术  房屋建筑是否安全是审核房屋建筑工程
期刊
摘要:为了实现机电工程施工质量的不断提升,我们必须在充分了解影响机电工程施工质量关键因素的基础上,采取针对性的控制措施,严格遵守质量标准,加强施工人员的技术和安全意识培训。在施工过程中做好质检工作,确保施工的每一个环节符合质量规范,以推动机电安装工程施工的规范化发展。本文机电工程实施过程中的控制与管理进行了探讨。  关键词:建筑机电工程;实施过程;质量控制;管理措施  在建筑工程中机电工程是非常关
期刊