论文部分内容阅读
摘要:本文首先分析了研究背景、研究主题、研究工具与研究意义,同时阐述了研究方式,最后总结了研究流程,仅供参考。
关键词:Python;通用论坛;正文提取;分析研究
本文在BBS类论坛网页基础上,开展文本数据爬取与分析,开展通用论坛正文提取研究,借助HTML、Python工具,构建BBS类论坛网页文本数据抓取算法,详细分析如下。
1 研究背景与研究意义
1.1 研究背景
在大数据背景下,直接带动了各行各业的发展。互联网内网页数据是以半结构形式存在,部分信息被广告、垃圾链接遮挡。采取何种手段,实现网页文本信息的有效提出,为用户提供合理的阅读信息,成为当前急需解决的问题。
1.2 研究意义
一般情况下,网页采取的是超文本标记语言表达方式,简称HTML。在网页信息提取阶段,需要先获取BBS类论坛网页,借助Python语言,实现相关内容提取。
2 研究方式
2.1 正则表达式
正则表达式属于一种模糊匹配所需网页信息,属于模糊匹配文字的最佳工具,具备很强的功能性特点,借助简单快捷的方式,可实现复杂字符串的控制,以此精准获取所需文本内容。
2.2 Python语言
Python本身属于一款免费应用的软件,本身融合了多项功能,自带的各项技术,通过加载相应插件,可实现网络平台的搭建。借助Python语言与正则表达式能够实现网页信息的有效提取[1]。
3 研究流程
3.1 流程分析
论坛正文提取流程主要包括:参照已知样本数据,锁定网页网址—开展数据预处理—应用正则表达式,判定现阶段网页内容是否属于提取内容—依据正则表达式,匹配网页信息需求—确定匹配模型—分析预期结果,给出最优解决方案。
3.2 数据分析
3.2.1 HTML结构与解析
HTML本身属于一种标准的标记语言,主要是为Web页面创建提供依据。HTML文档本身属于一种纯文本文档,可实现对象文档的形象描述,凸显出各个细胞在浏览器内的显性特征。
3.2.2 BBS网页结构分析
基于BBS与URL分析,能够发现BBS网页内具备很多核心结构信息,页面上不同元素的特定标记不同,不同特定标记之间,借助Python语言可为网页信息挖掘提供方向。
3.2.3 DOM树与HTML文档解析
DOM、HTML文档获取、修改、删除或添加,均需要遵循HTML元素标准。就具备价值的信息,提取出来可为企业、政府的决策提供指导。
3.3 数据处理
BBS类网页文本会榨取网页自身的语言结构与语言标签,站在网页视觉分块特征基础上,开展各项分析与阐述。一般情况下,网页内的文本数据均位于标签[table]节点内,为实现页面“噪声”的去除,一般需要对每个节点开展相应处理,以此获取不含标签的纯文字符串[2]。
为实现数据的有效抓取,需要对整体数据开展相应剔除。比如:以Web网页为例,若网页无法正常打开,或指定的主题内容不存在,则需要对整体数据开展非正常剔除。或在网页无法打开,指定主题不存在或已删除,弹出返回操作指令,也需要非正常剔除整体数据。
通过研究BBS類网页HTML文档结构,在网页源代码阶段,为实现主贴内容的抽取、保障回帖信息的精准,需要构建对应的算法,实现目标信息的有效抓获。借助正则表达式中的匹配功能,可实现URL信息的快速抽取。为避免同一链接重复访问的情况出现,需要将已经访问过的URL备份到已经访问的队列中。作为网页内的“源”,网络爬虫需要将种子网页内的有效链接提取出来,并将其纳入到后补爬行队列中,参照用户希望的规定,实现URL的精准提取[3]。
3.4 建模挖掘
互联网本身就如同一张巨大的蜘蛛网,Crawler则如同一只蜘蛛,在大网上自由扫荡,实现互联网内各种文本信息的侦探,精准获取其中的有效文本信息。为实现舆情的有效获取,论坛正文提取方式主要如下。
3.4.1 获取任意类型BBS类网站内的URL信息。
3.4.2 就任意类型的BBS类网页,在正文提取阶段,需要在相关数据项上精准回帖,主贴置顶。本文研究中,通过在网页正文提出基础上,借助html标签对正文内容、正文发布时间、正文作者等开展深入分析,以此保障网页正文内容的有效提取[4]。
3.4.3 就BBS论坛网页信息抓取,需要先对网页内的信息开展聚类处理。
3.4.4 爬取用户需要的数据项信息,针对主贴发表作者、主贴主题、主贴内容、主贴发表时间等资料详细的网页。采取BBS类论坛网页开展信息抓取,借助论坛内的网络爬虫,通过不断冲击,在超链接地址上获取更多的网页[5]。
3.5 结果分析
就模型挖掘,经过数据处理之后,最终结果如下:
标题信息
{标题信息:从这一案例中,你明白了什么道理?-人生哲理-大师}
题主信息
{题主信息:“夏天有点冷”}
题主发帖内容
{题主发帖内容:[{在网上看到一则信息,大概内容是:“某山区一对年轻情侣,准备年底结婚”},{“但是,在通知所有亲朋好友之后,女方要求给12万,寓意“月月红”,为新娘购买三金。”},{“男方认为要求有点过分,已经买车买房,酒席钱全部由男方出,还要12万与三金不合理,与女方商议不果,直接退婚”}{“男人不是百万富翁就别谈婚论嫁!”}}
回帖信息 {回帖信息:这就是中国光棍那么多的原因},{回帖信息:看来以后还得多生女儿!}
回帖作者
{回帖作者:老兄顶住}
回帖时间
{回帖时间:2017-12-11,22:16:40}
3.6 算法分析
本文应用的一种固定算法,研究的是与BBS类似的网页,就任意类型的BBS网站,在网页信息提取过程中未能达到预期效果。在算法使用与算法匹配阶段,需要参照相关原则,开展实时更新。本文使用的算法,并不适用不断更新的网页源代码。
4 结束语
综上所述,就论坛正文提取研究,本文以BBS为例,借助正则表达方式,匹配网页代码需要的信息,并将其提取出来,以此保障正则表达式的精准应用。在使用之前,使用者需要充分了解网页源代码的结构,参照所需内容,在各个标签基础上开展多网页分析。通过应用最大相似度的正则表达方式,能够实现网页源代码匹配标记。但本文研究存在着一定的局限性,还需要广大专家学者开展深入研究。
参考文献
[1]赵光亮,令狐雨薇,朱德孙,赵顺艳,杨陶,陈凤.基于Python的通用论坛正文提取研究[J].电脑知识与技术,2018,14(24):259-260.
[2]刘锐,谭文韬,付园斌,王红.一种通用论坛信息提取方法[J].小型微型计算机系统,2018,39(07):1398-1404.
[3]范媚琳,司明皎,孟媛.论坛正文内容提取通用方法的研究[J].科技风,2017,26(14):81-87.
[4]李文强. 基于多特征融合的网页正文提取及双语网站探测[D].哈尔滨工业大学,2014,22(02):41-45.
[5]李媛. 舆情系统中web信息抽取子系统的设计与实现[D].电子科技大学,2013,22(25):60-64.
贵州师范学院2017年度学生科研项目自主研究项目“基于Python的通用论坛正文提取的研究”(项目编号:2017DXS047);“ 贵州师范学院大学生互联网+创新创业训练中心”(项目 编号:黔教高发[2015]337号、黔教高发(2017)158号);贵州省高技术产业示范工程专项项目(黔发改投资[2015] 1588号);贵州省教育厅创新群体重大研究项目(合同编号:黔教合KY字[2016]040);貴州省普通高等学校工程研究中心(合同编号:黔教合KY字[2016]015)
关键词:Python;通用论坛;正文提取;分析研究
本文在BBS类论坛网页基础上,开展文本数据爬取与分析,开展通用论坛正文提取研究,借助HTML、Python工具,构建BBS类论坛网页文本数据抓取算法,详细分析如下。
1 研究背景与研究意义
1.1 研究背景
在大数据背景下,直接带动了各行各业的发展。互联网内网页数据是以半结构形式存在,部分信息被广告、垃圾链接遮挡。采取何种手段,实现网页文本信息的有效提出,为用户提供合理的阅读信息,成为当前急需解决的问题。
1.2 研究意义
一般情况下,网页采取的是超文本标记语言表达方式,简称HTML。在网页信息提取阶段,需要先获取BBS类论坛网页,借助Python语言,实现相关内容提取。
2 研究方式
2.1 正则表达式
正则表达式属于一种模糊匹配所需网页信息,属于模糊匹配文字的最佳工具,具备很强的功能性特点,借助简单快捷的方式,可实现复杂字符串的控制,以此精准获取所需文本内容。
2.2 Python语言
Python本身属于一款免费应用的软件,本身融合了多项功能,自带的各项技术,通过加载相应插件,可实现网络平台的搭建。借助Python语言与正则表达式能够实现网页信息的有效提取[1]。
3 研究流程
3.1 流程分析
论坛正文提取流程主要包括:参照已知样本数据,锁定网页网址—开展数据预处理—应用正则表达式,判定现阶段网页内容是否属于提取内容—依据正则表达式,匹配网页信息需求—确定匹配模型—分析预期结果,给出最优解决方案。
3.2 数据分析
3.2.1 HTML结构与解析
HTML本身属于一种标准的标记语言,主要是为Web页面创建提供依据。HTML文档本身属于一种纯文本文档,可实现对象文档的形象描述,凸显出各个细胞在浏览器内的显性特征。
3.2.2 BBS网页结构分析
基于BBS与URL分析,能够发现BBS网页内具备很多核心结构信息,页面上不同元素的特定标记不同,不同特定标记之间,借助Python语言可为网页信息挖掘提供方向。
3.2.3 DOM树与HTML文档解析
DOM、HTML文档获取、修改、删除或添加,均需要遵循HTML元素标准。就具备价值的信息,提取出来可为企业、政府的决策提供指导。
3.3 数据处理
BBS类网页文本会榨取网页自身的语言结构与语言标签,站在网页视觉分块特征基础上,开展各项分析与阐述。一般情况下,网页内的文本数据均位于标签[table]节点内,为实现页面“噪声”的去除,一般需要对每个节点开展相应处理,以此获取不含标签的纯文字符串[2]。
为实现数据的有效抓取,需要对整体数据开展相应剔除。比如:以Web网页为例,若网页无法正常打开,或指定的主题内容不存在,则需要对整体数据开展非正常剔除。或在网页无法打开,指定主题不存在或已删除,弹出返回操作指令,也需要非正常剔除整体数据。
通过研究BBS類网页HTML文档结构,在网页源代码阶段,为实现主贴内容的抽取、保障回帖信息的精准,需要构建对应的算法,实现目标信息的有效抓获。借助正则表达式中的匹配功能,可实现URL信息的快速抽取。为避免同一链接重复访问的情况出现,需要将已经访问过的URL备份到已经访问的队列中。作为网页内的“源”,网络爬虫需要将种子网页内的有效链接提取出来,并将其纳入到后补爬行队列中,参照用户希望的规定,实现URL的精准提取[3]。
3.4 建模挖掘
互联网本身就如同一张巨大的蜘蛛网,Crawler则如同一只蜘蛛,在大网上自由扫荡,实现互联网内各种文本信息的侦探,精准获取其中的有效文本信息。为实现舆情的有效获取,论坛正文提取方式主要如下。
3.4.1 获取任意类型BBS类网站内的URL信息。
3.4.2 就任意类型的BBS类网页,在正文提取阶段,需要在相关数据项上精准回帖,主贴置顶。本文研究中,通过在网页正文提出基础上,借助html标签对正文内容、正文发布时间、正文作者等开展深入分析,以此保障网页正文内容的有效提取[4]。
3.4.3 就BBS论坛网页信息抓取,需要先对网页内的信息开展聚类处理。
3.4.4 爬取用户需要的数据项信息,针对主贴发表作者、主贴主题、主贴内容、主贴发表时间等资料详细的网页。采取BBS类论坛网页开展信息抓取,借助论坛内的网络爬虫,通过不断冲击,在超链接地址上获取更多的网页[5]。
3.5 结果分析
就模型挖掘,经过数据处理之后,最终结果如下:
标题信息
{标题信息:从这一案例中,你明白了什么道理?-人生哲理-大师}
题主信息
{题主信息:“夏天有点冷”}
题主发帖内容
{题主发帖内容:[{在网上看到一则信息,大概内容是:“某山区一对年轻情侣,准备年底结婚”},{“但是,在通知所有亲朋好友之后,女方要求给12万,寓意“月月红”,为新娘购买三金。”},{“男方认为要求有点过分,已经买车买房,酒席钱全部由男方出,还要12万与三金不合理,与女方商议不果,直接退婚”}{“男人不是百万富翁就别谈婚论嫁!”}}
回帖信息 {回帖信息:这就是中国光棍那么多的原因},{回帖信息:看来以后还得多生女儿!}
回帖作者
{回帖作者:老兄顶住}
回帖时间
{回帖时间:2017-12-11,22:16:40}
3.6 算法分析
本文应用的一种固定算法,研究的是与BBS类似的网页,就任意类型的BBS网站,在网页信息提取过程中未能达到预期效果。在算法使用与算法匹配阶段,需要参照相关原则,开展实时更新。本文使用的算法,并不适用不断更新的网页源代码。
4 结束语
综上所述,就论坛正文提取研究,本文以BBS为例,借助正则表达方式,匹配网页代码需要的信息,并将其提取出来,以此保障正则表达式的精准应用。在使用之前,使用者需要充分了解网页源代码的结构,参照所需内容,在各个标签基础上开展多网页分析。通过应用最大相似度的正则表达方式,能够实现网页源代码匹配标记。但本文研究存在着一定的局限性,还需要广大专家学者开展深入研究。
参考文献
[1]赵光亮,令狐雨薇,朱德孙,赵顺艳,杨陶,陈凤.基于Python的通用论坛正文提取研究[J].电脑知识与技术,2018,14(24):259-260.
[2]刘锐,谭文韬,付园斌,王红.一种通用论坛信息提取方法[J].小型微型计算机系统,2018,39(07):1398-1404.
[3]范媚琳,司明皎,孟媛.论坛正文内容提取通用方法的研究[J].科技风,2017,26(14):81-87.
[4]李文强. 基于多特征融合的网页正文提取及双语网站探测[D].哈尔滨工业大学,2014,22(02):41-45.
[5]李媛. 舆情系统中web信息抽取子系统的设计与实现[D].电子科技大学,2013,22(25):60-64.
贵州师范学院2017年度学生科研项目自主研究项目“基于Python的通用论坛正文提取的研究”(项目编号:2017DXS047);“ 贵州师范学院大学生互联网+创新创业训练中心”(项目 编号:黔教高发[2015]337号、黔教高发(2017)158号);贵州省高技术产业示范工程专项项目(黔发改投资[2015] 1588号);贵州省教育厅创新群体重大研究项目(合同编号:黔教合KY字[2016]040);貴州省普通高等学校工程研究中心(合同编号:黔教合KY字[2016]015)