论文部分内容阅读
摘 要:文章给出了非结构化文本分析软件的定义,并将其划分为三种主要的类型: 基于词典的非结构化文本分析软件、基于开发环境的非结构化文本分析软件以及基于注释的非结构化文本分析软件。之后,文章选择了两款非结构化文本分析软件(KH Coder,Wordstat),从内部特征和外部特征两个角度对其进行了比较分析。其中,外部特征包括:两款非结构化文本分析软件的费用、更新速度、运行环境、语言种类、客户端方式以及用户指南等6个方面;内部特征包括两款非结构化文本分析软件的主要功能、工作流程、数据格式、可视化功能的展现方式以及关系揭示等5个角度开展。分别指出两款非结构化文本分析软件的优势与劣势、非结构化文本分析软件的未来发展,以帮助用户根据自身的需求选择合适的非结构化文本分析软件。
关键词:非结构文本;可视化;软件;比较研究
中图分类号: G254.9 文献标识码: A DOI: 10.11968/tsyqb.1003-6938.2015092
Abstract The article defined the unstructured text analysis software, and divided them into three main types: dictionary-based unstructured text analysis software, development environments unstructured text analysis software, and annotation aids unstructured text analysis software. Then, the authors chose two unstructured text analysis software, KH Coder and Wordstat, compared them from two perspectives: inside and outside characteristics. Among them, outside characteristics included cost, update rate, operating environment, languages, the way of client and user guide. Inside characteristics included key feature, workflow, data format, modes of representation and relationship reveal. After that, the article respectively pointed out strengths and weaknesses of the two unstructured text analysis software,the trend of unstructured text analysis software, in order to help users select the best software in accordance with their own research needs.
Key words unstructured text analysis; visualization; software; comparative research
1 引言
非结构化文本是指以文本(字符、数字、标点、各种可打印的符号等)为数据形式的非结构化数据[1]。非结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等等,也可能包含大量非结构化文本成分,如摘要和内容[2]。当前互联网上也存在大量的非结构化电子文本,如新闻、博客、电子邮件、政府文件、聊天记录等[3]。人们应该如何正确理解这些数据?目前普遍的方式是通过人工注释语义信息实现对非结构化文本进行分析。但是数据量的过于巨大使得这项任务不可能完全凭借人工方式来完成,迫切的需要借助于计算机的帮助来完成对大量非结构化文本进行信息抽取和分析。在此情况下,非结构化文本分析软件就应运而生了。非结构化文本,主要是指类似于字符、标点、各种可打印的符号等数据。比如,一篇文档既可能包含结构字段,如标题、作者、出版日期、长度、分类等,也可能包含大量非结构化文本成分,如摘要和正文内容。而所谓非结构化文本分析软件,是指能够对非结构化文本进行自动化分析,进而将文本中词频、词性、词间关系等特征以结构化数据或者可视化方式呈现给用户的计算机软件。
早在20世纪50年代末,H.P.Luhn[4]就已经在非结构化文本分析领域进行了开创性的研究,提出了将词频统计思想用于文本的自动分类。之后,这一领域逐渐得到学者们的重视,出现了许多新的研究成果。如Maron M E[5]等人围绕如何对非结构化文本进行自动分类开展了研究与探讨;Ghanem M[6]等人在经过深入研究后,提出了适用于非结构化文本的分析模型。除此之外,我国也有许多学者对这一问题加以关注,研究重点主要集中在文本特征抽取与文本中间表示、关联规则抽取、语义关系挖掘、文本聚类与主题分析以及趋势分析等领域。例如,李凡[7]等人曾于2001年对文本特征的抽取进行研究,提出了一种新的文本特征抽取方法;万小军[8]等人于2003年撰文试图对文档聚类方法k-means算法加以改进;而黄晓斌教授[9]等学者则试图对互联网文本内容进行分析挖掘以达到对舆情信息的分析与预测。与此同时,由于对非结构化文本分析的需求日益加大,许多支持非结构化文本分析、功能日益完善的软件也相继出现,数量多达数十个。因此,美国哈佛大学学者Lowe W[10]于2002年撰文对前述非结构化文本分析软件进行了详细的分类与介绍,以期为用户选用非结构化文本分析软件提供借鉴与帮助。然而,尽管有越来越多的学者将目光聚焦于非结构化文本分析这一问题,也产生了丰硕的研究成果,但是应该明确的是,现有研究大都从实现技术层面着手试图对非结构化文本分析技术加以改进,而从用户角度出发,将关注点集中在应用层面的文章却少之又少。鉴于此,本文试图以两款较为常用的非结构化文本分析软件——KH Coder和Wordstat为例,从内外特征共11个方面对其数据格式、工作流程、主要功能等进行比较分析,以期为用户选用并研究非结构化文本分析软件提供参考。 2 非结构化文本分析软件的主要类型
根据笔者对各类非结构化文本分析软件的调研,并且结合前人的研究成果[10],可初步将非结构化文本分析软件按照主要功能划分为如下三个类型:基于词典的非结构化文本分析软件、包含开发环境的非结构化文本分析软件以及包含注释的非结构化文本分析软件。
2.1 基于词典的非结构化文本分析软件
基于词典的非结构化文本分析软件以词典或词表为基础,通过将文本中的单词与词典或词表进行匹配来完成对文本的分析。其最终结果通常是对词频等特征的统计数据,如CATPAC、Concordance等。
2.2. 包含开发环境的非结构化文本分析软件
包含开发环境的非结构化文本分析软件在对文本进行分析时,能够自动生成对应的词典或词表。其最终结果也是各类统计数据,但是与基于词典的非结构化文本分析软件相比,由于使用的词典更具针对性,因此统计出的最终结果也更为精准,如Profiler Plus、DIMAP等。
2.3 包含注释的非结构化文本分析软件
包含注释的非结构化文本分析软件是三种非结构化文本分析软件中自动化程度最高的一种,其最终结果将以旁注、交叉参考以及笔记的形式呈现,其形式好比一个研究人员对某篇论文做的读书笔记一样,如Atlas-ti、NUDIST等。
本文选择了两款第一种类型(基于词典的非结构化文本分析软件)非结构化文本分析软件(KH Coder、Wordstat)进行比较分析。之所以选择第一种类型的非结构化文本分析软件是由于:相对来讲,第一种类型的非结构化文本分析软件的使用更为普遍;之所以选择KH Coder和Wordstat来作为比较分析的具体对象,一是由于上述两款软件较为普及,二是由于上述两款软件均为开源软件(Wordstat虽然非开源,但是有免费试用期)。
3 外在特征比较研究
本部分主要对上述两款非结构化文本分析软件的外部特征,即两款非结构化文本分析软件的基本概况进行比较,具体包括:软件的费用、软件的更新速度、软件所支持的运行环境、软件支持的语言种类、软件运行的客户端方式以及软件是否配备有用户指南等方面(见表1)。
3.1 软件费用
费用问题将很大程度上影响用户对软件的选用。上述两款非结构化文本分析软件中,KH Coder是完全免费的,用户可以通过其官网自行下载。Wordstat则是非开源的,但是有30天的试用期,在30天内用户可以免费试用,超出试用期后,需要额外购买才能使用。可见,在软件费用方面,KH Coder相对占有优势,但是由于Wordstat允许用户有30天的试用期限,也能够一定程度上满足用户需求。
3.2 更新速度
软件更新越快就意味着软件自身的功能越完善,因此,软件的更新速度直接影响到用户对软件使用的满意程度。总的来说,上述两款非结构化文本分析软件都保持了良好的版本更新状况。其中KHCoder的版本更新相对较快,最近一次更新是在2014年的4月17日。由此可见,上述两款非结构化文本分析软件中,KH Coder在更新速度上相对占有优势。
3.3 运行环境
软件所支持的运行环境越多样,就意味着软件的通用性越强,用户使用时就可以不受物理条件的限制。上述两款非结构化文本分析软件中,KH Coder只能在Windows或MAC OS X系列的环境下运行。Wordstat可以在全部的系统环境下运行,但是由于Wordstat只是一个功能模块,因此必须在QDAMiner或者Simstat的基础上才能运行。可见,虽然KH Coder支持的环境范围较为狭小,但是不需要安装额外的软件,而Wordstat虽然可以支持全部的环境,但是需要额外安装QDAMiner或者Simstat,二者各有利弊。
3.4 语言种类
非结构化文本分析软件支持语言种类的多少可以从一定程度上作为软件功能是否强大的判断标准,支持的语言种类越多,其应用范围就越广泛。上述两款非结构化文本分析软件中,KH Coder可以支持日语、英语、法语、德语、意大利语、葡萄牙语和西班牙语共7种语言;Wordstat可以支持英语、法语、西班牙语以及荷兰语共4种语言。由此可见,在所支持的语言种类方面,KH Coder占有明显优势,基本涵盖了较为通用的外文语种。值得注意的是,两款非结构化文本分析软件都无法支持中文文本。
3.5 客户端方式
客户端方式是指用户运行软件时是可以将软件下载到本地离线使用,还是需要登录到软件官网在线使用。相较而言,离线客户端方式无须网络,在本地就可以进行操作,更加方便易行,在线使用则相对繁琐不便。上述两款非结构化文本分析软件中,二者都支持离线独立客户端的操作方式。
3.6 用户指南
用户指南可以降低用户负担,使用户在最快的时间内迅速掌握软件的使用方法,是影响用户满意度以及用户是否选用软件的重要因素之一。上述两款非结构化文本分析软件都配有详细的使用说明手册,用户完全可以通过阅读手册自学软件的使用方法。在这一点上,二者相差不大。
4 内在特征比较研究
本部分主要从主要功能、工作流程、所支持的数据格式、可视化功能中的展现方式以及关系揭示5个维度来对上述两款非结构化文本分析软件进行比较分析。其中,工作流程主要是对两款非结构化文本分析软件预处理阶段的工作流程进行对比。这是因为,上述两款非结构化文本分析软件所具有的功能各不相同,用户根据不同需求选用不同的功能时,其整体的工作流程也会改变,是不具有可比性的。但是作为软件能够顺利完成分析的基础,预处理环节是二者的必经步骤。因此,本文主要选择预处理功能为主要对象进行工作流程方面的分析。
4.1 主要功能 软件的主要功能是评价软件优劣最重要的标准之一。通常情况下,非结构化文本分析软件的主要基本功能有:词频统计、词性分析、上下文关键词、检索功能、相似度计算、自动分类、概念发现、主题词生成、可视化以及预测功能等方面(见表2)。
比较可知,Wordstat支持除相似度计算功能之外的全部功能,而KH Coder支持除摘要生成功能之外的全部功能。因此,总体而言,在基本功能的覆盖方面,二者不相上下。并且虽然上述两款非结构化文本分析软件都无法支持全部的功能,但是却形成了互补的态势。因此用户完全可以不局限在一款软件中而将两款软件结合使用。此外,虽然上述两款非结构化文本分析软件都具有预测功能,但是二者的侧重点各有不同。Wordstat的预测功能主要是通过对文本中的单词、语法特征等进行分析,进而推断出文本所属作者的性别;而KH Coder的预测功能则主要是将文本中的单词分为积极、中性和消极三个维度,通过对单词性质的统计来预测文本的情感趋势。
4.2 工作流程
本部分主要是对上述两款非结构化文本分析软件的预处理过程进行比较分析(见表3)。通常情况下,基于词典的非结构化文本分析软件的预处理流程为:停用词处理、词形还原、拼写纠错、词句归类、自动增删词表以及文本内部表示。
在预处理的模式方面,Wordstat为用户提供了多种数据预处理的模式,用户完全可以根据自己的需要自定义数据预处理的类型。例如,用户可以选择Porter stemmer项去掉单词的前缀和后缀,也可以选择n-grams项将每个单词划分为若干个特征值。而KH Coder只支持单一的预处理模式,其预处理过程主要是对文本进行句子切分、切词处理、词性分析以及词形还原。用户无法根据自己的需求自定义预处理的模式。相较而言,Wordstat不仅提供的预处理功能更全面,用户根据需求选择特定的几个预处理模式也更加节省时间。可见,在预处理方面,与KH Coder相比,Wordstat占有绝对优势。
在停用词处理方面,两款软件都具有停用词处理功能。其中,KH Coder的停用词表来自Stanford POS Tagger。用户在启动KH Coder后,可以从KH Coder的下载包中将原本已有的Stanford POS Tagger拖拽到停用词表中;Wordstat的停用词表为自己编写,但是两款软件所用的停用词表相差不大,并且两款软件都支持用户对停用词表进行修改。可见,在停用词处理方面,两款软件的差距不大。
在词形还原方面,两款非结构化文本分析软件都可以对文本中的单词进行词形还原。但是KH Coder的词形还原处理仅限于去掉前后缀等较为浅显的词形还原,而不包括对单词的时态进行转换等功能。Wordstat的词形还原功能则较为强大,包含对单词时态的转换。可见,在词形还原方面,Wordstat的功能比KH Coder更为丰富。
在拼写纠错方面,KH Coder没有此功能,而Wordstat则可以对拼写错误的单词进行纠错。可见,在拼写纠错方面,Wordstat占有优势。
在词句归类方面,两款软件都会对文本进行归类处理,即将一些词义、语义相近的词或句子归类到同一个类别之下,以方便对文本的情感倾向进行预测。如,文本中出现的“好的”、“棒的”等词语都会被归类到“积极评价”这一个类目之下。可见,在词句归类方面,上述两款软件的差距不大。
在自动增删词表方面,Wordstat会根据文本中单词出现的频数自动增删词表中的单词。对词表中的单词频数进行统计后,Wordstat会将原本词表中不存在但是文本中出现频率高的词增添到词表中来,也会将原本此表中包含但是文本中出现频数低的词从词表中删除掉。同时,Wordstat还会删除那些频率过高,对分辨文本内容不具贡献的超高频词。最后,Wordstat将会对文本中对象之间的关系以可视化的方式呈现出来。而KH Coder则没有此项功能。可见,在自动增删词表方面,Wordstat更占有优势。
在文本内部表示方面,KH Coder会将预处理后的结果转化为内部表示的统一形式,并导入到后台的MySQL数据库中,以备之后的重复检索和分析。Wordstat则没有此项功能。可见,在文本内部表示方面,KH Coder占有优势。
4.3 数据格式
软件可以支持的数据格式的多少,是评价软件兼容性的一条重要标准。软件支持的数据格式越多,其使用范围就越广,通用性就越强。本文选择了几种最常见的数据格式用以检验上述两款非结构化文本分析软件所支持的数据格式的类型(结果见表4)。
比较发现,上述两种非结构化文本分析软件中,Wordstat可以支持TXT文件、Word文件、Excel文件以及数据库文件四种数据格式,在数据库文件中,Wordstat可以处理的数据库文件类型包括:Access文件、dBase文件以及 Paradox文件。KH Coder仅可以支持TXT文件一种数据类型,想要处理其他类型的文件,需将其转化为TXT文件才可进行。可见,在所支持的数据格式类型方面,Wordstat更占优势,其通用性与兼容性都要远远胜于KH Coder。但是值得注意的是,上述两款非结构化文本分析软件都不支持矢量表示的文件格式,如PDF文件等,也不支持网页文件、图片文件以及音视频文件。因此,总的来说,上述两款非结构化文本分析软件所支持的数据类型还十分有限。
4.4 展现方式
展现方式是对文本进行分析,以及对文本中的对象之间关系进行揭示的最终呈现,对于软件的可视化功能来讲,具有至关重要的作用。常见的可视化展现方式包括:柱状图、饼状图、折线图、网状图、散点图、气泡图、概念地图、热图、聚类分析树状图等(见表5)。
比较发现,Wordstat支持上述9种展现方式,并且对于散点图和概念地图来讲,还支持2D和3D两种方式。KH Coder仅支持柱状图、折线图、网状图、第三点图、气泡图以及聚类分析树状图6种。并且,KH Coder所支持的散点图仅限制在2D散点图类型而不支持3D模式。可见,在展现方式方面,Wordstat基本支持所有的展现方式,相比更具有优势。 4.5 关系揭示
关系揭示是指对文本分析对象之间的关系进行展示。对于非结构化文本来讲,常见的对象之间的关系主要就是指词间关系。通常情况下,常见的词间关系包括:CO-Occurrence、Chi-square、Likelihood ratio、Student's F、Tau-a、Tau-b、Tau-c、symmetric Somers' D、asymmetric Somers' Dxy、Dxy、Gamma、Pearson's R以及Spearman's Rho等(见表6)。
比较发现,在词间关系的揭示方面Wordstat占有绝对优势。不仅能够揭示关键词之间的共现关系,还支持其他多种类型的关键词之间的关系揭示。而KH Coder在词间关系方面仅支持关键词共现关系的揭示。但需要指出的是,KH Coder除了支持词间关系的揭示之外,还支持关键词与章节之间的关系。即KH Coder可以通过统计关键词在不同章节中出现的频次来帮助用户判断文本中哪些章节为核心章节。而Wordstat则不具有揭示关键词与章节之间关系的功能。因此在关键词与章节之间关系的揭示方面,KH Coder更占优势。
4.6 两款非结构化文本分析软件的应用对比分析
为进一步展示两款非结构化文本分析软件之间的异同与特点,本文选用同一文本对上述两款软件的基本功能进行了进一步的比较,比较的功能包括词频统计、上下文关键词、检索功能以及预测功能。在待分析文本的选择上,选择了二者都支持的TXT格式,文本内容为英文版小说《botchan》。笔者首先在预处理环节中对两款软件的停用词表进行了修改,保证待分析文本所使用停用词表的一致性。对比的结果显示:
在词频统计方面,上述两款软件的统计结果基本一致,但有部分单词的统计结果存在误差。例如,对文本中“red”一词进行频数统计,KH Coder的统计结果为201次,而Wordstat的统计结果为204次。这可能是由于Wordstat的预处理环节无法处理带有连词符号的单词,因而在遇到带有连词符号的单词时,软件默认其为两个单词,进而导致了某些单词在频数上的差异。并且,在呈现结果方面,KH Coder首先将单词按照词性进行了区分,进而统计单词在每一种词性下出现的频次。仍以“red”一词为例,KH Coder对其的统计结果显示,其以名词出现的频数为175次,以形容词出现的频数为26次;而Wordstat的词频统计结果并不支持特定词性下的频数统计,而是对单词按照频数高低、单词首字母等顺序进行排序(见图1)。
在上下文关键词方面,两款软件的统计结果有较大差异。这主要体现为,KH Coder的查找结果中会涵盖该单词及该单词其他所有形式,而Wordstat的返回结果中只包含该单词。例如,在对单词“room”进行查找时,KH Coder的返回结果中既有包含“room”的语句,也有包含“rooms”、“rooming”的语句,而Wordstat的返回结果中只有包含“room”的语句。在这一点上,两款软件是各有利弊的。对于想要一次性找全某一单词全部形式的用户来讲,KH Coder无疑是一个很好的选择,但是对于那些对所查找单词的时态、单复数形式要求较高的用户来讲,Wordstat则更能满足其需求(见图2)。
在检索功能方面,上述两款非结构化文本分析软件都能实现对特定单词的精确检索与定位,因而在检索方面两款软件差异不大。
在预测功能方面,Wordstat的预测功能主要是通过对文本中单词、语法特征等进行分析,推断出文本作者的性别。例如,选择对“love”一词进行分析,得出其作者是男性的概率为47.8%,是女性的概率为52.2%。而KH Coder的预测功能则利用提前设置好的词表(词表中的单词分为积极、中性和消极三个维度)与文本中的单词进行匹配,以此来预测文本的情感趋势(见图3,其中左图为KH Coder,右图为Wordstat)。
5 讨论与结论
5.1 KH Coder和Wordstat的总体评价
对于KH Coder,其为开源软件,打破用户选用软件时的经费障碍;更新速度快速,基本满足用户的需求;支持日文、英文、法文、德文、意大利文、葡萄牙文和西班牙文共7种语言,基本涵盖了较为通用的语种;功能强大,支持除相似度计算的全部功能;预处理环节中,可以将待处理文件转化为内部表示文本以备重复调用,节省时间和精力。但是,KH Coder的预处理部分仅包含停用词处理等几项步骤,并且不支持自定义预处理,模式较为单一;仅支持TXT一种数据格式,其他的常见数据格式,如Word、Excel等都不予支持,使用范围较窄;仅支持树状图、散点图等较为基础的几种可视化展现方式,其他的图形(如热图等)都不予支持,并且散点图中仅支持2D模式的散点图。可视化展现方式较为单一;仅支持关系揭示中的共现关系一种,对其他常见的词间关系不予揭示,关系揭示的类型较为单一。因此,该软件可考虑增加可处理文本的类型,并且丰富其可视化结果的展现方式,如增加概念地图、热图等展现方式。
对于Wordstat,其功能强大,支持除生成摘要外的全部功能,支持自定义的预处理功能,对文本的处理更为细腻;支持的数据格式更为全面,展现方式更为多样,关系的揭示更为全面。然而,Wordstat为非开源软件,费用方面处于弱势;尽管支持的运行系统十分全面,但是需要在QDAMiner或者Simstat的基础上才能运行,前期准备工作较为复杂;仅支持英文、法文、西班牙文和荷兰文四种语言,对其他科研实力较高国家的语种则不予支持,如中文、日文等;不支持图片、音视频等格式的文本的分析,所支持的数据格式有限,预处理环节中,不能将文本标准化后转变为内部表示的文本,以备反复调用。因而,在未来的发展中,该软件可考虑增加可处理语言的种类及文本类型,同时增加文本内部表示及重复调用的功能。 5.2 非结构化文本分析软件的未来发展
随着数字化信息资源数量和种类的不断增加,针对博客、微博、微信、系统日志等海量非结构化文本,如何快速、准确地对其进行挖掘,以提炼出人们所需要的简洁、精炼、可理解的知识,是大数据时代文本分析的重要议题。由于非结构化文本多涉及人类自然语言,含有语气、语调、修辞等更为复杂的信息,只靠固定维度的常规分析难以挖掘非结构化文本中隐含的知识点。因此,随着大数据理念及其相关分析技术的发展,非结构化文本分析软件的功能改进,将聚集于智能化、处理复杂文本、情感分析、简化管理等方面。
(1)支持智能化理解。即非结构化文本分析软件能够借助主题分析算法确定非结构化文本的主要内容,以作进一步的分类与结构化。目前,已有非结构化文本分析软件能够生成文档的术语矩阵,即提取非结构化文本中的核心词进行聚类分析,并进一步通过文档主题的生成模式,对具有相似主题的非结构化文本进行分类与分组。
(2)支持复杂文本处理。即非结构化文本分析软件能够对内容庞杂、议题分散等多学科、多来源、多格式的数据进行集成处理。通过嵌入命名实体识别算法,以确定非结构化文本中哪些部分包含人名、地名、机构名、产品名、单位名称、日期、事件等实体,依托底层的本体模型,进行语义分析与挖掘。目前,国内已有科研机构启动了大规模的本体建设[11]。其成果将为非结构化文本分析软件对复杂文本的智能处理提供有力支撑。
(3)支持情感分析。即非结构化文本分析软件能够对非结构化文本中的词语、句子、段落中观点进行挖掘。非结构化文本的情感挖掘将提供至少两种维度的挖掘。一类是主观性分析,包括主观、客观和中性;另一类是情感倾向分析,包括褒义、贬义和中性。
(4)支持简化管理。即非结构化文本分析软件能够对不同应用场景、不同操作者,提供不同的操作模式。这种操作模式涵盖界面设计、参数设置和结果展示等。同时,能够支持不同操作者对动态变化的非结构化文本进行审计跟踪、定期检验和检测报告的自动生成。
在大数据时代,以KH Coder和Wordstat为代表的一系列非结构化文本分析软件,将进一步结合非结构化文本的特性,在功能上进一步完善。
参考文献:
[1] 百度百科.非结构化文本[EB/OL].[2014-07-14].http://baike.baidu.com/link?url=Ekjk1bbPZm89_MiuNqT3ZTaT_Hpjemxl_EZ149BX_OkXOo4cmanZnFLhO3rjLqzOBcF_oBS35oHJBXGdiWZ1_a.
[2] 黄娟. 基于文本挖掘技术的蛋白质相互作用预测方法研究[D].长沙:中南大学,2009.
[3] 曾道建,来斯惟,张元哲,刘康,赵军. 面向非结构化文本的开放式实体属性抽取[J]. 江西师范大学学报(自然科学版),2013(3):279-283.
[4] Luhn H P. The Automatic Creation of Literature Abstracts[J].IBM Journal of Research and Development, 1958,2(2):159-165.
[5] Maron M E, Kuhns J L. On Relevance, Probabilistic Indexing and Information Retrieval[J]. Journal of the Acm, 1960, 7(3):216-244.
[6] Ghanem M, Chortaras A, Guo Y, et al.A grid infrastructure for mixed bioinformatics data and text mining[C].The 3rd ACS/IEEEInternational Conference,IEEE, 2005: 41.
[7] 李凡,鲁明羽,陆玉昌. 关于文本特征抽取新方法的研究[J]. 清华大学学报(自然科学版),2001(7):98-101.
[8] 万小军,杨建武,陈晓鸥. 文档聚类中k-means算法的一种改进算法[J]. 计算机工程,2003(2):102-103.
[9] 黄晓斌,赵超. 文本挖掘在网络舆情信息分析中的应用[J]. 情报科学,2009(1):94-99.
[10] Lowe W. Software for content analysis-A Review[M]. Cambridge: Weatherhead Center for International Affairs and the Harvard IdentityProject, 2002.
[11] 孙坦,刘峥. 面向外文科技文献信息的知识组织体系建设思路[J]. 图书与情报,2013(1):2-7.
关键词:非结构文本;可视化;软件;比较研究
中图分类号: G254.9 文献标识码: A DOI: 10.11968/tsyqb.1003-6938.2015092
Abstract The article defined the unstructured text analysis software, and divided them into three main types: dictionary-based unstructured text analysis software, development environments unstructured text analysis software, and annotation aids unstructured text analysis software. Then, the authors chose two unstructured text analysis software, KH Coder and Wordstat, compared them from two perspectives: inside and outside characteristics. Among them, outside characteristics included cost, update rate, operating environment, languages, the way of client and user guide. Inside characteristics included key feature, workflow, data format, modes of representation and relationship reveal. After that, the article respectively pointed out strengths and weaknesses of the two unstructured text analysis software,the trend of unstructured text analysis software, in order to help users select the best software in accordance with their own research needs.
Key words unstructured text analysis; visualization; software; comparative research
1 引言
非结构化文本是指以文本(字符、数字、标点、各种可打印的符号等)为数据形式的非结构化数据[1]。非结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等等,也可能包含大量非结构化文本成分,如摘要和内容[2]。当前互联网上也存在大量的非结构化电子文本,如新闻、博客、电子邮件、政府文件、聊天记录等[3]。人们应该如何正确理解这些数据?目前普遍的方式是通过人工注释语义信息实现对非结构化文本进行分析。但是数据量的过于巨大使得这项任务不可能完全凭借人工方式来完成,迫切的需要借助于计算机的帮助来完成对大量非结构化文本进行信息抽取和分析。在此情况下,非结构化文本分析软件就应运而生了。非结构化文本,主要是指类似于字符、标点、各种可打印的符号等数据。比如,一篇文档既可能包含结构字段,如标题、作者、出版日期、长度、分类等,也可能包含大量非结构化文本成分,如摘要和正文内容。而所谓非结构化文本分析软件,是指能够对非结构化文本进行自动化分析,进而将文本中词频、词性、词间关系等特征以结构化数据或者可视化方式呈现给用户的计算机软件。
早在20世纪50年代末,H.P.Luhn[4]就已经在非结构化文本分析领域进行了开创性的研究,提出了将词频统计思想用于文本的自动分类。之后,这一领域逐渐得到学者们的重视,出现了许多新的研究成果。如Maron M E[5]等人围绕如何对非结构化文本进行自动分类开展了研究与探讨;Ghanem M[6]等人在经过深入研究后,提出了适用于非结构化文本的分析模型。除此之外,我国也有许多学者对这一问题加以关注,研究重点主要集中在文本特征抽取与文本中间表示、关联规则抽取、语义关系挖掘、文本聚类与主题分析以及趋势分析等领域。例如,李凡[7]等人曾于2001年对文本特征的抽取进行研究,提出了一种新的文本特征抽取方法;万小军[8]等人于2003年撰文试图对文档聚类方法k-means算法加以改进;而黄晓斌教授[9]等学者则试图对互联网文本内容进行分析挖掘以达到对舆情信息的分析与预测。与此同时,由于对非结构化文本分析的需求日益加大,许多支持非结构化文本分析、功能日益完善的软件也相继出现,数量多达数十个。因此,美国哈佛大学学者Lowe W[10]于2002年撰文对前述非结构化文本分析软件进行了详细的分类与介绍,以期为用户选用非结构化文本分析软件提供借鉴与帮助。然而,尽管有越来越多的学者将目光聚焦于非结构化文本分析这一问题,也产生了丰硕的研究成果,但是应该明确的是,现有研究大都从实现技术层面着手试图对非结构化文本分析技术加以改进,而从用户角度出发,将关注点集中在应用层面的文章却少之又少。鉴于此,本文试图以两款较为常用的非结构化文本分析软件——KH Coder和Wordstat为例,从内外特征共11个方面对其数据格式、工作流程、主要功能等进行比较分析,以期为用户选用并研究非结构化文本分析软件提供参考。 2 非结构化文本分析软件的主要类型
根据笔者对各类非结构化文本分析软件的调研,并且结合前人的研究成果[10],可初步将非结构化文本分析软件按照主要功能划分为如下三个类型:基于词典的非结构化文本分析软件、包含开发环境的非结构化文本分析软件以及包含注释的非结构化文本分析软件。
2.1 基于词典的非结构化文本分析软件
基于词典的非结构化文本分析软件以词典或词表为基础,通过将文本中的单词与词典或词表进行匹配来完成对文本的分析。其最终结果通常是对词频等特征的统计数据,如CATPAC、Concordance等。
2.2. 包含开发环境的非结构化文本分析软件
包含开发环境的非结构化文本分析软件在对文本进行分析时,能够自动生成对应的词典或词表。其最终结果也是各类统计数据,但是与基于词典的非结构化文本分析软件相比,由于使用的词典更具针对性,因此统计出的最终结果也更为精准,如Profiler Plus、DIMAP等。
2.3 包含注释的非结构化文本分析软件
包含注释的非结构化文本分析软件是三种非结构化文本分析软件中自动化程度最高的一种,其最终结果将以旁注、交叉参考以及笔记的形式呈现,其形式好比一个研究人员对某篇论文做的读书笔记一样,如Atlas-ti、NUDIST等。
本文选择了两款第一种类型(基于词典的非结构化文本分析软件)非结构化文本分析软件(KH Coder、Wordstat)进行比较分析。之所以选择第一种类型的非结构化文本分析软件是由于:相对来讲,第一种类型的非结构化文本分析软件的使用更为普遍;之所以选择KH Coder和Wordstat来作为比较分析的具体对象,一是由于上述两款软件较为普及,二是由于上述两款软件均为开源软件(Wordstat虽然非开源,但是有免费试用期)。
3 外在特征比较研究
本部分主要对上述两款非结构化文本分析软件的外部特征,即两款非结构化文本分析软件的基本概况进行比较,具体包括:软件的费用、软件的更新速度、软件所支持的运行环境、软件支持的语言种类、软件运行的客户端方式以及软件是否配备有用户指南等方面(见表1)。
3.1 软件费用
费用问题将很大程度上影响用户对软件的选用。上述两款非结构化文本分析软件中,KH Coder是完全免费的,用户可以通过其官网自行下载。Wordstat则是非开源的,但是有30天的试用期,在30天内用户可以免费试用,超出试用期后,需要额外购买才能使用。可见,在软件费用方面,KH Coder相对占有优势,但是由于Wordstat允许用户有30天的试用期限,也能够一定程度上满足用户需求。
3.2 更新速度
软件更新越快就意味着软件自身的功能越完善,因此,软件的更新速度直接影响到用户对软件使用的满意程度。总的来说,上述两款非结构化文本分析软件都保持了良好的版本更新状况。其中KHCoder的版本更新相对较快,最近一次更新是在2014年的4月17日。由此可见,上述两款非结构化文本分析软件中,KH Coder在更新速度上相对占有优势。
3.3 运行环境
软件所支持的运行环境越多样,就意味着软件的通用性越强,用户使用时就可以不受物理条件的限制。上述两款非结构化文本分析软件中,KH Coder只能在Windows或MAC OS X系列的环境下运行。Wordstat可以在全部的系统环境下运行,但是由于Wordstat只是一个功能模块,因此必须在QDAMiner或者Simstat的基础上才能运行。可见,虽然KH Coder支持的环境范围较为狭小,但是不需要安装额外的软件,而Wordstat虽然可以支持全部的环境,但是需要额外安装QDAMiner或者Simstat,二者各有利弊。
3.4 语言种类
非结构化文本分析软件支持语言种类的多少可以从一定程度上作为软件功能是否强大的判断标准,支持的语言种类越多,其应用范围就越广泛。上述两款非结构化文本分析软件中,KH Coder可以支持日语、英语、法语、德语、意大利语、葡萄牙语和西班牙语共7种语言;Wordstat可以支持英语、法语、西班牙语以及荷兰语共4种语言。由此可见,在所支持的语言种类方面,KH Coder占有明显优势,基本涵盖了较为通用的外文语种。值得注意的是,两款非结构化文本分析软件都无法支持中文文本。
3.5 客户端方式
客户端方式是指用户运行软件时是可以将软件下载到本地离线使用,还是需要登录到软件官网在线使用。相较而言,离线客户端方式无须网络,在本地就可以进行操作,更加方便易行,在线使用则相对繁琐不便。上述两款非结构化文本分析软件中,二者都支持离线独立客户端的操作方式。
3.6 用户指南
用户指南可以降低用户负担,使用户在最快的时间内迅速掌握软件的使用方法,是影响用户满意度以及用户是否选用软件的重要因素之一。上述两款非结构化文本分析软件都配有详细的使用说明手册,用户完全可以通过阅读手册自学软件的使用方法。在这一点上,二者相差不大。
4 内在特征比较研究
本部分主要从主要功能、工作流程、所支持的数据格式、可视化功能中的展现方式以及关系揭示5个维度来对上述两款非结构化文本分析软件进行比较分析。其中,工作流程主要是对两款非结构化文本分析软件预处理阶段的工作流程进行对比。这是因为,上述两款非结构化文本分析软件所具有的功能各不相同,用户根据不同需求选用不同的功能时,其整体的工作流程也会改变,是不具有可比性的。但是作为软件能够顺利完成分析的基础,预处理环节是二者的必经步骤。因此,本文主要选择预处理功能为主要对象进行工作流程方面的分析。
4.1 主要功能 软件的主要功能是评价软件优劣最重要的标准之一。通常情况下,非结构化文本分析软件的主要基本功能有:词频统计、词性分析、上下文关键词、检索功能、相似度计算、自动分类、概念发现、主题词生成、可视化以及预测功能等方面(见表2)。
比较可知,Wordstat支持除相似度计算功能之外的全部功能,而KH Coder支持除摘要生成功能之外的全部功能。因此,总体而言,在基本功能的覆盖方面,二者不相上下。并且虽然上述两款非结构化文本分析软件都无法支持全部的功能,但是却形成了互补的态势。因此用户完全可以不局限在一款软件中而将两款软件结合使用。此外,虽然上述两款非结构化文本分析软件都具有预测功能,但是二者的侧重点各有不同。Wordstat的预测功能主要是通过对文本中的单词、语法特征等进行分析,进而推断出文本所属作者的性别;而KH Coder的预测功能则主要是将文本中的单词分为积极、中性和消极三个维度,通过对单词性质的统计来预测文本的情感趋势。
4.2 工作流程
本部分主要是对上述两款非结构化文本分析软件的预处理过程进行比较分析(见表3)。通常情况下,基于词典的非结构化文本分析软件的预处理流程为:停用词处理、词形还原、拼写纠错、词句归类、自动增删词表以及文本内部表示。
在预处理的模式方面,Wordstat为用户提供了多种数据预处理的模式,用户完全可以根据自己的需要自定义数据预处理的类型。例如,用户可以选择Porter stemmer项去掉单词的前缀和后缀,也可以选择n-grams项将每个单词划分为若干个特征值。而KH Coder只支持单一的预处理模式,其预处理过程主要是对文本进行句子切分、切词处理、词性分析以及词形还原。用户无法根据自己的需求自定义预处理的模式。相较而言,Wordstat不仅提供的预处理功能更全面,用户根据需求选择特定的几个预处理模式也更加节省时间。可见,在预处理方面,与KH Coder相比,Wordstat占有绝对优势。
在停用词处理方面,两款软件都具有停用词处理功能。其中,KH Coder的停用词表来自Stanford POS Tagger。用户在启动KH Coder后,可以从KH Coder的下载包中将原本已有的Stanford POS Tagger拖拽到停用词表中;Wordstat的停用词表为自己编写,但是两款软件所用的停用词表相差不大,并且两款软件都支持用户对停用词表进行修改。可见,在停用词处理方面,两款软件的差距不大。
在词形还原方面,两款非结构化文本分析软件都可以对文本中的单词进行词形还原。但是KH Coder的词形还原处理仅限于去掉前后缀等较为浅显的词形还原,而不包括对单词的时态进行转换等功能。Wordstat的词形还原功能则较为强大,包含对单词时态的转换。可见,在词形还原方面,Wordstat的功能比KH Coder更为丰富。
在拼写纠错方面,KH Coder没有此功能,而Wordstat则可以对拼写错误的单词进行纠错。可见,在拼写纠错方面,Wordstat占有优势。
在词句归类方面,两款软件都会对文本进行归类处理,即将一些词义、语义相近的词或句子归类到同一个类别之下,以方便对文本的情感倾向进行预测。如,文本中出现的“好的”、“棒的”等词语都会被归类到“积极评价”这一个类目之下。可见,在词句归类方面,上述两款软件的差距不大。
在自动增删词表方面,Wordstat会根据文本中单词出现的频数自动增删词表中的单词。对词表中的单词频数进行统计后,Wordstat会将原本词表中不存在但是文本中出现频率高的词增添到词表中来,也会将原本此表中包含但是文本中出现频数低的词从词表中删除掉。同时,Wordstat还会删除那些频率过高,对分辨文本内容不具贡献的超高频词。最后,Wordstat将会对文本中对象之间的关系以可视化的方式呈现出来。而KH Coder则没有此项功能。可见,在自动增删词表方面,Wordstat更占有优势。
在文本内部表示方面,KH Coder会将预处理后的结果转化为内部表示的统一形式,并导入到后台的MySQL数据库中,以备之后的重复检索和分析。Wordstat则没有此项功能。可见,在文本内部表示方面,KH Coder占有优势。
4.3 数据格式
软件可以支持的数据格式的多少,是评价软件兼容性的一条重要标准。软件支持的数据格式越多,其使用范围就越广,通用性就越强。本文选择了几种最常见的数据格式用以检验上述两款非结构化文本分析软件所支持的数据格式的类型(结果见表4)。
比较发现,上述两种非结构化文本分析软件中,Wordstat可以支持TXT文件、Word文件、Excel文件以及数据库文件四种数据格式,在数据库文件中,Wordstat可以处理的数据库文件类型包括:Access文件、dBase文件以及 Paradox文件。KH Coder仅可以支持TXT文件一种数据类型,想要处理其他类型的文件,需将其转化为TXT文件才可进行。可见,在所支持的数据格式类型方面,Wordstat更占优势,其通用性与兼容性都要远远胜于KH Coder。但是值得注意的是,上述两款非结构化文本分析软件都不支持矢量表示的文件格式,如PDF文件等,也不支持网页文件、图片文件以及音视频文件。因此,总的来说,上述两款非结构化文本分析软件所支持的数据类型还十分有限。
4.4 展现方式
展现方式是对文本进行分析,以及对文本中的对象之间关系进行揭示的最终呈现,对于软件的可视化功能来讲,具有至关重要的作用。常见的可视化展现方式包括:柱状图、饼状图、折线图、网状图、散点图、气泡图、概念地图、热图、聚类分析树状图等(见表5)。
比较发现,Wordstat支持上述9种展现方式,并且对于散点图和概念地图来讲,还支持2D和3D两种方式。KH Coder仅支持柱状图、折线图、网状图、第三点图、气泡图以及聚类分析树状图6种。并且,KH Coder所支持的散点图仅限制在2D散点图类型而不支持3D模式。可见,在展现方式方面,Wordstat基本支持所有的展现方式,相比更具有优势。 4.5 关系揭示
关系揭示是指对文本分析对象之间的关系进行展示。对于非结构化文本来讲,常见的对象之间的关系主要就是指词间关系。通常情况下,常见的词间关系包括:CO-Occurrence、Chi-square、Likelihood ratio、Student's F、Tau-a、Tau-b、Tau-c、symmetric Somers' D、asymmetric Somers' Dxy、Dxy、Gamma、Pearson's R以及Spearman's Rho等(见表6)。
比较发现,在词间关系的揭示方面Wordstat占有绝对优势。不仅能够揭示关键词之间的共现关系,还支持其他多种类型的关键词之间的关系揭示。而KH Coder在词间关系方面仅支持关键词共现关系的揭示。但需要指出的是,KH Coder除了支持词间关系的揭示之外,还支持关键词与章节之间的关系。即KH Coder可以通过统计关键词在不同章节中出现的频次来帮助用户判断文本中哪些章节为核心章节。而Wordstat则不具有揭示关键词与章节之间关系的功能。因此在关键词与章节之间关系的揭示方面,KH Coder更占优势。
4.6 两款非结构化文本分析软件的应用对比分析
为进一步展示两款非结构化文本分析软件之间的异同与特点,本文选用同一文本对上述两款软件的基本功能进行了进一步的比较,比较的功能包括词频统计、上下文关键词、检索功能以及预测功能。在待分析文本的选择上,选择了二者都支持的TXT格式,文本内容为英文版小说《botchan》。笔者首先在预处理环节中对两款软件的停用词表进行了修改,保证待分析文本所使用停用词表的一致性。对比的结果显示:
在词频统计方面,上述两款软件的统计结果基本一致,但有部分单词的统计结果存在误差。例如,对文本中“red”一词进行频数统计,KH Coder的统计结果为201次,而Wordstat的统计结果为204次。这可能是由于Wordstat的预处理环节无法处理带有连词符号的单词,因而在遇到带有连词符号的单词时,软件默认其为两个单词,进而导致了某些单词在频数上的差异。并且,在呈现结果方面,KH Coder首先将单词按照词性进行了区分,进而统计单词在每一种词性下出现的频次。仍以“red”一词为例,KH Coder对其的统计结果显示,其以名词出现的频数为175次,以形容词出现的频数为26次;而Wordstat的词频统计结果并不支持特定词性下的频数统计,而是对单词按照频数高低、单词首字母等顺序进行排序(见图1)。
在上下文关键词方面,两款软件的统计结果有较大差异。这主要体现为,KH Coder的查找结果中会涵盖该单词及该单词其他所有形式,而Wordstat的返回结果中只包含该单词。例如,在对单词“room”进行查找时,KH Coder的返回结果中既有包含“room”的语句,也有包含“rooms”、“rooming”的语句,而Wordstat的返回结果中只有包含“room”的语句。在这一点上,两款软件是各有利弊的。对于想要一次性找全某一单词全部形式的用户来讲,KH Coder无疑是一个很好的选择,但是对于那些对所查找单词的时态、单复数形式要求较高的用户来讲,Wordstat则更能满足其需求(见图2)。
在检索功能方面,上述两款非结构化文本分析软件都能实现对特定单词的精确检索与定位,因而在检索方面两款软件差异不大。
在预测功能方面,Wordstat的预测功能主要是通过对文本中单词、语法特征等进行分析,推断出文本作者的性别。例如,选择对“love”一词进行分析,得出其作者是男性的概率为47.8%,是女性的概率为52.2%。而KH Coder的预测功能则利用提前设置好的词表(词表中的单词分为积极、中性和消极三个维度)与文本中的单词进行匹配,以此来预测文本的情感趋势(见图3,其中左图为KH Coder,右图为Wordstat)。
5 讨论与结论
5.1 KH Coder和Wordstat的总体评价
对于KH Coder,其为开源软件,打破用户选用软件时的经费障碍;更新速度快速,基本满足用户的需求;支持日文、英文、法文、德文、意大利文、葡萄牙文和西班牙文共7种语言,基本涵盖了较为通用的语种;功能强大,支持除相似度计算的全部功能;预处理环节中,可以将待处理文件转化为内部表示文本以备重复调用,节省时间和精力。但是,KH Coder的预处理部分仅包含停用词处理等几项步骤,并且不支持自定义预处理,模式较为单一;仅支持TXT一种数据格式,其他的常见数据格式,如Word、Excel等都不予支持,使用范围较窄;仅支持树状图、散点图等较为基础的几种可视化展现方式,其他的图形(如热图等)都不予支持,并且散点图中仅支持2D模式的散点图。可视化展现方式较为单一;仅支持关系揭示中的共现关系一种,对其他常见的词间关系不予揭示,关系揭示的类型较为单一。因此,该软件可考虑增加可处理文本的类型,并且丰富其可视化结果的展现方式,如增加概念地图、热图等展现方式。
对于Wordstat,其功能强大,支持除生成摘要外的全部功能,支持自定义的预处理功能,对文本的处理更为细腻;支持的数据格式更为全面,展现方式更为多样,关系的揭示更为全面。然而,Wordstat为非开源软件,费用方面处于弱势;尽管支持的运行系统十分全面,但是需要在QDAMiner或者Simstat的基础上才能运行,前期准备工作较为复杂;仅支持英文、法文、西班牙文和荷兰文四种语言,对其他科研实力较高国家的语种则不予支持,如中文、日文等;不支持图片、音视频等格式的文本的分析,所支持的数据格式有限,预处理环节中,不能将文本标准化后转变为内部表示的文本,以备反复调用。因而,在未来的发展中,该软件可考虑增加可处理语言的种类及文本类型,同时增加文本内部表示及重复调用的功能。 5.2 非结构化文本分析软件的未来发展
随着数字化信息资源数量和种类的不断增加,针对博客、微博、微信、系统日志等海量非结构化文本,如何快速、准确地对其进行挖掘,以提炼出人们所需要的简洁、精炼、可理解的知识,是大数据时代文本分析的重要议题。由于非结构化文本多涉及人类自然语言,含有语气、语调、修辞等更为复杂的信息,只靠固定维度的常规分析难以挖掘非结构化文本中隐含的知识点。因此,随着大数据理念及其相关分析技术的发展,非结构化文本分析软件的功能改进,将聚集于智能化、处理复杂文本、情感分析、简化管理等方面。
(1)支持智能化理解。即非结构化文本分析软件能够借助主题分析算法确定非结构化文本的主要内容,以作进一步的分类与结构化。目前,已有非结构化文本分析软件能够生成文档的术语矩阵,即提取非结构化文本中的核心词进行聚类分析,并进一步通过文档主题的生成模式,对具有相似主题的非结构化文本进行分类与分组。
(2)支持复杂文本处理。即非结构化文本分析软件能够对内容庞杂、议题分散等多学科、多来源、多格式的数据进行集成处理。通过嵌入命名实体识别算法,以确定非结构化文本中哪些部分包含人名、地名、机构名、产品名、单位名称、日期、事件等实体,依托底层的本体模型,进行语义分析与挖掘。目前,国内已有科研机构启动了大规模的本体建设[11]。其成果将为非结构化文本分析软件对复杂文本的智能处理提供有力支撑。
(3)支持情感分析。即非结构化文本分析软件能够对非结构化文本中的词语、句子、段落中观点进行挖掘。非结构化文本的情感挖掘将提供至少两种维度的挖掘。一类是主观性分析,包括主观、客观和中性;另一类是情感倾向分析,包括褒义、贬义和中性。
(4)支持简化管理。即非结构化文本分析软件能够对不同应用场景、不同操作者,提供不同的操作模式。这种操作模式涵盖界面设计、参数设置和结果展示等。同时,能够支持不同操作者对动态变化的非结构化文本进行审计跟踪、定期检验和检测报告的自动生成。
在大数据时代,以KH Coder和Wordstat为代表的一系列非结构化文本分析软件,将进一步结合非结构化文本的特性,在功能上进一步完善。
参考文献:
[1] 百度百科.非结构化文本[EB/OL].[2014-07-14].http://baike.baidu.com/link?url=Ekjk1bbPZm89_MiuNqT3ZTaT_Hpjemxl_EZ149BX_OkXOo4cmanZnFLhO3rjLqzOBcF_oBS35oHJBXGdiWZ1_a.
[2] 黄娟. 基于文本挖掘技术的蛋白质相互作用预测方法研究[D].长沙:中南大学,2009.
[3] 曾道建,来斯惟,张元哲,刘康,赵军. 面向非结构化文本的开放式实体属性抽取[J]. 江西师范大学学报(自然科学版),2013(3):279-283.
[4] Luhn H P. The Automatic Creation of Literature Abstracts[J].IBM Journal of Research and Development, 1958,2(2):159-165.
[5] Maron M E, Kuhns J L. On Relevance, Probabilistic Indexing and Information Retrieval[J]. Journal of the Acm, 1960, 7(3):216-244.
[6] Ghanem M, Chortaras A, Guo Y, et al.A grid infrastructure for mixed bioinformatics data and text mining[C].The 3rd ACS/IEEEInternational Conference,IEEE, 2005: 41.
[7] 李凡,鲁明羽,陆玉昌. 关于文本特征抽取新方法的研究[J]. 清华大学学报(自然科学版),2001(7):98-101.
[8] 万小军,杨建武,陈晓鸥. 文档聚类中k-means算法的一种改进算法[J]. 计算机工程,2003(2):102-103.
[9] 黄晓斌,赵超. 文本挖掘在网络舆情信息分析中的应用[J]. 情报科学,2009(1):94-99.
[10] Lowe W. Software for content analysis-A Review[M]. Cambridge: Weatherhead Center for International Affairs and the Harvard IdentityProject, 2002.
[11] 孙坦,刘峥. 面向外文科技文献信息的知识组织体系建设思路[J]. 图书与情报,2013(1):2-7.