论文部分内容阅读
摘 要:在总结国内外Hashtag推荐方法和短文本表示方法的基础上,文章利用基于K最近邻(KNN)的Hashtag推荐方法,将微博文本表示为向量然后计算相似度,从语料中选出与目标微博最相似的微博文本,然后抽取候选Hashtag。文章比较了向量空间模型(VSM)、潜在语义分析模型(LSA)、隐含狄利克雷分布模型(LDA)、深度学习(DL)等四种文本表示方法对基于KNN的Hashtag推荐效果的影响。以Twitter上H7N9微博为测试数据,实验结果表明深度学习的文本表示方法在基于KNN的Hashtag推荐中取得最好的效果。
关键词:Hashtag推荐;K最近邻;文本表示;深度学习
中图分类号: G252 文献标识码: A DOI: 10.11968/tsygb.1003-6938.2015057
Abstract According to the summary of various Hashtag recommendation technologies and short text representation methods, this paper uses a Hashtag recommendation method based on K-Nearest Neighbor. Firstly, we represent the texts of microblog into vectors, calculate similarities between user’s text and training text. Then we extract the most similar blogs from the corpora. The results of four text representation methods named Vector space model, Latent semantic analysis, Latent Dirichlet allocation, Deep Learning for Hashtag recommendation are compared with each other. We use H7N9 Corpus on Twitter as our test dataset. Experimental results show that deep learning text representation method has achieved the best performance among all the methods.
Key words Hashtag Recommendation; K-Nearest Neighbor; Text Representation; Deep Learning
1 引言
当前,各种主流微博平台都提供Hashtag标注功能,如关于马航坠机事件的Hashtag在Twitter中为“#MH370”,在新浪微博中为“#MH370#”,虽然不同微博平台中Hashtag的具体标记形式可能不同,但功能基本相同,都具有主题标注和话题参与的功能[1-3]。主题标注功能指Hashtag能够表达一条微博中的主题信息;话题参与功能指用户使用Hashtag参与同一个话题的讨论。在微博平台中,上述功能使Hashtag在信息组织和信息检索方面具有优势,因此越来越多的学者开始深入研究Hashtag[4-6]。但在实际的微博数据中Hashtag的标注数量较少,这大大降低了Hashtag的信息检索和信息组织的效率。Potts主要有两种因素降低了Hashtag的标注数量和标注质量:(1)大部分用户不对自己的微博标注Hashtag;(2)有些用户随意的标注Hashtag,出现许多难以理解的和使用的Hashtag,导致信息传播效率降低[7]。因此,为了提高Hashtag的标注数量和质量,学者们提出了多种不同的Hashtag推荐方法,为用户自动推荐合适的Hashtag。
当前,Hashtag推荐方法主要有基于频次和相似度的方法、基于机器学习的方法和基于主题模型的方法等。K最近邻作为一种经典的文本分类方法,无需标注语料,并且无需花费大量时间训练模型。因此,本文尝试将K最近邻方法用于微博的Hashtag推荐。由于传统的权重计算方法和文本表示方法不适合短文本的处理[8]。为此,本文对比了向量空间模型(Vector Space Model)、潜在语义分析(Latent Semantic Analysis)、隐含狄利克雷分布模型(Latent Dirichlet Allocation)和基于深度学习(Deep Learning)的文本表示等四种方法,以选择适合于基于KNN的Hashtag推荐任务的文本表示方法。
2 Hashtag推荐相关研究概述
Hashtag推荐主要依据文本内容与用户信息,目的是从微博文本中抽取关键词或者直接提取已有的Hashtag推荐给用户,用以提高Hashtag的标注数量和质量。在Hashtag推荐中,对微博短文本预处理和表示的效果直接影响到最后结果的好坏,因此需要对微博文本进行预处理,并深入挖掘文本,以表示出词汇之间的语义信息。
2.1 Hashtag推荐方法
Hashtag推荐技术包括基于频次或相似度排序方法、分类算法、主题模型、协同过滤、神经网络等方法。其中按频次或相似度排序的方法是指对最终的候选Hashtag按其频次排序,或者按照Hashtag之间相似度或Tweets之间的相似度对Hashtag进行排序。所利用的信息可分为三种:Tweets的内容特征;用户的偏好特征;Hashtag的频次和时间特征。其中用户的偏好特征指用户的关注关系,兴趣等特征。
Mazzia和Shin等将Hashtag推荐问题转化为分类问题,利用朴素贝叶斯[9]、支持向量机[10]等方法选择合适的Hashtag。基于主题模型的方法主要依据文本的主题信息推荐Hashtag[11-12],Zhang和Ding提出主题翻译模型,取得了很好效果[13-14]。与以上方法相比,K最近邻方法较为简单,模型中考虑的信息较少,无需标注语料、训练模型等步骤,并且能够取得令人满意的效果。2009年,张庆国等利用VSM进行文本表示,依据K最近邻方法抽取关学术论文的关键词,其实验表明该方法有效的提高了准确率和召回率[15]。与该工作不同的是,本文以微博短文本作为研究对象,考察四种不同文本表示方法在基于KNN的Hashtag推荐中的实际效果,以期找到适合微博短文本的文本表示方法,从而提高基于KNN的Hashtag推荐效果。 2.2 微博文本表示方法
向量空间模型将文本映射到一个特征空间中,用向量的方式表示文本,以方便计算。常配合TF*IDF等权重计算方法计算每个词汇的权重。在Hashtag推荐中,多数学者使用向量空间模型对短文本进行表示[16-17],并且针对短文本的特点提出了多种权重计算方法。在传统的权重计算方法中,Zangerle等的实验显示使用TF*IDF的方法取得了最好的Hashtag推荐结果[18]。
但Li等认为传统的方法不适合短文本的表示[8],因此学者们针对Hashtag推荐具体问题,借鉴TF*IDF的思想提出了新的方法,如Xiao等提出的Term Frequency-Inverted Hashtag Frequency(TF-IHF)和Probabilistic Inside-Outside Log(P-IOLogH)方法[16],Otsuka等提出的 HF-IHU方法[19]。
向量空间模型的缺点是当词汇数量增多,维度也会相应增加,导致计算速度缓慢、特征稀疏等问题,该模型也无法表示出词汇之间的语义关系。潜在语义分析和隐含狄利克雷分布模型都能表示词汇的语义信息,因此出现大量使用潜在语义分析和LDA对微博短文本进行处理的研究。如Yan等使用潜在语义分析[20]发现微博中的主题,Liang等将LDA应用在Twitter中用于用户的推荐[21]。随着近些年深度学习技术的兴起,在Hashtag推荐问题中,Tomar等使用基于深度学习方法将微博中的词汇表示为300维度的词向量,并使用神经网络推荐Hashtag[22],Vergeest等使用基于神经网络的词嵌入方法推荐Hashtag[23],皆取得了令人满意的效果。
综上所述,当前的Hashtag推荐方法主要使用向量空间模型对文本进行表示,缺少对其它文本表示方法的研究。因此,本文比较了向量空间模型(VSM)、潜在语义分析(LSA)、隐含狄利克雷分布模型(LDA)、深度学习(DL)等四种文本表示方法对基于KNN的Hashtag推荐效果的影响。
3 基于K最近邻方法的Hashtag推荐方法
K最近邻方法是由Cover和Hart两人提出的[24],基本思想是考察训练集中与当前文本距离最近的K个样本点,由这K个样本点决定当前文本的类别,是机器学习中经典的方法之一。本文利用K最近邻方法为用户推荐Hashtag,基本假设为:在微博文本集合中,距离当前微博文本距离最近的微博文本所包含的Hashtag也最相似。在该方法中,文本表示和距离计算是关键的步骤。因此本文将向量空间模型、潜在语义分析、隐含狄利克雷分布以及深度学习等四种文本表示进行比较分析,找出在基于KNN的Hashtag提取任务中,最合适的微博文本表示方法。
3.1 基于KNN的Hashtag推荐方法的基本思路
Hashtag推荐流程(见图1)如下:
(1)对抓取到的文本微博进行一系列的预处理,作为训练集;
(2)对训练集进行文本表示,以向量的形式存储;
(3)当用户输入一条微博时,将其表示为向量,并与训练集中的每条微博文本计算相似度(本文使用向量夹角的余弦值作为相似度),余弦相似度计算公式为:
sim(x,y)=(1)
(4)从与当前微博最相似的K个微博中抽取候选Hashtag。对于包含Hashtag的微博,直接提取其中的Hashtag作为候选Hashtag。针对不含Hashtag的微博,为了缩短程序的执行时间和提高执行效率,本文使用了简化的关键词抽取方法,使用句法分析器抽取其中的名词短语,以及将去除停用词后的单个词汇作为候选Hashtag。Hashtag大多数由名词短语以及单个的词汇所组成,因此句子中的名词短语和单个句子也可以作为候选的Hashtag。
(5)根据候选集中每个候选Hashtag出现的频次与候选Hashtag所在微博与当前微博相似度的乘积推荐Hashtag,计算方法为:
Score=Freq(Hashtag)*sim(Hashtag,t) (2)
Hashtag所在微博与当前微博的相似度越高说明两条微博越相似,那么这条微博中包含的Hashtag是用户所需要的Hashtag的概率更大。Hashtag在候选集中的频次一定成度上表示出了候选集的主题分布,高频次的Hashtag表明候选集的主题更倾向于这个Hashtag所代表的主题。因此,Hashtag所在微博与目标微博的相似度乘以Hashtag在候选集中的频次的计算方法综合考虑了相似度与一定范围内的主题信息。
对于不同的用户来说,有不同的Hashtag使用习惯和使用目的,用户在选择Hashtag时,即使有相同的目的,由于文化背景或思维等因素的差异,也可能会选择不同的Hashtag,“最正确”的Hashtag不一定是用户“最想要”的Hashtag,因此应每次推荐多个Hashtag以供用户选择。
3.2 微博文本表示
3.2.1 向量空间模型
向量空间模型由Salton在1968年提出,是信息检索领域的经典方法[25]。向量空间模型使用向量表示文本,将文本表示成向量空间,每个维度为文本特征。向量空间模型忽略文本的结构信息,如段落、句子及词语之间的信息,无法体现语义信息。
以向量D(d1, d2,……, dn)来表示文本,其中di为向量D的第i个特征项的权重。特征项权重计算使用TF*IDF公式为:
TF*IDF(T,D)=×log (3)
其中,T为词汇,D为文本,freq(T,D)表示词汇T在文本D中出现的次数,|D|表示文本D中的词汇总数,count(T,D)表示包含词汇T的文档数,N为文档总数。 3.2.2 潜在语义分析模型
潜在语义分析是由Dumais等提出的信息检索模型[26],使用奇异值分解(Singular Value Decomposition,SVD)将高维的向量空间模型映射到低维的语义空间中,对原本的文档向量进行了降维,去除了一些“噪音”,并且反映出词语之间隐含的语义关系。
潜在语义分析是对“词汇-文档”矩阵进行奇异值分解,因此首先构造“词汇-文档”矩阵,在这个矩阵中,对其中的词汇计算权重,区别每个词语的重要性。本文使用TF*IDF计算矩阵中每个词汇的权重。首先构建“词项-文档矩阵”C(见图2)。
矩阵中列代表文档,行代表词汇,xnm为第m篇文档的第n个词所对应的权重。然后对矩阵C进行奇异值分解分解,计算公式为:
C=UVP (4)
保留矩阵U、V、P的前K列,将其它列去除后得到Uk、Vk、Pk,再重新构建矩阵Ck:
Ck=UkVkPk (5)
这时新的Ck即为文本的向量形式,潜在语义分析通过SVD这种数学方法对原矩阵进行降维,最终结果可解释性较差[26]。
3.2.3 隐含狄利克雷分布模型
隐含狄利克雷分布LDA是由Blei提出的一种概率主题模型[27],与LSA有着密切的联系。由于LSA生成的向量无法被很好的解释,因此Huffman等针对LSA的缺点提出了概率潜在语义分析(probabilistic latent semantic analysis,PLSA)较好的解决了多义词的问题,每个维度可以被解释为词典中的概率分布[28]。PLSA中参数数量会随着文档的增加而增加,并且容易出现过拟合。2003年,Blei等为了克服PLSA的上述缺点,引入了狄利克雷先验分布,提出了LDA模型。
LDA能够将高维的向量空间映射到低维的主题空间,避免了特征稀疏问题的出现。微博这类短文本不仅词汇少,且存在缩写词汇、网络俚语以及大量未登录词,这些干扰因素都会影响文本间相似度的计算,LDA用主题分布的概率对文本进行表示,减少了上述噪音的影响。与上述两种方法相比,由于加入了狄利克雷先验分布,因此LDA的缺点是计算量大。LDA是一个三层贝叶斯概率模型,包含词项、主题和文档三层结构(见图3)。
其中φ表示主题中的词项概率分布,θ表示第m篇文档的主题概率分布,φ和θ分别作为多项式分布的参数用于生成主题和单词。K代表主题数量,W和Z分别表示第m篇文档中第n个单词及其主题。其中α和β是LDA的先验参数,α反应了文本集合中主题的相对强弱,β则代表了所有主题自身的概率分布。在LDA中,首先生成整个文档集合的主题分布,然后计算每个文档对每个主题的概率分布,将文档映射到主题空间,以此将文本用整个文档集合的主题进行表示。
3.2.4 深度学习模型
目前常用的词汇表示方法是 “One-Hot Representation”,词汇出现的位置值为“1”,其它位置为“0”。这种方法无法表示出词汇之间的语义关系[29]。Hinton提出的分布式特征表示方法(Distributed representation)克服了“One-Hot Representation”的缺点[30]。
Bengio等基于分布式表示的思想,提出了使用神经网络训练语言模型的方法,词向量就是在训练语言模型的过程中得到的[30]。词项量包含词汇的上下文信息,通过一些相似度的计算方法,能够准确的衡量不同词汇的语义关系。Mikolov等提出使用循环神经网络训练语言模型的方法[31],并发布深度学习的开源工具“Word2vec”[32],大大提高了词向量的训练速度。
在Word2vec中将词汇使用Huffman树存储,在训练语言模型时,输入层为词汇的上下文,输出为经过隐含层转换之后的向量。将从Huffman树的根节点出发到查找到该词汇的过程看作一个连续的二分类的过程,该词汇在该上下文环境下出现的概率即为二分类过程的乘积,当语言模型训练完成时,输出层的向量即为最终的词量。
基于上述工作,Le和Mikolov等于2014年提出了基于深度学习的句子向量和文档向量的训练方法[33],本文使用该方法作为文本的表示方法,并将其记为“Doc2vec”。由深度学习得到的文本向量与词项量具有相同的优点,含有丰富的语义信息。对于微博短文本来说,这种方法能够表示出缩写词、网络俚语和正常词语之间的语义关系,相似度的计算更加准确。
在Doc2vec中“Paragraph id”代表一个段落,与Word2vec的方法相似,通过词汇的上下文来预测这个词汇的概率,区别是doc2vec中将段落也看作一个词,这个词由段落的矩阵表示“Paragraph matrix”。段落中也包含了该词汇的上下文信息,在这个模型中由于词汇之间有着前后的关系,因此这种方称为“Distributed Memory Model”,另外一种不区分词汇顺序的方法使用了词袋模型,称为“Distributed Bag of Words”,Doc2vec训练的过程与Word2vec相似(见图4)。
4 实验与结果分析
4.1 实验数据概述
Twitter是世界著名的微博平台,使用人数众多,在Twitter中用户发表的微博文本为Tweets,本文使用从Twitter中采集的Tweets作为实验数据。在Twitter中以“H7N9”为主题采集数据,具体查询式为“h7n9 lang:en since:2014-03-08 until:2015-03-08”,从2014年3月8日到 2015年3月8日在Twitter中进行搜索,一共采集了87382条Tweets,其中Hashtag被使用的总次数为81305次,将这些数据作为训练集(具体的信息见表1)。 从训练集随机选择1000条只包含一个Hashtag的Tweets,经过去除乱码,排除长度小于等于两个字符Tweets后,剩下740条作为测试集。
从Hashtag的频次和数量分布图可以看出,Hashtag的频次越高,则数量越少(见图5)。
4.2 实验结果及讨论
(1)评估方法
在实验中分别计算了四种文本表示方法下Hashtag推荐的正确率,本文采用Kywe等提出的计算方法[34],具体公式为:
Hit=1 count(U∩V)≥1
0 count(U∩V)=0(4)
其中U为最后的推荐结果,V为测试集中Tweets原本包含的Hashtag,将测试集中包含的Hashtag称为正确的Hashtag,count(U∩V)表示推荐的结果和正确的Hashtag的交集中Hashtag的数量。上述公式的含义可表述为,若推荐结果中至少包含一个正确的Hashtag,则认为此条推荐结果正确,若不包含正确的Hashtag,则认为此条推荐结果错误。Hit代表正确与否,正确为1,错误为0,其正确率计算公式为:
HitRate= (5)
其中,count(Hit)为正确推荐结果的数量,count(V)为测试集的个数,HitRate表示推荐结果的正确率。
(2)实验参数设置
在实验中,本文调用开源工具gensim[36]中的向量空间模型、潜在语义分析、隐含狄利克雷分布和Doc2vec等四种文本表示方法。其中向量空间模型和潜在语义分析采用TF*IDF计算每个词汇的权重。隐含狄利克雷分布的实现采用了Hoffman提出的方法[36],迭代次数设置为50次,其它参数为默认值。基于深度学习的文本表示参数设置为:窗口设置为15,最低频次阈值设置为1,其它参数为默认值。基于KNN的Hashtag推荐中,设置K值为100,即每次从训练集中取前100个与当前Tweets最相似的Tweets。
(3)实验结果分析
本文分别测试推荐1,2,3,4,5个Hashtag的正确率。实验结果(见图6、图7、图8、图9)表明:
(1)使用向量空间模型(VSM)进行文本表示的Hashtag推荐结果,(横坐标为推荐的Hashtag数量,纵坐标为正确率),随着推荐数量的增加而增加。使用向量空间模型表示的微博文本,向量维度很高,特征很稀疏。
(2)使用潜在语义分析(LSA进行文本表示得到的推荐结果随着其维度的上升而上升,本文测试到800维度,正确率仍然在上升,但是非常缓慢,(为了与其它方法的维度数量统一,因此在图中只显示到600维度)。
(3)隐含狄利克雷分布(LDA)与Doc2vec的推荐正确率会出现波动,不随着维度的增加而增加,Doc2vec在400维度时取得了最高的正确率。潜在语义分析和隐含狄利克雷分布的实验从100维度开始,Doc2vec从50维度开始,并且正确率高于其它方法。虽然各自的维度具有不同的含义,但从降维的角度考虑,Doc2vec取得了更好的降维效果。
通过对四种文本表示方法在不同维度上的平均正确率比较(见图10,其中横坐标为最终推荐Hashtag的数量,纵坐标为HitRat),可以看出,在基于KNN的Hashtag推荐任务中,Doc2vec的文本表示方法取得了最好效果。
本文通过候选Hashtag的频次与候选Hashtag所在微博与当前微博的相似度这两个因素衡量候选Hashtag是否应该为真正的Hashtag,这两个因素皆受到相似度计算结果的影响。对文本表示的越准确,含义相近的文本之间相似度也会越高,当更多的包含正确Hashtag的微博与当前微博相似度提高时,前K个微博中包含正确Hashtag微博的数量将会提高,相应的在候选集中正确Hashtag的频次也将有所增加,这将提高正确Hashtag的得分在候选集中的排名。从以上两个关键因素可以看出,准确的计算相似度是抽取正确Hashtag的关键。VSM、LSA、LDA、Doc2vec四种文本表示方法中Doc2vec取得了最高的推荐正确率,说明Doc2vec的文本表示方法能够排除噪声的干扰,最准确的表达文本含义。
造成VSM、LSA、LDA三种方法效果差的原因可能有以下几点:(1)VSM无法表示出文本中同义词和多义词的信息,且微博文本中存在大量噪声,VSM也不能很好的应对噪声造成的干扰;(2)文本中的多义词将对LSA造成较大干扰;(3)LDA的效果受到文本的长度和文本数量的影响较大,而实验的语料是微博短文本,因此LDA的效果较差。
5 结论与展望
本文对比了向量空间模型、潜在语义分析、隐含狄利克雷分布模型和基于深度学习的四种文本表示方法,在基于KNN的Hashtag推荐的实际效果,依据Twitter上的H7N9微博语料的实验结果表明,基于深度学习的文本表示方法取得了最高正确率。
在未来的研究工作中,本文拟将进一步在中文微博语料上进行试验,测试不同的文本表示方法对中文微博 Hashtag推荐的效果。本文还将利用其它的Hashtag推荐方法,对不同文本表示方法最终取得的效果进行比较分析,从而确定最佳的文本表示方法与推荐方法组合。由于微博的用户众多,用户的关注点和兴趣不同,因此在Hashtag推荐中应尽可能覆盖用户对不同主题Hashtag标注的需求。这对Hashtag推荐技术提出了更高的要求,在未来的研究中应考虑更多的信息,如用户的兴趣,关系、时间信息等。
参考文献:
[1] Dwyer N, Marsh S. What can the hashtag# trust tell us about how users conceptualise trust? [C].Proceedings of the Privacy, Security and Trust (PST), 2014 Twelfth Annual International Conference on, IEEE, 2014: 398-402. [2] Zappavigna M. Discourse of Twitter and social media: How we use language to create affiliation on the web [M]. A&C Black, 2012.
[3] Ivanova M. Understanding microblogging hashtags for learning enhancement [J]. Form@ re-Open Journal per la formazione in rete, 2013, 11(74): 17-23.
[4] Dixon K. Feminist Online Identity: Analyzing the Presence of Hashtag Feminism [J]. Journal of Arts and Humanities, 2014, 3(7): 34-40.
[5] Komori L. We shouldn't have to smoke and hide The legalize hashtag as a platform for collective identity and collective action framing [D].University of Alberta, 2013.
[6] Skalbeck R V. Anatomy of a Conference Twitter Hashtag:#AALL2010[J/OL].[2015-05-16].http://scholarship.law.georgetown.
edu/digitalpreservation_publications/5.
[7] Potts L, Seitzinger J, Jones D, et al. Tweeting disaster: hashtag constructions and collisions [C].Proceedings of the Proceedings of the 29th ACM international conference on Design of communication, ACM, 2011: 235-240.
[8] Li Z, Zhou D, Juan Y-F, et al. Keyword extraction for social snippets [C].Proceedings of the Proceedings of the 19th international conference on World wide web, ACM, 2010: 1143-1144.
[9] Mazzia A, Juett J. Suggesting hashtags on twitter[R].Machine Learning, Computer Science and Engineering, University of Michigan, 2009.
[10] Shin Y, Lee S-J, Park J. Composition pattern oriented tag extraction from short documents using a structural learning method [J]. Knowledge and information systems, 2014, 38(2): 447-468.
[11] She J, Chen L. Tomoha: Topic model-based hashtag recommendation on twitter [C].Proceedings of the Proceedings of the companion publication of the 23rd international conference on World wide web companion, International World Wide Web Conferences Steering Committee, 2014: 371-372.
[12] Ma Z, Sun A, Yuan Q, et al. Tagging Your Tweets: A Probabilistic Modeling of Hashtag Annotation in Twitter [C].Proceedings of the Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management, ACM, 2014: 999-1008.
[13] Zhang Q, Gong Y, Sun X, etal.Time-aware Personalized Hashtag Recommendation on Social Media[J/OL].[2015-05-16].
http://wing.comp.nus.edu.sg/~antho/C/C14/C14-1021.pdf.
[14] Ding Z, Qiu X, Zhang Q, et al. Learning topical translation model for microblog hashtag suggestion[C].Proceedings of the Proceedings of the Twenty-Third international joint conference on Artificial Intelligence, AAAI Press, 2013: 2078-2084. [15] 张庆国, 章成志, 薛德军, 等. 适用于隐含主题抽取的 K 最近邻关键词自动抽取[J]. 情报学报, 2009, (2):163-168.
[16] Xiao F, Noro T, Tokuda T. News-topic oriented hashtag recommendation in Twitter based on characteristic co-occurrence word detection [M]. Web Engineering. Springer,2012: 16-30.
[17] Tariq A, Karim A, Gomez F, et al. Exploiting Topical Perceptions over Multi-Lingual Text for Hashtag Suggestion on Twitter [C].Proceedings of the FLAIRS Conference, 2013.
[18] Zangerle E, Gassler W, Specht G. On the impact of text similarity functions on hashtag recommendations in microblogging environments [J]. Social Network Analysis and Mining, 2013, 3(4): 889-898.
[19] Otsuka E, Wallace S A, Chiu D. Design and evaluation of a Twitter hashtag recommendation system [C].Proceedings of the Proceedings of the 18th International Database Engineering & Applications Symposium, ACM, 2014: 330-333.
[20] Yan X, Zhao H. Chinese microblog topic detection based on the latent semantic analysis and structural property [J]. Journal of Networks, 2013, 8(4): 917-923.
[21] Liang D, Yong-ping D. Application of LDA Model in Microblog User Recommendation [J]. Computer Engineering, 2014, 5(002).
[22] Tomar A, Godin F, Vandersmissen B, et al. Towards Twitter hashtag recommendation using distributed word representations and a deep feed forward neural network [C].Proceedings of the Advances in Computing, Communications and Informatics (ICACCI, 2014 International Conference on, IEEE, 2014: 362-368.
[23] Lucas Vergeest. Using N-grams and Word Embeddings for Twitter Hashtag Suggestion[D]. Holland Tilburg:Tilburg University, 2014.
[24] Cover T, Hart P. Nearest neighbor pattern classification [J]. Information Theory, IEEE Transactions on, 1967, 13(1): 21-27.
[25] Salton G, Wong A, Yang C-S. A vector space model for automatic indexing [J]. Communications of the ACM, 1975, 18(11): 613-620.
[26] Dumais S, Platt J, Heckerman D, et al. Inductive learning algorithms and representations for text categorization [C].Proceedings of the Proceedings of the seventh international conference on Information and knowledge management, ACM, 1998: 148-155.
[27] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J].The Journal of machine Learning research,2003(3):993-1022.
[28] Hofmann T. Probabilistic latent semantic indexing [C].Proceedings of the Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, ACM, 1999: 50-57. [29] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-supervised learning [C].Proceedings of the Proceedings of the 48th annual meeting of the association for computational linguistics, Association for Computational Linguistics, 2010: 384-394.
[30] Hinton, McClelland. Distributed representations[A].D.E. Rumelhart & J.L. McCleland(Eds.), Parallel distributed processing: Explorations in the microstructure of cognition{M}. Cambridge, MA: MIT Press, 1986:77-109.
[28] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model [J]. The Journal of Machine Learning Research, 2003(3):1137-1155.
[31] Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model [C].Proceedings of the INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010, 2010: 1045-1048.
[32] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.
[33] Le Q V, Mikolov T. Distributed representations of sentences and documents[J]. arXiv preprint arXiv:1405.4053, 2014.
[34] Kywe S M, Hoang T-A, Lim E-P, et al. On recommending hashtags in twitter networks [M]. Social Informatics. Springer. 2012: 337-350.
[35] ehek R, Sojka P. Software framework for topic modelling with large corpora[C]. Proceedings of the LREC 2010 Workshop on new Challenges for NLP Frameworks, Valletta, Malta: ELRA, 2010: 45-50.
[36] Hoffman M, Bach F R, Blei D M. Online learning for latent dirichlet allocation [C].Proceedings of the advances in neural information processing systems, 2010: 856-864.
作者简介:邵健(1990-),男,南京理工大学信息管理系情报学硕士生,研究方向为社会媒体处理与舆情分析;章成志(1977-),男,南京工大信息管理系教授,博士生导师,研究方向:信息组织、信息检索、数据挖掘及自然语言处理。
关键词:Hashtag推荐;K最近邻;文本表示;深度学习
中图分类号: G252 文献标识码: A DOI: 10.11968/tsygb.1003-6938.2015057
Abstract According to the summary of various Hashtag recommendation technologies and short text representation methods, this paper uses a Hashtag recommendation method based on K-Nearest Neighbor. Firstly, we represent the texts of microblog into vectors, calculate similarities between user’s text and training text. Then we extract the most similar blogs from the corpora. The results of four text representation methods named Vector space model, Latent semantic analysis, Latent Dirichlet allocation, Deep Learning for Hashtag recommendation are compared with each other. We use H7N9 Corpus on Twitter as our test dataset. Experimental results show that deep learning text representation method has achieved the best performance among all the methods.
Key words Hashtag Recommendation; K-Nearest Neighbor; Text Representation; Deep Learning
1 引言
当前,各种主流微博平台都提供Hashtag标注功能,如关于马航坠机事件的Hashtag在Twitter中为“#MH370”,在新浪微博中为“#MH370#”,虽然不同微博平台中Hashtag的具体标记形式可能不同,但功能基本相同,都具有主题标注和话题参与的功能[1-3]。主题标注功能指Hashtag能够表达一条微博中的主题信息;话题参与功能指用户使用Hashtag参与同一个话题的讨论。在微博平台中,上述功能使Hashtag在信息组织和信息检索方面具有优势,因此越来越多的学者开始深入研究Hashtag[4-6]。但在实际的微博数据中Hashtag的标注数量较少,这大大降低了Hashtag的信息检索和信息组织的效率。Potts主要有两种因素降低了Hashtag的标注数量和标注质量:(1)大部分用户不对自己的微博标注Hashtag;(2)有些用户随意的标注Hashtag,出现许多难以理解的和使用的Hashtag,导致信息传播效率降低[7]。因此,为了提高Hashtag的标注数量和质量,学者们提出了多种不同的Hashtag推荐方法,为用户自动推荐合适的Hashtag。
当前,Hashtag推荐方法主要有基于频次和相似度的方法、基于机器学习的方法和基于主题模型的方法等。K最近邻作为一种经典的文本分类方法,无需标注语料,并且无需花费大量时间训练模型。因此,本文尝试将K最近邻方法用于微博的Hashtag推荐。由于传统的权重计算方法和文本表示方法不适合短文本的处理[8]。为此,本文对比了向量空间模型(Vector Space Model)、潜在语义分析(Latent Semantic Analysis)、隐含狄利克雷分布模型(Latent Dirichlet Allocation)和基于深度学习(Deep Learning)的文本表示等四种方法,以选择适合于基于KNN的Hashtag推荐任务的文本表示方法。
2 Hashtag推荐相关研究概述
Hashtag推荐主要依据文本内容与用户信息,目的是从微博文本中抽取关键词或者直接提取已有的Hashtag推荐给用户,用以提高Hashtag的标注数量和质量。在Hashtag推荐中,对微博短文本预处理和表示的效果直接影响到最后结果的好坏,因此需要对微博文本进行预处理,并深入挖掘文本,以表示出词汇之间的语义信息。
2.1 Hashtag推荐方法
Hashtag推荐技术包括基于频次或相似度排序方法、分类算法、主题模型、协同过滤、神经网络等方法。其中按频次或相似度排序的方法是指对最终的候选Hashtag按其频次排序,或者按照Hashtag之间相似度或Tweets之间的相似度对Hashtag进行排序。所利用的信息可分为三种:Tweets的内容特征;用户的偏好特征;Hashtag的频次和时间特征。其中用户的偏好特征指用户的关注关系,兴趣等特征。
Mazzia和Shin等将Hashtag推荐问题转化为分类问题,利用朴素贝叶斯[9]、支持向量机[10]等方法选择合适的Hashtag。基于主题模型的方法主要依据文本的主题信息推荐Hashtag[11-12],Zhang和Ding提出主题翻译模型,取得了很好效果[13-14]。与以上方法相比,K最近邻方法较为简单,模型中考虑的信息较少,无需标注语料、训练模型等步骤,并且能够取得令人满意的效果。2009年,张庆国等利用VSM进行文本表示,依据K最近邻方法抽取关学术论文的关键词,其实验表明该方法有效的提高了准确率和召回率[15]。与该工作不同的是,本文以微博短文本作为研究对象,考察四种不同文本表示方法在基于KNN的Hashtag推荐中的实际效果,以期找到适合微博短文本的文本表示方法,从而提高基于KNN的Hashtag推荐效果。 2.2 微博文本表示方法
向量空间模型将文本映射到一个特征空间中,用向量的方式表示文本,以方便计算。常配合TF*IDF等权重计算方法计算每个词汇的权重。在Hashtag推荐中,多数学者使用向量空间模型对短文本进行表示[16-17],并且针对短文本的特点提出了多种权重计算方法。在传统的权重计算方法中,Zangerle等的实验显示使用TF*IDF的方法取得了最好的Hashtag推荐结果[18]。
但Li等认为传统的方法不适合短文本的表示[8],因此学者们针对Hashtag推荐具体问题,借鉴TF*IDF的思想提出了新的方法,如Xiao等提出的Term Frequency-Inverted Hashtag Frequency(TF-IHF)和Probabilistic Inside-Outside Log(P-IOLogH)方法[16],Otsuka等提出的 HF-IHU方法[19]。
向量空间模型的缺点是当词汇数量增多,维度也会相应增加,导致计算速度缓慢、特征稀疏等问题,该模型也无法表示出词汇之间的语义关系。潜在语义分析和隐含狄利克雷分布模型都能表示词汇的语义信息,因此出现大量使用潜在语义分析和LDA对微博短文本进行处理的研究。如Yan等使用潜在语义分析[20]发现微博中的主题,Liang等将LDA应用在Twitter中用于用户的推荐[21]。随着近些年深度学习技术的兴起,在Hashtag推荐问题中,Tomar等使用基于深度学习方法将微博中的词汇表示为300维度的词向量,并使用神经网络推荐Hashtag[22],Vergeest等使用基于神经网络的词嵌入方法推荐Hashtag[23],皆取得了令人满意的效果。
综上所述,当前的Hashtag推荐方法主要使用向量空间模型对文本进行表示,缺少对其它文本表示方法的研究。因此,本文比较了向量空间模型(VSM)、潜在语义分析(LSA)、隐含狄利克雷分布模型(LDA)、深度学习(DL)等四种文本表示方法对基于KNN的Hashtag推荐效果的影响。
3 基于K最近邻方法的Hashtag推荐方法
K最近邻方法是由Cover和Hart两人提出的[24],基本思想是考察训练集中与当前文本距离最近的K个样本点,由这K个样本点决定当前文本的类别,是机器学习中经典的方法之一。本文利用K最近邻方法为用户推荐Hashtag,基本假设为:在微博文本集合中,距离当前微博文本距离最近的微博文本所包含的Hashtag也最相似。在该方法中,文本表示和距离计算是关键的步骤。因此本文将向量空间模型、潜在语义分析、隐含狄利克雷分布以及深度学习等四种文本表示进行比较分析,找出在基于KNN的Hashtag提取任务中,最合适的微博文本表示方法。
3.1 基于KNN的Hashtag推荐方法的基本思路
Hashtag推荐流程(见图1)如下:
(1)对抓取到的文本微博进行一系列的预处理,作为训练集;
(2)对训练集进行文本表示,以向量的形式存储;
(3)当用户输入一条微博时,将其表示为向量,并与训练集中的每条微博文本计算相似度(本文使用向量夹角的余弦值作为相似度),余弦相似度计算公式为:
sim(x,y)=(1)
(4)从与当前微博最相似的K个微博中抽取候选Hashtag。对于包含Hashtag的微博,直接提取其中的Hashtag作为候选Hashtag。针对不含Hashtag的微博,为了缩短程序的执行时间和提高执行效率,本文使用了简化的关键词抽取方法,使用句法分析器抽取其中的名词短语,以及将去除停用词后的单个词汇作为候选Hashtag。Hashtag大多数由名词短语以及单个的词汇所组成,因此句子中的名词短语和单个句子也可以作为候选的Hashtag。
(5)根据候选集中每个候选Hashtag出现的频次与候选Hashtag所在微博与当前微博相似度的乘积推荐Hashtag,计算方法为:
Score=Freq(Hashtag)*sim(Hashtag,t) (2)
Hashtag所在微博与当前微博的相似度越高说明两条微博越相似,那么这条微博中包含的Hashtag是用户所需要的Hashtag的概率更大。Hashtag在候选集中的频次一定成度上表示出了候选集的主题分布,高频次的Hashtag表明候选集的主题更倾向于这个Hashtag所代表的主题。因此,Hashtag所在微博与目标微博的相似度乘以Hashtag在候选集中的频次的计算方法综合考虑了相似度与一定范围内的主题信息。
对于不同的用户来说,有不同的Hashtag使用习惯和使用目的,用户在选择Hashtag时,即使有相同的目的,由于文化背景或思维等因素的差异,也可能会选择不同的Hashtag,“最正确”的Hashtag不一定是用户“最想要”的Hashtag,因此应每次推荐多个Hashtag以供用户选择。
3.2 微博文本表示
3.2.1 向量空间模型
向量空间模型由Salton在1968年提出,是信息检索领域的经典方法[25]。向量空间模型使用向量表示文本,将文本表示成向量空间,每个维度为文本特征。向量空间模型忽略文本的结构信息,如段落、句子及词语之间的信息,无法体现语义信息。
以向量D(d1, d2,……, dn)来表示文本,其中di为向量D的第i个特征项的权重。特征项权重计算使用TF*IDF公式为:
TF*IDF(T,D)=×log (3)
其中,T为词汇,D为文本,freq(T,D)表示词汇T在文本D中出现的次数,|D|表示文本D中的词汇总数,count(T,D)表示包含词汇T的文档数,N为文档总数。 3.2.2 潜在语义分析模型
潜在语义分析是由Dumais等提出的信息检索模型[26],使用奇异值分解(Singular Value Decomposition,SVD)将高维的向量空间模型映射到低维的语义空间中,对原本的文档向量进行了降维,去除了一些“噪音”,并且反映出词语之间隐含的语义关系。
潜在语义分析是对“词汇-文档”矩阵进行奇异值分解,因此首先构造“词汇-文档”矩阵,在这个矩阵中,对其中的词汇计算权重,区别每个词语的重要性。本文使用TF*IDF计算矩阵中每个词汇的权重。首先构建“词项-文档矩阵”C(见图2)。
矩阵中列代表文档,行代表词汇,xnm为第m篇文档的第n个词所对应的权重。然后对矩阵C进行奇异值分解分解,计算公式为:
C=UVP (4)
保留矩阵U、V、P的前K列,将其它列去除后得到Uk、Vk、Pk,再重新构建矩阵Ck:
Ck=UkVkPk (5)
这时新的Ck即为文本的向量形式,潜在语义分析通过SVD这种数学方法对原矩阵进行降维,最终结果可解释性较差[26]。
3.2.3 隐含狄利克雷分布模型
隐含狄利克雷分布LDA是由Blei提出的一种概率主题模型[27],与LSA有着密切的联系。由于LSA生成的向量无法被很好的解释,因此Huffman等针对LSA的缺点提出了概率潜在语义分析(probabilistic latent semantic analysis,PLSA)较好的解决了多义词的问题,每个维度可以被解释为词典中的概率分布[28]。PLSA中参数数量会随着文档的增加而增加,并且容易出现过拟合。2003年,Blei等为了克服PLSA的上述缺点,引入了狄利克雷先验分布,提出了LDA模型。
LDA能够将高维的向量空间映射到低维的主题空间,避免了特征稀疏问题的出现。微博这类短文本不仅词汇少,且存在缩写词汇、网络俚语以及大量未登录词,这些干扰因素都会影响文本间相似度的计算,LDA用主题分布的概率对文本进行表示,减少了上述噪音的影响。与上述两种方法相比,由于加入了狄利克雷先验分布,因此LDA的缺点是计算量大。LDA是一个三层贝叶斯概率模型,包含词项、主题和文档三层结构(见图3)。
其中φ表示主题中的词项概率分布,θ表示第m篇文档的主题概率分布,φ和θ分别作为多项式分布的参数用于生成主题和单词。K代表主题数量,W和Z分别表示第m篇文档中第n个单词及其主题。其中α和β是LDA的先验参数,α反应了文本集合中主题的相对强弱,β则代表了所有主题自身的概率分布。在LDA中,首先生成整个文档集合的主题分布,然后计算每个文档对每个主题的概率分布,将文档映射到主题空间,以此将文本用整个文档集合的主题进行表示。
3.2.4 深度学习模型
目前常用的词汇表示方法是 “One-Hot Representation”,词汇出现的位置值为“1”,其它位置为“0”。这种方法无法表示出词汇之间的语义关系[29]。Hinton提出的分布式特征表示方法(Distributed representation)克服了“One-Hot Representation”的缺点[30]。
Bengio等基于分布式表示的思想,提出了使用神经网络训练语言模型的方法,词向量就是在训练语言模型的过程中得到的[30]。词项量包含词汇的上下文信息,通过一些相似度的计算方法,能够准确的衡量不同词汇的语义关系。Mikolov等提出使用循环神经网络训练语言模型的方法[31],并发布深度学习的开源工具“Word2vec”[32],大大提高了词向量的训练速度。
在Word2vec中将词汇使用Huffman树存储,在训练语言模型时,输入层为词汇的上下文,输出为经过隐含层转换之后的向量。将从Huffman树的根节点出发到查找到该词汇的过程看作一个连续的二分类的过程,该词汇在该上下文环境下出现的概率即为二分类过程的乘积,当语言模型训练完成时,输出层的向量即为最终的词量。
基于上述工作,Le和Mikolov等于2014年提出了基于深度学习的句子向量和文档向量的训练方法[33],本文使用该方法作为文本的表示方法,并将其记为“Doc2vec”。由深度学习得到的文本向量与词项量具有相同的优点,含有丰富的语义信息。对于微博短文本来说,这种方法能够表示出缩写词、网络俚语和正常词语之间的语义关系,相似度的计算更加准确。
在Doc2vec中“Paragraph id”代表一个段落,与Word2vec的方法相似,通过词汇的上下文来预测这个词汇的概率,区别是doc2vec中将段落也看作一个词,这个词由段落的矩阵表示“Paragraph matrix”。段落中也包含了该词汇的上下文信息,在这个模型中由于词汇之间有着前后的关系,因此这种方称为“Distributed Memory Model”,另外一种不区分词汇顺序的方法使用了词袋模型,称为“Distributed Bag of Words”,Doc2vec训练的过程与Word2vec相似(见图4)。
4 实验与结果分析
4.1 实验数据概述
Twitter是世界著名的微博平台,使用人数众多,在Twitter中用户发表的微博文本为Tweets,本文使用从Twitter中采集的Tweets作为实验数据。在Twitter中以“H7N9”为主题采集数据,具体查询式为“h7n9 lang:en since:2014-03-08 until:2015-03-08”,从2014年3月8日到 2015年3月8日在Twitter中进行搜索,一共采集了87382条Tweets,其中Hashtag被使用的总次数为81305次,将这些数据作为训练集(具体的信息见表1)。 从训练集随机选择1000条只包含一个Hashtag的Tweets,经过去除乱码,排除长度小于等于两个字符Tweets后,剩下740条作为测试集。
从Hashtag的频次和数量分布图可以看出,Hashtag的频次越高,则数量越少(见图5)。
4.2 实验结果及讨论
(1)评估方法
在实验中分别计算了四种文本表示方法下Hashtag推荐的正确率,本文采用Kywe等提出的计算方法[34],具体公式为:
Hit=1 count(U∩V)≥1
0 count(U∩V)=0(4)
其中U为最后的推荐结果,V为测试集中Tweets原本包含的Hashtag,将测试集中包含的Hashtag称为正确的Hashtag,count(U∩V)表示推荐的结果和正确的Hashtag的交集中Hashtag的数量。上述公式的含义可表述为,若推荐结果中至少包含一个正确的Hashtag,则认为此条推荐结果正确,若不包含正确的Hashtag,则认为此条推荐结果错误。Hit代表正确与否,正确为1,错误为0,其正确率计算公式为:
HitRate= (5)
其中,count(Hit)为正确推荐结果的数量,count(V)为测试集的个数,HitRate表示推荐结果的正确率。
(2)实验参数设置
在实验中,本文调用开源工具gensim[36]中的向量空间模型、潜在语义分析、隐含狄利克雷分布和Doc2vec等四种文本表示方法。其中向量空间模型和潜在语义分析采用TF*IDF计算每个词汇的权重。隐含狄利克雷分布的实现采用了Hoffman提出的方法[36],迭代次数设置为50次,其它参数为默认值。基于深度学习的文本表示参数设置为:窗口设置为15,最低频次阈值设置为1,其它参数为默认值。基于KNN的Hashtag推荐中,设置K值为100,即每次从训练集中取前100个与当前Tweets最相似的Tweets。
(3)实验结果分析
本文分别测试推荐1,2,3,4,5个Hashtag的正确率。实验结果(见图6、图7、图8、图9)表明:
(1)使用向量空间模型(VSM)进行文本表示的Hashtag推荐结果,(横坐标为推荐的Hashtag数量,纵坐标为正确率),随着推荐数量的增加而增加。使用向量空间模型表示的微博文本,向量维度很高,特征很稀疏。
(2)使用潜在语义分析(LSA进行文本表示得到的推荐结果随着其维度的上升而上升,本文测试到800维度,正确率仍然在上升,但是非常缓慢,(为了与其它方法的维度数量统一,因此在图中只显示到600维度)。
(3)隐含狄利克雷分布(LDA)与Doc2vec的推荐正确率会出现波动,不随着维度的增加而增加,Doc2vec在400维度时取得了最高的正确率。潜在语义分析和隐含狄利克雷分布的实验从100维度开始,Doc2vec从50维度开始,并且正确率高于其它方法。虽然各自的维度具有不同的含义,但从降维的角度考虑,Doc2vec取得了更好的降维效果。
通过对四种文本表示方法在不同维度上的平均正确率比较(见图10,其中横坐标为最终推荐Hashtag的数量,纵坐标为HitRat),可以看出,在基于KNN的Hashtag推荐任务中,Doc2vec的文本表示方法取得了最好效果。
本文通过候选Hashtag的频次与候选Hashtag所在微博与当前微博的相似度这两个因素衡量候选Hashtag是否应该为真正的Hashtag,这两个因素皆受到相似度计算结果的影响。对文本表示的越准确,含义相近的文本之间相似度也会越高,当更多的包含正确Hashtag的微博与当前微博相似度提高时,前K个微博中包含正确Hashtag微博的数量将会提高,相应的在候选集中正确Hashtag的频次也将有所增加,这将提高正确Hashtag的得分在候选集中的排名。从以上两个关键因素可以看出,准确的计算相似度是抽取正确Hashtag的关键。VSM、LSA、LDA、Doc2vec四种文本表示方法中Doc2vec取得了最高的推荐正确率,说明Doc2vec的文本表示方法能够排除噪声的干扰,最准确的表达文本含义。
造成VSM、LSA、LDA三种方法效果差的原因可能有以下几点:(1)VSM无法表示出文本中同义词和多义词的信息,且微博文本中存在大量噪声,VSM也不能很好的应对噪声造成的干扰;(2)文本中的多义词将对LSA造成较大干扰;(3)LDA的效果受到文本的长度和文本数量的影响较大,而实验的语料是微博短文本,因此LDA的效果较差。
5 结论与展望
本文对比了向量空间模型、潜在语义分析、隐含狄利克雷分布模型和基于深度学习的四种文本表示方法,在基于KNN的Hashtag推荐的实际效果,依据Twitter上的H7N9微博语料的实验结果表明,基于深度学习的文本表示方法取得了最高正确率。
在未来的研究工作中,本文拟将进一步在中文微博语料上进行试验,测试不同的文本表示方法对中文微博 Hashtag推荐的效果。本文还将利用其它的Hashtag推荐方法,对不同文本表示方法最终取得的效果进行比较分析,从而确定最佳的文本表示方法与推荐方法组合。由于微博的用户众多,用户的关注点和兴趣不同,因此在Hashtag推荐中应尽可能覆盖用户对不同主题Hashtag标注的需求。这对Hashtag推荐技术提出了更高的要求,在未来的研究中应考虑更多的信息,如用户的兴趣,关系、时间信息等。
参考文献:
[1] Dwyer N, Marsh S. What can the hashtag# trust tell us about how users conceptualise trust? [C].Proceedings of the Privacy, Security and Trust (PST), 2014 Twelfth Annual International Conference on, IEEE, 2014: 398-402. [2] Zappavigna M. Discourse of Twitter and social media: How we use language to create affiliation on the web [M]. A&C Black, 2012.
[3] Ivanova M. Understanding microblogging hashtags for learning enhancement [J]. Form@ re-Open Journal per la formazione in rete, 2013, 11(74): 17-23.
[4] Dixon K. Feminist Online Identity: Analyzing the Presence of Hashtag Feminism [J]. Journal of Arts and Humanities, 2014, 3(7): 34-40.
[5] Komori L. We shouldn't have to smoke and hide The legalize hashtag as a platform for collective identity and collective action framing [D].University of Alberta, 2013.
[6] Skalbeck R V. Anatomy of a Conference Twitter Hashtag:#AALL2010[J/OL].[2015-05-16].http://scholarship.law.georgetown.
edu/digitalpreservation_publications/5.
[7] Potts L, Seitzinger J, Jones D, et al. Tweeting disaster: hashtag constructions and collisions [C].Proceedings of the Proceedings of the 29th ACM international conference on Design of communication, ACM, 2011: 235-240.
[8] Li Z, Zhou D, Juan Y-F, et al. Keyword extraction for social snippets [C].Proceedings of the Proceedings of the 19th international conference on World wide web, ACM, 2010: 1143-1144.
[9] Mazzia A, Juett J. Suggesting hashtags on twitter[R].Machine Learning, Computer Science and Engineering, University of Michigan, 2009.
[10] Shin Y, Lee S-J, Park J. Composition pattern oriented tag extraction from short documents using a structural learning method [J]. Knowledge and information systems, 2014, 38(2): 447-468.
[11] She J, Chen L. Tomoha: Topic model-based hashtag recommendation on twitter [C].Proceedings of the Proceedings of the companion publication of the 23rd international conference on World wide web companion, International World Wide Web Conferences Steering Committee, 2014: 371-372.
[12] Ma Z, Sun A, Yuan Q, et al. Tagging Your Tweets: A Probabilistic Modeling of Hashtag Annotation in Twitter [C].Proceedings of the Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management, ACM, 2014: 999-1008.
[13] Zhang Q, Gong Y, Sun X, etal.Time-aware Personalized Hashtag Recommendation on Social Media[J/OL].[2015-05-16].
http://wing.comp.nus.edu.sg/~antho/C/C14/C14-1021.pdf.
[14] Ding Z, Qiu X, Zhang Q, et al. Learning topical translation model for microblog hashtag suggestion[C].Proceedings of the Proceedings of the Twenty-Third international joint conference on Artificial Intelligence, AAAI Press, 2013: 2078-2084. [15] 张庆国, 章成志, 薛德军, 等. 适用于隐含主题抽取的 K 最近邻关键词自动抽取[J]. 情报学报, 2009, (2):163-168.
[16] Xiao F, Noro T, Tokuda T. News-topic oriented hashtag recommendation in Twitter based on characteristic co-occurrence word detection [M]. Web Engineering. Springer,2012: 16-30.
[17] Tariq A, Karim A, Gomez F, et al. Exploiting Topical Perceptions over Multi-Lingual Text for Hashtag Suggestion on Twitter [C].Proceedings of the FLAIRS Conference, 2013.
[18] Zangerle E, Gassler W, Specht G. On the impact of text similarity functions on hashtag recommendations in microblogging environments [J]. Social Network Analysis and Mining, 2013, 3(4): 889-898.
[19] Otsuka E, Wallace S A, Chiu D. Design and evaluation of a Twitter hashtag recommendation system [C].Proceedings of the Proceedings of the 18th International Database Engineering & Applications Symposium, ACM, 2014: 330-333.
[20] Yan X, Zhao H. Chinese microblog topic detection based on the latent semantic analysis and structural property [J]. Journal of Networks, 2013, 8(4): 917-923.
[21] Liang D, Yong-ping D. Application of LDA Model in Microblog User Recommendation [J]. Computer Engineering, 2014, 5(002).
[22] Tomar A, Godin F, Vandersmissen B, et al. Towards Twitter hashtag recommendation using distributed word representations and a deep feed forward neural network [C].Proceedings of the Advances in Computing, Communications and Informatics (ICACCI, 2014 International Conference on, IEEE, 2014: 362-368.
[23] Lucas Vergeest. Using N-grams and Word Embeddings for Twitter Hashtag Suggestion[D]. Holland Tilburg:Tilburg University, 2014.
[24] Cover T, Hart P. Nearest neighbor pattern classification [J]. Information Theory, IEEE Transactions on, 1967, 13(1): 21-27.
[25] Salton G, Wong A, Yang C-S. A vector space model for automatic indexing [J]. Communications of the ACM, 1975, 18(11): 613-620.
[26] Dumais S, Platt J, Heckerman D, et al. Inductive learning algorithms and representations for text categorization [C].Proceedings of the Proceedings of the seventh international conference on Information and knowledge management, ACM, 1998: 148-155.
[27] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J].The Journal of machine Learning research,2003(3):993-1022.
[28] Hofmann T. Probabilistic latent semantic indexing [C].Proceedings of the Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, ACM, 1999: 50-57. [29] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-supervised learning [C].Proceedings of the Proceedings of the 48th annual meeting of the association for computational linguistics, Association for Computational Linguistics, 2010: 384-394.
[30] Hinton, McClelland. Distributed representations[A].D.E. Rumelhart & J.L. McCleland(Eds.), Parallel distributed processing: Explorations in the microstructure of cognition{M}. Cambridge, MA: MIT Press, 1986:77-109.
[28] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model [J]. The Journal of Machine Learning Research, 2003(3):1137-1155.
[31] Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model [C].Proceedings of the INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010, 2010: 1045-1048.
[32] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.
[33] Le Q V, Mikolov T. Distributed representations of sentences and documents[J]. arXiv preprint arXiv:1405.4053, 2014.
[34] Kywe S M, Hoang T-A, Lim E-P, et al. On recommending hashtags in twitter networks [M]. Social Informatics. Springer. 2012: 337-350.
[35] ehek R, Sojka P. Software framework for topic modelling with large corpora[C]. Proceedings of the LREC 2010 Workshop on new Challenges for NLP Frameworks, Valletta, Malta: ELRA, 2010: 45-50.
[36] Hoffman M, Bach F R, Blei D M. Online learning for latent dirichlet allocation [C].Proceedings of the advances in neural information processing systems, 2010: 856-864.
作者简介:邵健(1990-),男,南京理工大学信息管理系情报学硕士生,研究方向为社会媒体处理与舆情分析;章成志(1977-),男,南京工大信息管理系教授,博士生导师,研究方向:信息组织、信息检索、数据挖掘及自然语言处理。