基于LDA模型的文本分割

来源 :计算机学报 | 被引量 : 0次 | 上传用户:star010lxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用.基于LDA模型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题与文本表面的字词建立联系.实验以汉语的整句作为基本块,尝试多种相似性度量手段及边界估计策略,其最佳结果表明二者的恰当结合可以使片段边界的识别错误率远远低于其它同类算法.
其他文献
本实验选取了51名幼儿作为对象,先根据观察和访谈结果,将幼儿按照教师对幼儿的情感进行分类,再分别分析其绘画作品。结果发现教师情感指向积极型的幼儿的作品在造型和构图等
目的:分析我院2012~2014年抗糖尿病药物的使用情况。方法:对我院2012~2014年抗糖尿病药物用药金额和用药频度(DDDs)等数据进行统计。结果:抗糖尿病药用药金额逐年增长。其中
<正>股市进入2009年以后,各路投资机构和专业人士都评说今年股市不会有大行情,原因有二:一是"大小非"、"大小限"解禁压力实在太大;二是实体经济受危机的影响还远远没有结束。
空间数据库是目前地理信息系统(GIS)应用的一个很重要的部分,其中空间数据库引擎(SDE)作为中间件连接GIS应用程序和关系数据库系统,较好地解决了空间数据和属性数据统一存储
唐代强盛的国力和繁荣的文化孕育出雍容华贵的女性服饰,唐代女子服饰文化是辉煌灿烂的唐代文化的一部分。唐代女性服饰具有大胆展示女性曲线美、胡汉兼容、女着男装等风格特
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法
<正>笔者上中学时,地理课没有专门的地理教师,都分给了其他学科老师。记得我的语文老师给我们上过地理,数学老师好象也上过。地理课堂上了什么?老师讲了什么?没有一点点印象,
在文献研究的基础上,分析研究了现行体育选项课教学评价中存在的主要问题:对评价目的认识不足、评价内容单一、评价方法单调。提出了体育教学评价改革的主要对策:客观评价与
从静载试验成果初步分析钻孔灌注桩的工作效应孔国强,张建德,汪永森(富阳新城房地产综合开发公司,电力部华东勘测设计研究院,杭州市下城区建筑设计所)随着高层建筑的日益增多,钻孔灌