文本分类中用于协同的特征集分割

来源 :计算机科学 | 被引量 : 0次 | 上传用户:a7762350
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用于文本分类领域的协同训练往往需要特征集的一个自然独立分割,但对大多数语料而言这种分割都很难获取或不存在。给出了特征子集间在类别下条件独立性的定量描述,并在此意义下提出了局部特征集分割的策略,以及两种分别基于样本聚类和图分块的以独立性为前提的特征集分割算法。在两个语料库上的分类实验证明:在该方法所获得的特征集分割下,协同训练方法能有效利用未标注样本提高分类器的综合效果,从而有效扩展了协同训练的可用性。
其他文献
研究了保特征散乱数据的曲面重构问题。根据主曲率的差可以刻画图像的棱角特征这一特性,提出了一种新的能量模型。通过变分法,能量得到了新的微分方程,并利用有限元方法求解
处理器和内存之间速度差距日益增大,使内存访问成为系统主要的性能瓶颈之一,Cache成为现代体系结构中用来解决这个问题的主要技术。利用数据重组优化程序自身的局部性,从而提高C
提出了一个可应用于信息安全风险过程建模的规划渗透图模型:采用形式化的规划域定义语言PDDL(Planning Domain Definition Language)对风险过程的领域和问题进行了描述,基于智能
单物理层用户数据传输与交换平台体系结构(SUPA)是由四川省网络通信技术重点实验室提出的、基于“面向以太网的物理帧时槽交换”(EPFTS)技术的下一代Intemet(NGI)体系结构。此前对E
在CPU/FPGA平台上运行的实时任务通常由软/硬件子任务组成并存在优先约束关系。提出了一种软/硬件混合实时任务调度算法。在截止期限错失时刻,通过分析系统的运行情况,推导出
能耗是影响异构式并行和分布式系统性能的一个重要因素,动态电压缩放(DVS)技术通过将处理器降低到不同频率来达到有效地节约能耗的目标。通常DVS技术包含任务调度及空闲时间片
基于正交函数的概念和特性,提出一种正交泛函网络新模型,给出了正交泛函网络学习算法。该算法是借助于正交函数性质和Lagrange乘数法做辅助函数,对泛函参数学习过程归结为求解一
提出多模式贝叶斯分类算法,由变量值之间的条件独立和条件相关性推断因果关系,根据每个完整随机样本而非整个样本空间构造子模式。结合局部计算近似推理进行概率密度和条件概率