【摘 要】
:
21世纪是大数据的时代,计算机技术飞速进步,数据的获取和储存都变得十分便利,数据的数量和形式都不可同日而语,很多部门每天都有巨大数量、不同形式的数据产生。大数据是由主体、来源和形式都不同的数据合并而成,不同数据集由于数据来源不同,彼此之间存在一定的差异性,但研究同一课题时,同样的解释变量和被解释变量在不同数据集之间又存在一定的关联。正是因为大数据具有数据来源差异性、高维性及稀疏性等特点,在对于多个
论文部分内容阅读
21世纪是大数据的时代,计算机技术飞速进步,数据的获取和储存都变得十分便利,数据的数量和形式都不可同日而语,很多部门每天都有巨大数量、不同形式的数据产生。大数据是由主体、来源和形式都不同的数据合并而成,不同数据集由于数据来源不同,彼此之间存在一定的差异性,但研究同一课题时,同样的解释变量和被解释变量在不同数据集之间又存在一定的关联。正是因为大数据具有数据来源差异性、高维性及稀疏性等特点,在对于多个来源的数据集进行分析时,需要准确挖掘出数据集间的异质性(heterogeneity)和同质性(homogeneity)并实现精准的预测效果是大数据分析的目标与挑战之一。目前多源数据分析已经在生物统计、个人征信等领域有了研究与应用,而对于文本分类问题,同样面临需要处理多个数据源的问题,比如针对用户的个性化垃圾邮件识别,针对多领域的情感分类任务等等。国内外关于文本分类的研究已经有很多,主流方法是在进行一定的特征工程后,基于统计学、机器学习等方法建立的分类模型,而且视实际问题而进行不同的处理,建立的模型都能够较准确的预测所研究的问题,而且模型都比较稳定效果较好的有支持向量机、boosting等方法。但是很少有学者意识到多源数据对于文本分类问题的同样存在着影响并在此基础上进行研究。本文在原始支持向量机的基础上,借助多源数据整合分析方法。提出组惩罚下的支持向量机模型,在Composite MCP(Minimax Concave Penalty)惩罚的基础上添加Sign-based惩罚,鼓励数据集间共同变量的系数符号相似,尽可能提取变量组内同时提取数据集之间的异质性和同质性,构建cMCPs(cMCP惩罚+Sign-based惩罚)-SVM模型,并且在模拟数据和实证当中的文本数据中分别进行模拟分析和实证分析。本文使用的方法属于双层变量选择方法,利用组坐标下降法求解最优化问题,并以样本外预测准确率(Accuracy)、真正例率(TPR)和AUC(Area Under Curve)值作为评价模型分类效果的标准。在三组模拟实验中,将cMCPs-SVM模型同cMCP-SVM模型、分数据集MCP-SVM模型进行对比,并从变量选择效果和分类效果两方面进行评价,发现cMCPs的支持向量机模型具有优势,且数据集内部相似性越大优势越明显。
其他文献
本文以包头五当召通用机场为例,针对山区机场建设存在的高填方等地基处理问题开展了系统研究,就本项目工程解决了填方高度大于20m的大石块、土石混合材料高填方地基加固材料的选配、分层填筑方法和强夯加固施工参数以及处理后地基检测方法等一系列关键问题。强夯法对于地基处理具有工艺简单、施工速度快、节省材料及工程造价等许多优点,但相关方面的理论研究相对较少,设计计算还处于由经验和定性的基础上,因此,通过对石拐五
长期以来,中国经济虽稳步增长,但近年来被两大难题所困扰:其一、环境污染;其二、产能过剩。其中,制造业又是两大难题表现最为普遍,程度较为严重的行业。诸如钢铁、水泥、玻璃、金属冶炼等原材料行业,是名副其实的严重环境污染和严重产能过剩并存的“双重”行业,极大制约了中国制造业的转型升级以及经济的健康发展。实际上,环境污染和产能过剩为一个问题的两个方面,联系紧密。环境监管在有力约束制造业上游“双重”行业的同
同时同频全双工在相同时隙和频率上收发信号,增加带宽利用率的同时也带来不可避免的同频自干扰问题,数字自干扰抑制技术作为数字域手段被采用。数字自干扰抑制主要有频域抑制和时域抑制两种,针对室内5G场景,多径丰富,考虑可实现性,需要研究低复杂度的数字自干扰抑制问题。其次,室内存在人员多,活动多的特点,导致信道变化快的情况,要求数字自干扰抑制具有较好的实时性。针对上述两个问题,论文具体研究如下:第一,解决低
白菜、甘蓝和甘蓝型油菜等作物作为我们国家北方最常见的蔬菜和油料作物,非生物胁迫例如干旱、高盐等都对作物的质量和产量都造成非常严重的影响。ABA(Abscisic acid)即脱落
生存分析是当今热门的统计学分支,它是分析生存现象和响应时间数据及其规律的一类统计分析方法。生存分析的研究通常是针对所研究的事物建立相应的模型,通过数据特征进行生存
由于风险投资中存在着高度不确定性和严重的信息不对称,这会产生风险投资家(VC)和风险企业家(EN)之间的委托代理问题,能否有效解决这些问题将直接关系到风险投资的成败,因此,制定合理的契约机制是保证风险投资顺利进行的核心。在此背景下,我们基于原有的研究对风险投资委托代理模型进行了改进设计。首先,我们构建了一个基于EN管理努力与创新努力视角下的基础模型。通过分析我们认为,VC通过改变EN激励系数来影响
随着全球经济和资本市场的蓬勃发展,股权质押作为一种新的融资方式越来越受到大股东的青睐,股权质押是指出质人以其所拥有的股权作为质押标的物而设立的质押,在质押过程中,股东在将股权价值变现的同时仍然保留了控制权,并因此受到了广大股东的欢迎。然而,股权质押并非是毫无缺陷的,不仅会使得控制权和现金流权分离,这种两权分离构成了掏空的诱因,并在能够使控股股东保有控制权的情况下方便的使用其他掏空手段进一步实施利益
近年来,船舶污染物的排放问题受到越来越多的关注。船舶排放是主要的大气污染源之一,船舶排放的大气污染物中,主要包括氮氧化物、硫氧化物和颗粒物等。设立船舶排放控制区(Em
随着三维建模和三维扫描技术的不断成熟,三维模型的获取变得越来越容易。相对于平面的二维图像,立体的三维模型能够给人更直观的视觉感受,符合人类的认知习惯,被广泛地应用于
自我国改革开放以来,国民经济飞速发展,我国职业体育也随之迅速发展,职业体育作为体育经纪行业的根基与土壤,其良好的发展势态也标志着我国体育经纪行业进入了新的发展时期。