2024年9月bootstrap方法重复抽样(统计学(45)-利用Bootstrap法估计置信区间)

 更新时间:2024-09-21 09:37:54

  ⑴bootstrap方法重复抽样(统计学(-利用Bootstrap法估计置信区间

  ⑵统计学(-利用Bootstrap法估计置信区间

  ⑶我们刚才提到了均数、率的置信区间的计算,这些都服从一定的分布(t分布、正态分布,因此在标准误前乘以相应的t分值或Z分值。但如果我们想知道中位数的置信区间,那该怎么办呢?中位数一般用在偏态分布的情况下,这时候就不好确定其分布面积.所对应的分值了。是不是就没有方法了呢?事实上,不仅中位数,还有其他参数同样面临这一问题。当找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap法。Bootstrap估计是利用重复抽样的方法对参数进行估计的,它是在计算机普及以后才开始发展起来的,因为如果没有计算机辅助进行重复抽样,靠手工是极其麻烦的。

  ⑷统计最核心的思想是什么?我想现在可以理解为就是估计,部分估计总体假定我们从某所学校中随机抽样调查了名学生的身高,打算通过这人的身高估计该学校所有学生(如人的身高。

  ⑸Bootstrap估计的思路就是从这人中重复抽样。具体来说,以这人作为抽样框,做次抽样(当然也可以是次、次、甚至次等,视具体情况而定,有放回抽样!

  ⑹根据Bootstrap抽样,可以对每次抽样都计算出一个均数。(然后以这个均数作为原始数据,求出这个均数的均数为.,这就是利用Bootstrap法进行的点估计。(对于%置信区间,则分别计算出第.%和第.%的分位数,如本例为.和.,这也就是估计的总体均值的%置信区间,与常规方法计算的%置信区间比较接近。

  ⑺百分位数法简单易懂,无须复杂计算,只要有了Bootstrap样本及每个样本的统计量,找到相应的百分位数即可。(它必须满足一个潜在的假定,即Bootstrap抽样分布是样本统计量分布的一个无偏估计,当有偏的时候,估计结果可能也会有偏,因此会用百分位数t法。(t法对于%置信区间,确定.和.的百分位数,则%置信区间为:

  ⑻传统的参数推断主要依赖中心极限定理,因为它规定在大样本条件下,抽样分布都是服从正态分布的。但对于某些抽样分布未知或难以计算的统计量,Bootstrap法就十分有用了。

  ⑼事实上,即使对于参数推断,Bootstrap法也可以显示出与其同样的功效。(计算两个中位数之差的置信区间采用Bootstrap法的思路是:从样本数据中重复抽取次样本,每次抽取n例。在每个Bootstrap样本中,计算两组的中位数之差,最终可计算出个中位数之差。然后根据这个中位数之差,计算出它们的第.百分位数和第.百分位数,这就是两个中位数之差的%置信区间。如果该置信区间不包含,则可以认为两组差异有统计学意义;否则认为两组差异无统计学意义。(计算回归系数的置信区间假定样本数据有因变量y和自变量x,采用Bootstrap法的思路是:从样本数据中重复抽取次样本,每个样本都包含y和x,每次抽取n例。在每个Bootstrap样本中,求出y=a+bx的系数a和b(当然我们关心的是回归系数b)。最终可计算出个回归系数b。然后根据这个回归系数,计算出它们的第.百分位数和第.百分位数,这就是回归系数的%置信区间。如果该置信区间不包含,则可以认为该回归系数有统计学意义;否则认为该回归系数无统计学意义。(,我不懂,是无效假设吗?)回归分析的Bootstrap抽样不应进行个体数据的重复抽样,而是要对误差进行重复抽样。因为他们认为,自变量是固定的,只有误差项才是随机的。(这句话,我也没看懂

  ⑽什么是bootstrap方法

  ⑾网格系统的实现原理,是通过定义容器大小,平分份(也有平分成份或份,但份是最常见的),再调整内外边距,最后结合媒体查询,就制作出了强大的响应式网格系统。Bootstrap框架中的网格系统就是将容器平分成份。

  ⑿bootstrap优缺点:

  ⒀bootstap最近发布了bootstrap,拥有了box-flex布局等更新,紧跟最新的web技术的发展

  ⒁比较成熟,在大量的项目中充分的使用和测试

  ⒂拥有完善的文档,使用起来更方便

  ⒃有大量的组件样式,接受定制

  ⒄如果有自己特殊的需求,就需要重新定制样式,如果一个网站中有大量的非bootstrap“风格”的样式存在,那么你就需要做大量的css重写,因此也就失去了使用框架的意义。

  ⒅会有兼容问题,虽然网上存在很多兼容IE的办法,但需要引入其他文件,有些还不小,势必导致加载速度变慢,影响用户体验。

  ⒆《R语言实战》自学笔记-重抽样和自助法

  ⒇许多实际情况中统计假设(假定观测数据抽样自正态分布或者其他性质较好的理论分布并不一定满足,比如数据抽样于未知或混合分布、样本量过小、存在离群点、基于理论分布设计合适的统计检验过于复杂且数学上难以处理等情况,这时基于随机化和重抽样的统计方法就可派上用场。

  ⒈置换检验(Permutationtest),也称随机化检验或重随机化检验,是Fisher于世纪年代提出的一种基于大量计算(putationallyintensive,利用样本数据的全(或随机排列,进行统计推断的方法,因其对总体分布自由,应用较为广泛,特别适用于总体分布未知的小样本资料,以及某些难以用常规方法分析资料的假设检验问题。

  ⒉提出原假设,比如XX处理后结果没有变化、计算统计量,如两组的均值之差,记作t、将所有样本放在一起,然后随机排序进行分组,再计算其统计量t、重复第步骤,直至所有排序可能性都齐全(比如有A组有n样本,B组有m样本,则总重复次数相当于从n+m中随机抽取n个的次数,得到一系列的统计量(t-tn、最后将这些统计量按照从小到大排序,构成抽样分布,再看t是否落在分布的置信区间内(如%置信区间,这时候可计算一个P值(如果抽样总体次统计量中大于t的有个,则估计的P值为/=.,落在置信区间外则拒绝原假设、如果第步骤是将所有可能性都计算了的话,则是精确检验;如果只取了计算了部分组合,则是近似结果,这时一般用蒙特卡罗模拟(MonteCarlosimulation的方法进行置换检验、置换检验和参数检验都计算了统计量,但是前者是跟置换观测数据后获得的经验分布进行比较,后者则是跟理论分布进行比较。

  ⒊请牢记:置换检验都是使用伪随机数来从所有可能的排列组合中进行抽样(当做近似检验时。因此,每次检验的结果都有所不同。

  ⒋coin包提供了一个进行置换检验的一般性框架。通过该包,你可以回答如下问题。?响应值与组的分配独立吗??两个数值变量独立吗??两个类别型变量独立吗?

  ⒌表-列出来的每个函数都是如下形式:function_name(formula,data,distribution=)其中:?formula描述的是要检验变量间的关系。示例可参见表-;?data是一个数据框;?distribution指定经验分布在零假设条件下的形式,可能值有exact,asymptotic和approximate。若distribution=“exact“,那么在零假设条件下,分布的计算是精确的(即依据所有可能的排列组合。当然,也可以根据它的渐进分布(distribution=“asymptotic“或蒙特卡洛重抽样(distribution=“approxiamate(B=#)“来做近似计算,其中#指所需重复的次数。distribution=“exact“当前仅可用于两样本问题。

  ⒍传统t检验表明存在显著性差异(p《.,而精确检验却表明差异并不显著(p》.。

  ⒎第章我用自己的数据进行了t检验,对比一下传统t检验和置换检验,结果如下:

  ⒏两种检验方式下结果都是显著的

  ⒐Wilcoxon-Mann-WhitneyU检验

  ⒑coin包规定所有的类别型变量都必须以因子形式编码。wilcox.test()默认计算的也是精确分布。

  ⒒K样本检验的置换检验

  ⒓通过chisq_test()或cmh_test()函数,我们可用置换检验判断两类别型变量的独立性。当数据可根据第三个类别型变量进行分层时,需要使用后一个函数。若变量都是有序型,可使用lbl_test()函数来检验是否存在线性趋势。

  ⒔卡方独立性检验的置换检验

  ⒕你可能会有疑问,为什么需要把变量Improved从一个有序因子变成一个分类因子?(好问题!这是因为,如果你用有序因子,coin()将会生成一个线性与线性趋势检验,而不是卡方检验。

  ⒖结果解读:两种检验下p值都是小于.,说明Treatment和Improved之间相互不独立

  ⒗结果解读:p值均为,表明nitrogen和variety相互独立。

  ⒘spearman_test()函数提供了两数值变量的独立性置换检验。

  ⒙当处于不同组的观测已经被分配得当,或者使用了重复测量时,样本相关检验便可派上用场。对于两配对组的置换检验,可使用wilcoxsign_test()函数;多于两组时,使用friedman_test()函数。

  ⒚lmPerm包可做线性模型的置换检验。比如lmp()和aovp()函数即lm()和aov()函数的修改版,能够进行置换检验,而非正态理论检验。lmp()和aovp()函数的参数与lm()和aov()函数类似,只额外添加了perm=参数。perm=选项的可选值有“Exact“、“Prob“或“SPR“。Exact根据所有可能的排列组合生成精确检验。Prob从所有可能的排列中不断抽样,直至估计的标准差在估计的p值.之下,判停准则由可选的Ca参数控制。SPR使用贯序概率比检验来判断何时停止抽样。注意,若观测数大于,perm=“Exact“将自动默认转为perm=“Prob“,因为精确检验只适用于小样本问题。

  ⒛简单线性回归的置换检验

  多项式回归的置换检验

  当两种方法所得结果不一致时,你需要更加谨慎地审视数据,这很可能是因为违反了正态性假设或者存在离群点。

  值得注意的是,当将aovp()应用到方差分析设计中时,它默认使用唯一平方和法(SAS也称为类型III平方和。每种效应都会依据其他效应做相应调整。R中默认的参数化方差分析设计使用的是序贯平方和(SAS是类型I平方和。每种效应依据模型中先出现的效应做相应调整。对于平衡设计,两种方法结果相同,但是对于每个单元格观测数不同的不平衡设计,两种方法结果则不同。不平衡性越大,结果分歧越大。若在aovp()函数中设定seqs=TRUE,可以生成你想要的序贯平方和。

  你可能已经注意到,基于正态理论的检验与上面置换检验的结果非常接近。在这些问题中数据表现非常好,两种方法结果的一致性也验证了正态理论方法适用于上述示例。当然,置换检验真正发挥功用的地方是处理非正态数据(如分布偏倚很大、存在离群点、样本很小或无法做参数检验等情况。不过,如果初始样本对感兴趣的总体情况代表性很差,即使是置换检验也无法提高推断效果。置换检验主要用于生成检验零假设的p值,它有助于回答“效应是否存在”这样的问题。不过,置换方法对于获取置信区间和估计测量精度是比较困难的。幸运的是,这正是自助法大显神通的地方。

  所谓自助法,即从初始样本重复随机替换抽样,生成一个或一系列待检验统计量的经验分布。无需假设一个特定的理论分布,便可生成统计量的置信区间,并能检验统计假设。倘若你假设均值的样本分布不是正态分布,该怎么办呢?可使用自助法。()从样本中随机选择个观测,抽样后再放回。有些观测可能会被选择多次,有些可能一直都不会被选中。()计算并记录样本均值。()重复和一千次。()将个样本均值从小到大排序。()找出样本均值.%和.%的分位点。此时即初始位置和最末位置的第个数,它们就限定了%的置信区间。

  boot包扩展了自助法和重抽样的相关用途。你可以对一个统计量(如中位数)或一个统计量向量(如一列回归系数)使用自助法。

  一般来说,自助法有三个主要步骤。()写一个能返回待研究统计量值的函数。如果只有单个统计量(如中位数,函数应该返回一个数值;如果有一列统计量(如一列回归系数,函数应该返回一个向量。()为生成R中自助法所需的有效统计量重复数,使用boot()函数对上面所写的函数进行处理。()使用boot.ci()函数获取第()步生成的统计量的置信区间。

  主要的自助法函数是boot(),它的格式为:bootobject《-boot(data=,statistic=,R=,...)

  boot()函数调用统计量函数R次,每次都从整数:nrow(data)中生成一列有放回的随机指标,这些指标被统计量函数用来选择样本。统计量将根据所选样本进行计算,结果存储在bootobject中。

  你可以用bootobjectt和bootobjectt来获取这些元素。

  一旦生成了自助样本,可通过print()和plot()来检查结果。如果结果看起来还算合理,使用boot.ci()函数获取统计量的置信区间。格式如下:

  boot.ci(bootobject,conf=,type=)

  type参数设定了获取置信区间的方法。perc方法(分位数展示的是样本均值,bca将根据偏差对区间做简单调整。

  获得车重和发动机排量%的置信区间

  置换检验和自助法并不是万能的,它们无法将烂数据转化为好数据。当初始样本对于总体情况的代表性不佳,或者样本量过小而无法准确地反映总体情况,这些方法也是爱莫能助。

  【SPSS教程】教你看懂PROSCESS中介模型报表

  在统计的世界,我们面临的总是只有样本,Wherethereissample,thereisuncertainty,正因为不确定性的存在,才使统计能够生生不息。传说统计学家、数学家和物理学家乘坐一列火车上旅行,路上看到草原上有一只黑羊,统计学家说,“基于这个样本来看,这片草原上所有的羊都是黑的”,数学家说,“只有眼前这只羊是黑的”,物理学家则说,“你们都不对,只有羊的这一面是黑的”。这是关于统计和其他学科的一个玩笑话,说明了统计的一些特征,比如基于样本推断总体。一般情况下,总体永远都无法知道,我们能利用的只有样本,现在的问题是,样本该怎样利用呢?Bootstrap的奥义也就是:既然样本是抽出来的,那我何不从样本中再抽样(Resample?Jackknife的奥义在于:既然样本是抽出来的,那我在作估计、推断的时候“扔掉”几个样本点看看效果如何?既然人们要质疑估计的稳定性,那么我们就用样本的样本去证明吧。Bootstrap方法最初由美国斯坦福大学统计学教授Efron在年提出。作为一种崭新的增广样本统计方法,Bootstrap方法为解决小规模子样试验评估问题提供了很好的思路。很多人会对Bootstrap这个名字感到困惑。英语Bootstrap的意思是靴带,来自短语:“pulloneselfupbyone′sbootstrap”,世纪德国文学家拉斯伯(RudolfErichRaspe的小说《巴龙历险记(或译为终极天将》(AdventuresofBaronMunchausen)记述道:“巴龙掉到湖里沉到湖底,在他绝望的时候,他用自己靴子上的带子把自己拉了上来。”现意指不借助别人的力量,凭自己的努力,终于获得成功。在这里“bootstrap”法是指用原样本自身的数据抽样得出新的样本及统计量,根据其意现在普遍将其译为“自助法”。现在想像一个可以分析随机程度的理想状态:假设我们有一台神奇的机器,这台机器拥有所有台湾博士生的薪水资料,因此我们可以不断从这台机器产生出一笔又一笔名随机台湾博士生的薪水资料。每次的一笔名博士生的资料我们就能得到一次新的估计量。假设我们用这台机器次我们就能得到个中位数的估计量,利用这个中位数估计量就能分析出这“样本中位数“估计的变异大小。但在现实生活我们没有这台机器我们只有一笔资料,所以无法用这个方式去分析出估计式的随机大小。不过Bootstrap提供了一个机制可以逼近这台机器的运作原理!Bootstrap就是从给定的资料里面再次重复抽样出一笔一样大小的资料(允许同样的一个资料点被抽到很多次:samplewithreplacement)。每一次Bootstrap都会产生一笔新的资料而我们可以用这笔新资料去得到一个新的估计式,不断地使用Bootstrap我们就可以得到好几个估计值,利用这些Bootstrap估计值我们就能计算估计式的变异大小。Bootstrap这和那台理想机器的机制一样:那台机器是从“母体“去重复抽样而我们现在是从“样本“去重复抽样,你可以想像当样本数很大时样本数的分配与母体的分配非常相近,因此从两边抽样出来的误差大小应该也会相近因此Bootstrap是可行的。在用bootstrap的话就是在回归分析里面选择bootstrap选项即可,你可以自己设置抽样次数,通常抽样至少要次,这时候你分析a和b参数的显著性就不看原来的显著性检验结果(sig了,而是看bootstrap的置信区间,如果置信区间没有覆盖,就是显著的。bootstrap抽样功能需要比较新的spss版本才可以PROSCESS中介模型。(??模式资讯包含所使用的变量,及样本数。(???X?对?M?进行回归分析在?PROCESS?的模式分析里,会依照架构图所有变量的因果关系,执行数个回归分析。(???X+M?对?M?进行回归分析(???X+M+M?对?M?进行回归分析(???Totaleffectmodel由于选项里有勾选?Totaleffectmodel?,因此会执行?X?对?Y?的简单回归,当模式里未存在任何中介变项时,?X?对?Y?的回归结果即为总效果。LLCI、ULCI分别是置信区间的最低和最高值,一般是%置信区间。如果用bootstrap法做的话,是否显著不看p值,而看置信区间是否包含(一个负一个正,就是包含,否则不包含,包含则不显著。(???TotaleffectofXonY当模式里未存在任何中介变项时,?X?对?Y?的回归结果即为总效果。(???DirecteffectofXonY承第??点,在?X?对?Y?的整体影响效果下,当在模式中考虑了控制变项,可以把总效果拆解为直接效果与间接效果,所谓直接效果是指?X?不需透过任何一个中介变项对?Y?的影响效果,而间接效果则刚好相反,因此从这边可知,在?X?对?Y?的整体效果?.?中,有?.?属于直接影响效果。(???Indirecteffect(s)ofXonY?(?Total?承第??点,总效果扣除掉直接效果后,剩下的全部属于间接效果?.?,其信赖区间未经过??,表示间接总效果是达显著水准的。(???Indirecteffect(s)ofXonY而在本例所介绍的模式中,间接效果共包含??条路径(请参见本篇第一页导论,报表中也针对这??条路径个别进行考验,其中?Ind?的信赖区间未经过??,表示这条路径的间接总效果是达显著水准的,至于?Ind?为哪一条中介效果路径,于报表下方会再交代。(???pareindirecteffects配合操作的第??点,设定不同中介路径间的两两效果比较,此部分也必须利用信赖区间进行判断,当信赖区间经过??时,则代表两条中介路径的效果并无明显的差异,至于每一项检验所进行比较的路径,必须透过代号和报表下方的注解进行比对。(???Indirecteffectkey用来进行第??点与第??点进行检验时,比对说明为哪一条中介路径。

  bootstrap重抽样怎么实现

  你理解的“自适应”是页面随着屏幕“缩放/zoom”?屏幕缩小,所有input/button也成比例缩小?那不是自适应。试想按钮缩到px宽,用户怎么点啊,那就近乎“不可用”了。自适应地、在需要的时候换行,就是为了解决“不可用”:p显示器能用,*的爪机仍然能点得中(而不必大范围拖动/scroll。结论:换行是正确的表现;如果布局确实需要保证一行,就设置包含这坨控件的容器的最小宽度。另:建议给按钮们加icon(如fontawesome,改善体验,读图比读字消耗的脑细胞少。将尽可能多的内容、功能挤在一起已经不是最佳实践/潮流了。

  R语言实现bootstrap和jackknife检验方法

  写在最前面:首先需要说一下,本文的bootstrap和jackknife都算是蒙特卡罗方法(MonteCarlomethod)的一种。应用广泛的的MCMC链(马尔可夫链蒙特卡洛方法;MarkovchainMonteCarlo)也是蒙特卡罗与马尔可夫链的结合。简单来说,蒙特卡罗方法就是从已知样本的分布中随机抽取新的样本集进行评估,然后放回,再次抽取的方法。根据具体方法的不同,抽取样本集的手段也不同。

  bootstrap抽样方法将观测到的样本视为一个有限的总体,是唯一的信息来源,从中有放回的随机抽样来评估总体特征,以及对抽样总体进行推断统计。bootstrap也分参数bootstrap和非参数bootstrap,前者的分布已完全知道。但在生信领域一般没有这种情况。所以下面讨论的是非参数bootstrap。

  直接上例子:假设现在有bootstrap包中的law数据集如下,

  现在我们要计算LSAT成绩(美国法学入学考试和GPA之间的相关系数。但因为样本量太少了,所以我们使用bootstrap重复抽样评估其标准误。

  次循环抽样后,计算得se.R标准误为.得到如下的图:

  e次循环抽样后,计算得se.R标准误为.得到如下的图:

  如果用bootstrap包的bootstrap函数会快一些:

  bootstrap函数的用法:bootstrap(抽取样本范围,重复次数,进行bootstrap的函数,bootstrap的数据集)

  偏差定义为bootstrap结果(多个数值与原数据统计结果(单个数值的均值:

  得到bias大约为.,比较小

  换一个包,boot包

  这里用了三种方法计算置信区间:basic、正态和百分数。样本相关系数分布接近正态,则正态置信区间接近百分数区间。此外还有“BetterBootstrapConfivendenceInterval”更好的bootstrap置信区间,称为BCa区间,使用偏差和偏度对百分数置信区间进行矫正。设置type=“bca“即可。

  简单的说,bootstrap是从原有真实样本中有放回地抽取n个。jacknife就是每次都抽取n-个样本,也就是每次只剔除一个原样本。

  同样地,如果以bootstrap包中的law数据进行演示:

  Jackknife计算的bias为-.。这里jackknife的偏差公式相比于bootstrap有一个(n-)系数,推导就不写了。

  标准误se为.,与bootstrap得出的比较接近。

  当统计量不太平滑的时候,Jacknife有很大误差。比如说对中位数进行统计,其变化很大。在进行Jacknife之后最好再跑一次bootstrap,看看是否相差很大。

  居然还能这么嵌套着玩,针对每次bootstrap形成的数列向量计算jackknife的标准差,这样可以看出bootstrap若干次取样之间的差异。

  算出来分别为.和.。后者较小,表面bootstrap取样之间的variance较小。

  简单来说就是一种数据分割检验的方法,将数据分割为K份,称为“K-fold“交叉检验,每次第i个子集作为测试集来评估模型,其余的用来构建模型。Admixture使用的就是这个原理。Jackknife也属于CrossValidation的应用之一。

  现在我创建一个这样的alignment:

  这棵树长这样,符合遗传距离:

  进行bootstrap:

  phylogeny的bootstrap是对每一个节点都进行bootstrap取样并建树,比如说在号节点,查看其bootstrap子集建的树符合系统发育关系((human,human,human)(human,human,human,human,human))的百分比(不管内部怎么样,先看这个节点。发现Node支持率是(次都符合。而后移到下一个节点,并且只看节点内部的分支支持率是多少。

  其实原理都比较简单,计算bootstrap也会有专门的软件。

  参考资料:中科大张伟平教授课件

  bootstrap回归分析变量有放入的先后顺序吗

  没有。bootstrap方法就是重抽样,因为bootstrap方法使得我们无需分布理论的知识也可以进行假设检验,获得置信区间。当数据来自未知分布,或者存在严重异常点,又或者样本量过小,没有参数方法解决问题时,bootstrap方法将是一个很棒的方法。对于回归分析而言,bootstrap无疑对回归的正态性假设做了极大地放松,使得回归推断越来越好用,也更具有说服力。

  --:一致性指数C-index

  《metacharset=“utf-“》

  C-index,英文名全称concordanceindex,中文里有人翻译成一致性指数,最早是由范德堡大学(VanderbiltUniversity生物统计教教授FrankEHarrellJr年提出,主要用于计算生存分析中的COX模型预测值与真实之间的区分度(discrimination,和大家熟悉的AUC其实是差不多的;在评价肿瘤患者预后模型的预测精度中用的比较多。一般评价模型的好坏主要有两个方面,一是模型的拟合优度(GoodnessofFit),常见的评价指标主要有R方、-logL、AIC、BIC等;

  另外一个是模型的预测精度,顾名思义就是模型的真实值与预测值之间差别大小,均方误差,相对误差等。在临床应用上更注重预测精度,建模的主要目的是用于预测,而C-index它就属于模型评价指标中的预测精度。

  C-index的计算方法是把所研究的资料中的所有研究对象随机地两两组成对子,以生存分析为例,两个病人如果生存时间较长的一位其预测生存时间长于另一位,或预测的生存概率高的一位的生存时间长于另一位,则称之为预测结果与实际结果相符,称之为一致。

  计算C-index=K/M。

  从上述计算方法可以看出C-index在.-之间(任意配对随机情况下一致与不一致刚好是.的概率。.为完全不一致,说明该模型没有预测作用,为完全一致,说明该模型预测结果与实际完全一致。一般情况下C-index在.-.为准确度较低:在.-.之间为准确度中等;而高于.则为高准确度,跟相关系数有点类似。

  光从C-index一个数字上还是很难以衡量到底是准确度高还是低,所以人们就想着用一个统计学检验来说服证明这个高低,正如筛选基因差异是光看差异倍数来判断表达差异还过于武断,此时引入重抽样技术(Bootstrap)来检验预测模型的准确度。Bootstrap是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。

  Bootstrap方法核心思想和基本步骤如下:

  采用重抽样技术从原始样本中抽取一定数量的样本,此过程允许重复抽样。

  根据抽出的样本计算给定的统计量T。

  重复上述N次(一般大于),得到N个统计量T。

  计算上述N个统计量T的样木方差,得到统计量的方差。

  另如果数据集很大的话可以按照不同的比例将数据集拆分,一部分用于建模一部分用于验证。关于交叉验证(Cross-validation,如-fold、-fold等。

  虽然看起来很复杂,但是事实上已经有人做了这些事情,在R中有包可以直接计算一致性指数:Hmisc、pareC,两个包都可以计算c-index。

  用matlab怎么做bootstrap方法和随机抽样

  设数据存放于向量a中,需要重复n次简单随机采样,程序及说明如下:m=length(a);%dimensionidx=ceil(m*rand(,n));%generatenrandomindexbetweenandmb=a(idx);%sampling这个是有放回的抽样,即两次有可能抽到同一个元素,用于Bootstrap方法中简单随机抽样原则上应是有放回的抽样,使用randsample(X,N,)但大多数时候,人们常采用无放回的抽样,对应于randsample(X,N,),对于N《.lenght(X)的情况与有放回抽样的结果相比无太大差别

  抽样分布也称统计量分布、随机变量函数分布,是指样本估计量的分布。样本估计量是样本的一个函数,在统计学中称作统计量,因此抽样分布也是指统计量的分布【】。以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。

  也就是说,我们将抽样分布定义为样本统计量的分布。

  有多种样本统计量:均值,方差,标准差。

  如果说我们有随机变量X,和方差σ,那么的分布(样本平均数的抽样分布)方差为:σ/n

  我们经常使用希腊符号作为参数,使用小写字母作为对应统计量。有时候在文学作品中,你也会看到带有“帽子“的希腊字母,表示这是对应参数的估算。

  下面这个表格提供了一些最常见的参数和对应统计量:

  大数法则表示随着样本容量增加,样本平均数越来越接近总体平均数。

  但是我们首先如何确定样本平均数可以估计总体平均数呢?我们以后如何识别参数与统计量的其他关系呢?

  下面是三种最常见的估计技巧:

  最大似然估计(英语:maximumlikelihoodestimation,缩写为MLE,也称极大似然估计、最大概似估计,是用来估计一个概率模型的参数的一种方法【】。

  上文已经提到,似然函数取得最大值表示相应的参数能够使得统计模型最为合理。

  最大似然估计的做法是:首先选取似然函数(一般是概率密度函数)或概率质量函数,整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数,这样求出的最大值和直接求最大值得到的结果是相同的。似然函数的最大值不一定唯一,也不一定存在。与矩法估计比较,最大似然估计的精确度较高,信息损失较少,但计算量较大。

  贝叶斯估计(Bayesianestimation是利用贝叶斯定理【】结合新的证据及以前的先验概率,来得到新的概率。它提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。

  贝叶斯估计将后验概率(考虑相关证据或数据后,某一事件的条件机率推导为先验概率(考虑相关证据或数据前,某一事件不确定性的机率及似然函数的共同作用结果。贝叶斯推断根据贝叶斯定理计算后验概率:

  针对不同的H数值,只有P(H)和P(E|H)(都在分子会影响P(H|E)的数值。假说的后验概率和其先验概率(固有似然率和新产生的似然率(假说和新得到证据的相容性乘积成正比。

  贝叶斯估计最关键的点是可以利用贝斯定理结合新的证据及以前的先验机率,来得到新的机率(这和频率论推论相反,频率论推论只考虑证据,不考虑先验机率。

  而且贝叶斯估计可以迭代使用:在观察一些证据后得到的后设机率可以当作新的先验机率,再根据新的证据得到新的后设机率。因此贝斯定理可以应用在许多不同的证据上,不论这些证据是一起出现或是不同时出现都可以,这个程序称为贝叶斯更新(Bayesianupdating。

  中心极限定理表示样本容量足够大,平均数的抽样分布越接近正态分布。中心极限定理实际上应用于这些常见的统计量中:

  推论统计在于使用我们收集的数据(样本对更大的总体数据(总体得出结论。

  使用推论统计要求我们对准确代表感兴趣的总体进行取样。

  收集数据的常见方式是调查。然而,根据提问的问题和提问的方式,调查会带有偏见性。这是解决项目时你应该想到的话题。

  Bootstrap方法是非常有用的一种统计学上的估计方法,是斯坦福统计系的教授BradleyEfron【】在总结、归纳前人研究成果的基础上提出一种新的非参数统计方法。【】Bootstrap是可进行统计量区间估计的统计方法,也称为自助法。

  我们往往无法知道总体的参数,因此我们通过抽样来试图对总体的参数进行估计。为此,一种方法是不停的对总体不停的取样,来得出样本统计量的分布。但是,这显然是不可能的。还有两种方法能派上用场:

  对于#,如果你能确定假设成立,即整体服从某一种分布,那么只要计算量在可接受的范围内,就没有问题。比方说,总体服从正态分布,那么样本来自总体,也能以正态分布进行描述,抽样分布为正态分布。然而,当总体分布未知的时候,只能以Bootstrap方法进行分析。

  我们有理由采用#,因为样本是我们仅有的也是最好的关于总体的信息,而且,大多数随机抽取的样本同总体非常的相似。【】

  Bootstrap是放回抽样。这里以一个?来描述其基本过程:

  假设我们有两个金融资产X和Y,我们现在想要合理配置这两个资产,使得其资产组合的风险最小。也就是找到一个α,使得Var(αX+(-α)Y)最小。这个问题几十年前马尔可维茨已经在其投资组合理论里给出了解答,最优的α表达式如下:

  我们发现,通过Bootstrap方法我们竟然不仅可以估计α的值(这点普通方法也可以很容易做到,还可以估计α的auracy也就是其StandardError。这可是只利用原有的样本进行一次估计所做不到的。那么Bootstrap对于分布特性的估计效果究竟如何呢?请看下图:

  左边是真实的α分步,右边则是基于bootstrap方法得到的个α的分布,可以看到,二者是比较相近的,也就是说Bootstrap有着不错的估计效果。而且当重复次数增多,Bootstrap的估计效果会更好。不仅是α的标准差,如果我们想要估计α的中位数、分位数等统计量,也是可以通过Boostrap方法做到的,其整个流程可以用下面一张图诠释:

  本质上,Bootstrap方法,是将一次的估计过程,重复上千次上万次,从而便得到了得到上千个甚至上万个的估计值,于是利用这不止一个的估计值,我们就可以估计α均值以外的其他统计量:比如标准差、中位数等。

  在python中使用random.choice实际上是自助法。无论选择多少次,我们数据集中任何数字的概率保持不变。

  抽样分布【】似然函数【】贝叶斯法则【】最大似然估计【】卡尔·皮尔逊【】MethodofMoments【】统计学-贝叶斯法则:关于先验概率,后验概率,条件概率的概念及他们之间的关系,可以参考这篇文章。【】Bootstrap详解:本文的例子来自于这篇文章。【】布拉德利·埃弗龙【】

您可能感兴趣的文章:

相关文章