您确定要删除吗?

取消
首页 算法大全 应用模型 分析软件 算法学院数据中心 关于本站
在线咨询
400-820-6981
意见反馈
返回顶部

生存分析

时间序列是指将某一现象所发生的数量变化,依时间的先后顺序排列,以揭示随着时间的推移,这一现象的发展规律,从而用以预测现象发展的方向及其数量。

时间序列可分为:水平型时间序列、季节型时间序列、循环型时间序列、直线趋势型时间序列和曲线趋势型时间序列。

1)水平型:又称为稳定型时间序列或平稳型时间序列。这是因为这种数据走势无倾向性,不增不减,总是在某一个水平上下波动,同时这种波动也是无规律性。如日用必需品的销售量,某耐用消费品的合格率、返修率等等。

2)季节型:序列的走势按时间发生周期性的变化,即在某段时间后序列值逐步向上,到顶峰后逐步向下,后来又逐步向上,周而复始。如与季节气候有关的季节型商品的销售量等。

3)循环型:循环型时间数列的走势也呈周期性变化,但他不是在一个不变的时间间隔中反复出现,且每一周期长度一般都有若干年。通常呈循环型时间数列的有期货价格、商业周期等等。

4)直线趋势型:序列显示出一定的倾向性,即在一段时间内呈现逐步增加或逐步减少的趋势。如某段时间的人均收入、商品的销售量等等。

5)曲线趋势型:序列走势也具有倾向性,会逐渐转向,包括顺转和逆转,但不发生周期性的变化,时间序列后序值增加或减少的幅度会逐渐扩大或缩小。如某商品从进入市场到被市场淘汰的销售量变化等。

一个典型的时间序列可分为四个部分:趋势、季节、周期和随机波动。趋势是数据在一段时间的逐渐向上或向下的波动。季节是数据自身经过一定周期的天数,周数,月数或季数的不断重复性。周期为数据每隔几年重复发生的时间序列形式,他们一般与经济周期相关,并对短期经营分析与计划起重要作用。随机波动是由偶然、非经常性原因引起的数据变动,它们没有可识别的形式。

时间序列分析力求以历史数据为基础预测未来,其中包含很多种预测的模型;如移动平均法、指数平滑法、ARIMA法、季节解构法等。在实际的应用中选择哪种模型预测取决于:预测的时间范围;能否获得相关数据;所需的预测精度;预测预算的规模;合格的预测人员等。

1算法描述

在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某种机器的使用寿命等。这种分析的特点是追踪研究的对象都要经过一段时间,而且经常会碰到出于某种原因无法继续追踪的情况。生存分析就是用来研究这段追踪时间的分布规律以及相关因素的一种统计分析方法。

常用的生存分析方法包括寿命表法、Kaplan-Meier方法和比例风险(Cox)模型;主要内容有:1)描述生存过程。研究生存时间的分布特点,估计生存率及平均存活时间,绘制生存曲线等,根据生存时间的长短,可以估计算出各个时点的生存率,并根据生存率来估计中位生存时间,也可以根据生存曲线分析生存特点,一般使用寿命表法和K-M法。2)比较生存过程。可以通过生存率及其标准误差对各样本的生存率进行比较,以探讨各组间的生存过程是否存在差异,一般用Log-rank检验和Breslow检验。3)分析危险因素。通过生存分析模型来探讨影响生存时间和终点事件的保护因素和不利因素,因素作用的大小及方向,相对危险度的大小,基本使用Cox回归模型。4)建立数学模型。建立最终的数学模型,也是通过Cox回归模型完成。

2相关应用

生存分析就是根据试验或调查得到的数据,对生物或人的生存时间进行分析和推断。和任何其它数学方法一样,生存分析的方法和理论有广泛的应用,不限于生物学和医学领域,而且可应用于工程科学(如可靠性工程)、社会学、心理学、经济学、保险精算等等领域。

“生存时间”可以作广泛的理解,可以指自然界、人类社会学或技术过程中某种状态的持续时间。生存分析含有许多实用的方法和丰富的理论。随着医疗实践、工程实践及其它领域的推动,不断有新的统计方法出现,应用范围越来越广。

3参考资料

生存分析方法可分为描述法、参数法、半参数法和非参数法。描述法根据样本观测值提供的信息,直接用公式计算出每一个时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或制图的形式显示生存时间的分布规律。参数法根据样本观测值来估计假定的分布模型中的参数,获得生存时间的概率分布模型。半参数法不需要对生存时间的分布作出假定,但是却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响,最著名的就是Cox回归。非参数法估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验。根据实际常用的方法可分为:寿命表法、Kaplan-Meier法和Cox比例风险模型。

1)寿命表法

基本思路是:确定等距的时间间隔,求出个体在治疗前后各时期的生存概率,根据概率乘法法则,将各时期生存概率相乘,即得到自观察开始到各时点的生存函数并做生存曲线。因此,当资料是按照固定的时间间隔收集(比如一个月随访一次)时,随访的结果只有该年或该月期间的若干观察人数、发生失效事件的人数(即出现预期观察结果的人数)和截尾人数(删失人数),每位患者的确切生存时间无法知道,此时就应当使用寿命表法来分析。这也称为分组资料的生存分析。

2)乘积极限法(K-M法)

K-M法适用于小样本资料;基本思路是:将生存时间从小到大排序,计算不同时间的死亡概率和生存概率,然后采用条件概率及概率的乘法原理计算生存函数,并做生存曲线。

K-M算法模型中包含的变量有:某一组案例总数目;观察时间;生存状态;累积生存率。

某一组的案例总数目为n,k为观察时间点数目,di为第i个时间点的失效事件数目,ni为第i个时间点的观察案例数目,入i为第i个时间点的删失事件数目。

则累积生存率为

=,;如果,则CSi=0;

累积生存率的标准误:

SECSl=CSl

累积失效事件数目:

相应时间的剩余数目:

平均生存时间:

中位生存时间:终结事件数达到输入数据一半的时间。

3)Cox比例风险模型

Cox比例风险模型是一种半参数模型,可以分析多个因素对生存时间的影响,且不要求数据服从特定的分布,是比较全面的一种分析方法。

Cox回归模型的基本表达式为:

该算法主要是估计上式的Beta值。事先假设:数据分为m层;同一层的个体有同一比例风险函数;同一层的回归变量有相同的效应。

通过计算估计偏似然函数计算Beta的值,其中偏似然函数可以定义为:

其中:

dj是生存时间等于tjt的所有个体的权重和(个数),Sjt是那些djt个个体的回归变量x的权重和,wl是个体 I的权重(个数), Rjt是第j层tji处存活且没有被截尾的个体的集合, xl是每层中所有生存数据(包括截尾数据)的协变量与它们对应的权重的乘积和。

4实例

示例数据为某研究者想要研究肺癌的四种亚型的生存事件有无差别,收集了68各肺癌病例的数据;其中类型1表示腺癌,类型2表示大细胞癌,类型3表示小细胞癌,类型4表示鳞癌。生存时间:单位为天数;健康指数:病人入院时的身体健康指数,取值0~100之间;时间间隔:为从诊断为肺癌到开始治疗的时间间隔,单位为月;性别:1代表男,2代表女;生存状态:0=失访,1=死亡。如果希望能同时筛选出其他对生存时间有影响的变量,使用比例风险模型来进行计算。

以下为截取的部分数据,我们将以这部分的数据来检验比例风险模型的分析思路,其中的计算不给于详细的过程,只给出相应变量的统计量数值。

类型 生存时间 健康指数 时间间隔 年龄 性别 生存状态
1 7 40 4 58 1 1
1 8 50 5 66 1 1
1 18 40 5 69 2 1
1 19 50 10 42 1 1
1 24 40 2 60 1 1
1 31 80 3 39 1 1
1 36 70 8 61 1 1



。。。


4 242 50 1 70 1 1
4 283 90 2 51 1 1
4 357 70 13 58 1 1
4 389 90 2 62 1 1
4 467 90 2 64 1 1
4 587 60 3 58 1 1
4 991 70 7 50 2 1
4 999 90 12 54 2 1

计算出来的各变量的均值为:健康指数=57.9265,时间间隔=8.8971,年龄=59.1176;

变量Beta的估计系数为:健康指数=-0.0415,时间间隔=0.0066,年龄=-0.0182,性别=-0.482;

估计的生存时间,按照生存率和累计风险率得到的结果分析,这个样本数据的生存时长为将近一年。

5输入输出

输入变量类型:整型

1)该算法用于分析分组生存资料,求出不同组段时的生存率,因此一般要求进行权重预操作,即有一个表示个体数目的字段,个体数目必须是整值;

2)要求输入时间变量,包括最大观察时间点和步长,为整数值;

3)要求输入状态变量,而且要定义事件终结值,为单值或范围值;

输入数据尺度:标量型,名义型

输出结果:各类指标的统计量数值。

6优缺点

1)描述法的优点:方法简单且对数据分布无要求;

缺点:不能比较两组或多组生存时间分布函数的区别,不能分析危险因素,不能建立生存时间与危险因素之间的关系模型。

2)参数法的优点:可以估计生存函数,可以比较两组或多组生存分布函数,可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型;

缺点:需要事先知道生存时间的分布。

3)半参数法的优点:可以估计生存函数,可以比较两组或多组生存分布函数,可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型,不需要事先知道生存时间的分布。

4)非参数法的优点:可以估计生存函数,可以比较两组或多组生存分布函数,可以分析危险因素对生存时间的影响,对生存时间的分布没有要求;

缺点:不能建立生存时间与危险因素之间的关系模型。

确定