统计图是根据统计数字,用几何图形、事物形象和地图等绘制的各种图形,它有直观、形象、生动、具体的特点。统计图可以使复杂的统计数字简单化,便于理解和比较。
统计图的主要特点是:形象具体、简明生动、通俗易懂、一目了然。
主要用途有:表示现象间的对比关系;揭露总体结构;检查计划的执行情况;揭示现象间的依存关系,反映总体单位的分配情况;说明现象在空间上的分布情况。一般采用直角坐标系,横坐标用来表示事物的组别或自变量X,纵坐标常用来表示事物出现的次数或因变量Y。
统计图有许多不同类型的表示方式,应用的领域也各不相同。一般用的较多的图主要包括:线性图、条状图、圆饼图、面积图、盒状图、直方图、排列图、散点图、控制图和关联图。
ROC曲线指受试者工作特征曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标, 是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感度为纵坐标、1-特异度为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。
ROC曲线的主要作用:容易查处任意界限值时对疾病的识别能力;可以选择最佳的诊断界限值,选择最优的分类器。
三相关应用ROC曲线用于评价一个或几个试验的诊断价值是否良好,也可以判断一个分类效果的好坏;观察曲线下面的面积,确定结果的准确度高低。
四参考资料1 ROC曲线—百度百科
2 马克威分析系统使用教程,http://www.tenly.com
五实例下表是一个逻辑回归得到的结果。将得到的实数值按大到小划分成10个个数相同的部分。其正例数为该部分里实际的正类数。也就是说,将逻辑回归得到的结果按从大到小排列。实际正类共有14084个数据,负类共有47713个数据。
百分比 | 实例数 | 正例数 | 1-特异度(%) | 敏感度(%) |
10 | 6180 | 4879 | 2.73 | 34.64 |
20 | 6180 | 2804 | 9.80 | 54.55 |
30 | 6180 | 2165 | 18.22 | 69.92 |
40 | 6180 | 1506 | 28.01 | 80.62 |
50 | 6180 | 987 | 38.90 | 87.62 |
60 | 6180 | 529 | 50.74 | 91.38 |
70 | 6180 | 365 | 62.93 | 93.97 |
80 | 6180 | 294 | 75.26 | 96.06 |
90 | 6180 | 297 | 87.59 | 98.17 |
100 | 6177 | 258 | 100.00 | 100.00 |
首先将前10%的实例都划归为正类,则共有6180个。其中,正确的个数为4879个,占所有正类的 4879/14084*100%=34.64%,即敏感度;另外,有6180-4879=1301个负实例被错划为正类,占所有负类的1301 /47713*100%=2.73%,即1-特异度。以这两组值分别作为x值和y值,得到ROC曲线如下:
六输入输出输入变量类型:数值型,如整型、浮点型、布尔型
输出结果:ROC曲线图
七相关条目分类、准确度、精确性
八优缺点优点:该方法简单、直观,通过图观察分析方法的准确性,可用肉眼作出判断。