谈谈上海张医生讲话中两个数学概念的区别
最近有新闻报道说,美国人均预期寿命在2020年出现急剧下降,并在2021年继续下降:
美国全人群的预期寿命2019年为78.86岁,而2020年为76.99岁,2021年降至76.6岁。
类似的报道去年就有了,美国疾病控制中心的报告还警告“美国人平均预期寿命降幅或达到二战以来的最高值。”
作为对比,有报道说预计到2035年,中国的人均预期寿命达到80岁以上。
于是乎,有人翻出2020年上/海张(文*宏)医生在一次演讲中的话:
因为现在所有美国人的一个新冠死亡数值的中位数值是多少呢,是83岁不到一点,但是美国整个国家的期望寿命,也是83岁不到一点。所以现在新冠死掉的人,不影响这个国家的整体的寿命,变成是一个非常自然的、一个natrue的一个疾病的一个事件。
我是第一次浏览到这个名为“共/生/共/存”的演讲,该演讲据说还颇有名。
不过张医生的上述讲话中有些表达令人不解。
他比较了两组数据,一是新冠死亡数值(用A表示,应该指的是死亡人的年龄)的中位数(C),一是美国整个国家寿命(B)的期望(D),即他在比较A的C与B的D。
A比较好理解。B说寿命,不太清楚指的是什么。可能指的是人均预期寿命?预期寿命的概念举例解释如下:
在2019年,中国人的人均预期寿命是77.3岁,是指在2019 年出生的人平均可以活到77.3岁;在2018年,中国人的人均预期寿命是77岁,是指在 2018 年出生的人平均可以活到77岁。
如果B是指预期寿命,应该指定时间?所以,令人不解的是,A似乎与B不同,A也不见得是B的抽样(B究竟指什么,实际未能从演讲中那里弄清楚),而且C与D也不同。这两者不见得能比较。
C和D涉及数学。
我们下面想普及:C和D是不同的,即中位数、期望是不同的数学概念。两个概念混在一起谈可能会影响结论。
或许需要强调,下面仅讨论这两个数学概念的区别与联系,为部分读者作下数学普及。我们不论数据真假,不聊观点是非,……,即其他内容什么都不谈,既不对人也不对“事”,也没有其他目的,仅作数学普及。
假设随机变量是一个连续型随机变量,概率分布密度为,则该分布(或说随机变量)的(数学)期望为
期望也称为均值,就是通常理解的平均值。
而的中位数指的是一个满足如下条件的常数:
且
对连续型随机变量,中位数是如下方程的解:
其意义是指的值有一半的可能性比中位数大,也有一半的可能性比中位数小。
对正态分布这样的对称分布,期望和中位数其实是相等的。但有很多分布,期望和中位数是不同的。
如假设服从参数为的指数分布,其概率密度函数为
则容易计算得知它的均值为。而它的中位数为。这是因为若
则
我们可以注意到,对指数分布,中位数比期望要小些。
中位数,均值都是描述数据(分布)的集中程度的,但具体使用什么样数字特征更好,需要仔细考虑。
如研究某个城市居民的收入情况,按照某种神秘的定律(如所谓的二八定律,百分之二十的人掌握了百分之8八十的财富),人们倾向于用收入的中位数来刻画,如果用平均数(人均收入),许多人可能都要惊呼(“惭愧”)拖了城市的后腿。
国家居民收入也类似,下面是国家统计局发布的数字,从中可以感受到中位数与平均值的差别:
2021年,全国居民人均可支配收入中位数29975元,增长8.8%,中位数是平均数的85.3%。其中,城镇居民人均可支配收入中位数43504元,增长7.7%,中位数是平均数的91.8%;农村居民人均可支配收入中位数16902元,增长11.2%,中位数是平均数的89.3%。
手机电池或手机本身(新手机到“换机”作为寿命)等产品的寿命,人们往往用威布尔分布等来描述。指数分布也是一种威布尔分布,也用于描述产品的寿命。如上所述,均值与中位数不同,所以有的人可能会技术性地“欺骗”消费者,在说明书中选择对厂家有利的参数。(除了中位数,还有其他分位数考虑)。
作为类比,考虑到财富的某种特殊分布性质,如果一个城市仅报道平均收入,可能会使人觉得这个城市的居民比较富有。如果比较两个城市的居民收入,一个城市用中位数,一个城市平均值,就不太恰当。
统计学上要研究某因素是否对某分布有影响,如药物是否有治疗作用,或如某大流行疾病是否对人均寿命有影响,可以通过抽样做假设检验。一个比较简单的做法是假设人的寿命服从某分布,考察在某因素发生前后,该分布的均值(或中位数)是否有变化。一般不用不同的参数,否则就有用“双标”的嫌疑。
人的预期寿命分布应该是比较复杂的问题。如是否服从正态分布的?是否是对称的?是否可以简单地假设为指数分布?中位数是否等于期望值?这已经超出作者的能力,读者可以进一步思考。