分析结果是否隐瞒了真相?
作者:
我们每个人都听说过这样的老生常谈:这世上有谎言、该死的谎言,还有统计数据。但是,当我耐着性子听完一大堆乱七八糟的高管层分析报告之后,却忍不住要拿这句话恶搞一下:这世上有说谎者、该死的说谎者,还有统计学家。
我们欢迎以分析为依据的洞见和决策日益大行其道,但我们并不欢迎人们以虚伪和欺骗的方式提交大量的统计数据。在企业监督的最高层,这些分析已经被过度操纵了,对此我感到既震惊又失望。唯一一件比这更令人吃惊,同时也更令人失望的事,就是居然有那么多的高管不愿或无法就他们看到的分析提出一些简单的问题。
例如,一家金融服务公司呼叫中心的分析报告显示,客户满意度数据出现一个接一个的负高峰,等待时间和“问题解决”时间显著增加。因此,提交分析报告的高管当然要为自己的团队争取更多的资金和培训。其中暗含的威胁不言而喻:公司快速响应服务的好名声可能会受损。
后来,三个简单而具有针对性的问题揭穿了这位高管在分析上耍的小花招。她在报告中提到客服趋势令人不安,但这在很大程度上是因为某项政策调整影响了公司大约20%刚刚退休的客户。由于涉及到他们的年龄和可能的税务影响,而且批准程序需要另一个部门的协调配合,因此客服与他们之间的通话时间常常会延长到35 – 45分钟以上。
而高管层的一项决策更是令情况雪上加霜(同时也解释了为何那位报告者没有对数据进行详尽的分析):他们没有将这些呼叫统一转接给一个接受过专门培训的团队,而是规定任何客服代表都有权处理客户质询,结果造成了更多的延误,令整个部门的绩效越来越低。
从技术的角度来说,报告者提交的每个数据都是准确无误的。但她以某种方式对它们进行汇总,为自己的部门制造出一种资源不足的假象。分析刻意隐瞒了某个离群值,而正是这一因素在统计上令这些数据看起来格外糟糕。
更可恶的是,一次简单的排队论模拟表明,如果呼叫中心针对那20%的特殊客户群体稍微调整一下自己的管理方式,那么呼叫中心的整体绩效数据几乎不会受到什么影响。因此,问题的真正根源不在于系统投资不足,而是管理不当。
我发现,有越来越多老谋深算的统计高手醉心于鼓吹分析——他们通过精心编排数据来影响并赢得辩论,而不是为了发现潜在的动态并形成洞见。这种现象尤其令人不安,因为虽然分析(从最严格的技术意义上说)对形势进行了精确的描绘,但同时它也妨碍人们提出有益的质疑。
我始终认为,分析报告和报告者应标出离群值,说明如何界定和处理它们,而且最重要的是,如果离群值不存在,分析结果会是怎样的。如果你在了解分析数据时,能将离群值的重要性等同于汇总数据和平均值,那么你会为自己的发现而吃惊的。
不用说,在这方面我最喜欢的一个例子当然是来自哈佛大学(Harvard)。很少有人意识到,哈佛辍学生的平均净资产实际上大大超过了毕业生。
其实原因很简单。哈佛毕业生的人数要比辍学生多得多。但哈佛辍学生的队伍中包括比尔·盖茨(Bill Gates)、马克·扎克伯格(Mark Zuckerberg),以及宝丽来(Polaroid)创始人埃德温·兰德(Edwin Land)这样的人。如果将通货膨胀因素计算在内,他们的净资产总额可能高达1,000亿美元。用这笔巨额财富做分子,用人数较少的“辍学生”做分母,二者相除后,你就会制造出一个精确的统计学假象:哈佛辍学生普遍比取得学位的毕业生富有得多。
当然,这很荒唐。但不幸的是,这并不比你从一大堆呈交给董事会的分析统计报告中所得出的结论更荒唐。我发现,同离群值相关的方向性错误和管理不善正是许多组织最令人苦恼的通病,即使是精于统计的组织也不能幸免。
要始终要求引入离群值,无论何时,都要让分析师展示排除离群值之后的数据状态。当然,还有一些同样重要的方法,也可以让汇总分析发挥更大的作用,但你首先要引入离群值。因为对离群值处理不当的分析会成为“大骗子”。
你是否曾成功地将离群值隐藏在汇总分析中,从而为自己争取到更多的预算?你是否发现某位同事或客户在统计时对离群值做了手脚?
翻译:陈媛熙
评论