Что скрывает статистика смертности от коронавируса

2 мая 2020, 21:00
Цей матеріал також доступний українською

В сети можно найти гигабайты статистических данных о заразившихся/погибших от нового коронавируса. Объясняем, как правильно интерпретировать эти данные и стоит ли вообще им доверять.

Не помню, когда последний раз так внимательно, регулярно, долго, повально все интересовались статистикой, графиками, прогнозами.

Правительства, министерства, социологи, врачи, академические ученые — активно собирают, распространяют свои (и не свои) данные, графики, оценки, чтобы мы были в курсе, что происходит, что может произойти и понимали, что значит или может означать происходящее.

Видео дня

Аналитики (и не только), закатав рукава, ищут во «всемирном потопе» данных тенденции.

В разы, возможно, в десятки раз, увеличилось количество желающих понять, что происходит на основе данных.

Данные и их визуализация — моя страсть. Я подписана на все более-менее важные в этой области рассылки, форумы, группы, каналы и даже журналы; прочла почти половину книг из списка Дэвида МакКэндлесса; бывала на курсе Эдварда Тафти. Письмо из рассылки аналитического апостола Google Авинаша Кошика (ссылка на его блог Бритва Оккама) стало основой для этого материала.

Прилетев из Лос-Анджелеса в Киев в последний день перед закрытием границ, смотрю на данные «украинскими» глазами. Точнее, смотрю на украинские данные. Уже месяц смотрю. И решила перейти к действиям и поделиться хорошими и не очень примерами визуализации информации.

Зачем? Во-первых, хочу внести вклад в развитие критического мышления — полезный навык в эпоху компьютерной пропаганды и анонимных телеграмм-каналов.

Во-вторых, несмотря на то, что наблюдения в этом тексте (всего шесть) все о наболевшем — о распространении COVID-19, каждый из графиков, а точнее подходов к анализу и визуализации данных, можно (и стоит) использовать при анализе любого бизнеса или процесса.

[Все графики, кроме первого — о коронавирусе. Если это сложная для вас тема, не читайте. Почитайте лучше о счастье.

Начну с графика не о вирусе, но с грустными, как минимум для США, цифрами — количество заключенных на 100 тыс. населения в странах-основательницах НАТО.

prisonpolicy.org
Фото: prisonpolicy.org

Большинство из нас обрезали бы график США, обозначив прерывание, чтобы он поместился в рамку и выглядел «аккуратно».

Но авторы не стали этого делать и график получился как выстрел — такую огромную разницу нельзя не заметить. Что это значит? В США больше преступлений? В других странах слабые законы? Я задаю себе вопрос — а что я знаю о законах страны, в которой живу?

В поисках таких примеров давайте посмотрим на графики о COVID-19.

Первое наблюдение: не все представления данных выдерживают проверку временем

Такой формат, возможно, неплохо работал на ранних этапах, когда заболевших было немного.

Google
Фото: Google

К несчастью, кризис усугубляется и эта карта становится менее информативной.

Можно увеличить масштаб, но мы потеряем контекст, который дают все данные. Таблица заняла бы столько же места, наверное, и позволила бы оценить ситуацию быстрее.

Так что графики или инфографику, которую мы планируем дополнять новыми данными, стоит проверять на информативность через несколько дней, через несколько недель, через несколько месяцев. Чтобы убедиться, что со временем или развитием бизнеса, она информативна и содержательна, как в начале.

Второе наблюдение: не всякое лыко в строку

Этот пример из авторитетного источника. На графике — количество упоминаний разных вирусных заболеваний в новостях. Похоже, единственная причина появления этого графика — пустое место на странице.

Google
Фото: Google

Что мы узнали из графика? В новостях преимущественно говорят о коронавирусе. А о чем еще, во время мировой пандемии?

Отступление, но важное — не о графиках, а о показателях: «Количество заболевших» — не лучший показатель.

«Количество заболевших» зависит от количества проведенных (или не проведенных) тестов. И от того, кого мы считаем «заболевшим». Чили, например, считает умерших выздоровевшими — «потому что они больше не заразны».

Если «количество заболевших» сомнительный показатель, какой лучше? Возможно, для общей картины «количество смертей». А для того, чтобы оценить интенсивность проблемы — «количество смертей на миллион жителей». Если у вас есть другие идеи или возражения — напишите мне.

В любом случае не стоит забывать — все познается в сравнении. Помните панику и ужасы в связи с количеством смертей «от коронавируса» в Италии?

Притормаживаем, находим статистику смертей в Италии за предыдущие годы в Википедии, делим на 365, количество дней в году, получаем количество смертей в день. За три года среднее — 1,762 человека в день.

Wiki
Фото: Wiki

Сегодня 19 апреля, с начала года прошло 109 дней. То есть если бы тенденции предыдущих не-пандемических лет продолжались, на сегодняшний день в Италии должно было бы умереть 192,038 человек (109*1,762).

Находим данные о фактической смертности в Италии по состоянию на сегодня: 173,271. Как так? Отдельный разговор. С участием Сержа Московичи и Пьера Бурдье.

Возвращаемся к графикам. Для следующего наблюдения допустим, что «количество заболевших» все же отражает реальную картину.

Третье наблюдение: в огороде бузина, а в Киеве дядька

Google
Фото: Google

Интенсивностью цвета обозначать количество заболевших — распространенный прием. Что не так?

Разное количество жителей в областях Украины. Самый простой способ поправить эту ошибку — использовать в качестве показателя количество заболевших (умерших) как процент от населения области. Может оказаться, что нас должны волновать вовсе не темно-красные области.

К счастью, количество заболевших в процентном соотношении к населению в Украине невелико, поэтому, к сожалению, придется иллюстрировать эффективность относительных показателей на американских данных. Смотрим на колонку «смертей» — Нью-Йорк и Нью-Джерси самые проблемные.

СС
Фото: СС

Рассчитаем показатель «количество смертей к количеству заболевших». Ясно, что Мичиган, Коннектикут и Вашингтон должны нас волновать, как минимум, не меньше. Бузина и в огороде и в Киеве, и мы получаем новую информацию, по сравнению с абсолютными цифрами.

Пример такого же подхода на карте — карта Европейского центра профилактики и контроля заболеваний (желтая карта здесь) показывает суммарное количество заболевших (а точнее, зарегистрированных, еще точнее — опубликованных, случаев заболевания) на 100 тыс. населения.

То, что следующее наблюдение можно проиллюстрировать несколькими примерами — чистый восторг.

Четвертое наблюдение: уникальные инсайты прямо на графиках

Графики для многих (увы, даже для тех, кто нам за них платит) просто «палочки» или «линии», обозначающие очевидные тренды — «вот тут вверх пошло, лучше стало, а тут падает».

Но можно в график добавить элемент, который сделает очевидным неочевидный тренд.

На графике Financial Times, такой элемент — серые пунктирные прямые, показывающие, как распространялся бы вирус, если бы количество заболевших удваивалось — каждый день, каждые два дня, каждые три дня, каждую неделю.

FT
Фото: FT

Розовая обгоняющая почти всех кривая США становится еще страшнее, когда понимаешь, что количество заболевших в США удваивается почти каждые два дня. Это неочевидный вывод, который заставляет задуматься.

Мысль об удваивающемся росте еще страшнее, если применить ее к количеству смертей.

Иногда неочевидные наблюдения можно добавить от руки.

ft.com
Фото: ft.com

Теперь мы видим, что маска на лице — важная переменная, замедляющая распространение вируса.

Конечно, эти страны быстро реагировали и по другим переменным (тестирование, немедленная изоляция, отслеживание контактов и пр). Нужно и об этом помнить.

Однако, график помогает понять, что западные правительства, возможно, желавшие сохранить маски для медиков, могли бы убедить нас носить хотя бы самодельные маски, в дополнение к правительственным мерам. Как поступили в Чехии (включите украинские субтитры).

Пятое наблюдение: Не становитесь копиями!

«Мы все рождаемся оригиналами, почему многие из нас умирают копиями?» — написал английский поэт Эдвард Юнг.

После просмотра полсотни сайтов с данными о коронавирусе мало какие запоминаются. Все об одном. Цвета разве что разные.

Так что эти два графика — как глоток кислорода. К тому же их задача — нас немного успокоить. Левый нижний показывает серьезность симптомов — легкие (mild), тяжелые (severe), критические (critical) и называется «У большинства заболевших коронавирусом легкие симптомы».

СС
Фото: СС

Уверена, вы, как и я, увидев 80.9%, выдохнули с облегчением. И голубой успокаивает.

Квадратная матрица справа показывает количество хронических заболеваний у тех, кто умер с коронавирусом (у 48% было три и больше хронических болезни) и называется «множественные хронические заболевания увеличивают риск».

Все мы так или иначе знаем, есть ли у нас, или у наших близких, хронические болезни. Этот график дает возможность точнее оценить риск. Очень полезно.

Я упоминала выше, что данные о количестве заболевших хороший показатель, если мы знаем о количестве проведенных тестов. Но данные о количестве проведенных тестов очень сложно найти.

Bloomberg в этом случае «пошел налево, когда все идут направо».

Bloomberg
Фото: Bloomberg

Очень простой график — число проведенных тестов, тренд роста заболевших, и важный контекст — размер населения.

Динамика во Флориде сразу же вызывает вопросы, потому что количество проведенных тестов здесь намного меньше, чем в Нью-Йорке, а размер населения — одинаковый. То есть реальность отличается от публикуемых цифр из-за низкого уровня тестирования.

Последнее наблюдение: покажите сезонность/прогноз

Эпидемическая кривая — статистический график, который используют для визуализации жизненного цикла заболевания, принимая во внимание инкубационный период, темпы распространения и другие параметры.

Эпидемичная кривая, проще говоря, помогает нам понять, что нас еще ждет.

Например, по состоянию на 19 апреля в Украине 5,449 зараженных (125 случаев на 1 млн населения), а в Китае 82,7 тыс. (57 случаев на млн населения). Но контекста, какие этапы жизненного цикла прошла и должна пройти страна, эти цифры не дают.

А вот график эпидемиологической кривой COVID-19, опубликованный четвертого апреля.

СС
Фото: СС

На момент публикации графика в Китае было около 81,6 тыс. случаев, а в Украине 1,225.

То есть Украина на текущий момент находится на стадии Акселерации. Нам нужно пройти эту стадию, потом стадию Позднего накопления, прежде чем мы окажемся в стадии Восстановления. Долго еще нам.

Грустно от этого становится, зато кривая помогает понять, что нас ждет впереди. Даже просто знание дает ощущение контроля.

Серьезные аналитики, наверное, хотели бы видеть на графике более точную ось Х. Я тоже. Но продолжительность каждой фазы настолько зависит от мер принимаемых каждой страной, что одна глобальная ось Х для всех стран просто невозможна — как минимум пока мы не выберемся из этой пандемии.

И последний график на сегодня «Рост подтвержденных случаев на территории Китая с 20 января». Красный — смерти, бледно-красный — тяжелые случаи, желтый — другие подтвержденные случаи заболевания, серый — покинули госпиталь.

Bloomberg
Фото: Bloomberg

Мечтаю увидеть такой же по Украине и по США, да и вообще по всем странам.

Когда мы все сможем смотреть на эту огромную серую область и понимать, что мы находимся по другую сторону кризиса.

Подведем итоги:

1. Не все способы представления данных выдерживают проверку временем.

2. Не всякое лыко в строку — не стройте лишних графиков.

3. В огороде бузина, а в Киеве дядька — сравнивайте сравнимое.

4. Отмечайте уникальные инсайты прямо на графиках.

5. Не становитесь копиями — когда все идут направо, идите налево.

6. Ищите сезонность и стройте прогнозы.

Берегите себя.

poster
Подписаться на ежедневную email-рассылку
материалов раздела Техно
Рассылка о том как технологии изменяют мир
Каждый понедельник

Присоединяйтесь к нам в соцсетях Facebook, Telegram и Instagram.

Показать ещё новости
Радіо НВ
X