Що приховує статистика смертності від коронавірусу

2 травня 2020, 21:00

У мережі можна знайти гігабайти статистичних даних про людей, які заразилися/загинули від нового коронавірусу. Пояснюємо, як правильно інтерпретувати ці дані і чи варто взагалі їм довіряти.

Не пам’ятаю коли востаннє так уважно, регулярно, довго, повально всі цікавилися статистикою, графіками, прогнозами.

Уряди, міністерства, соціологи, лікарі, академічні вчені — активно збирають, поширюють свої не свої) дані, графіки, оцінки, щоб ми були в курсі, що відбувається, що може статися і розуміли, що означає або може означати те, що відбувається.

Відео дня

Аналітики не тільки), закасавши рукави, шукають у «всесвітній потоп» даних тенденції.

У рази, можливо, в десятки разів, зросла кількість охочих зрозуміти, що відбувається, на основі даних.

Дані та їх візуалізація — моя пристрасть. Я підписана на всі більш-менш важливі в цій галузі розсилки, форуми, групи, канали і навіть журнали; прочитала майже половину книг зі списку Девіда МакКендлесса; бувала на курсі Едварда Тафті. Лист з розсилки аналітичного апостола Google Авінаша Кошика (посилання на його блог Бритва Оккама) стало основою для цього матеріалу.

Прилетівши з Лос-Анджелеса до Києва в останній день перед закриттям кордонів, дивлюся на дані «українськими» очима. Точніше, дивлюся на українські дані. Уже місяць дивлюся. І вирішила перейти до дій і поділитися хорошими і не дуже прикладами візуалізації інформації.

Навіщо? По-перше, хочу зробити внесок у розвиток критичного мислення — корисна навичка в епоху комп’ютерної пропаганди і анонімних телеграм-каналів.

По-друге, попри те, що спостереження в цьому тексті (всього шість) всі про наболіле — про поширення COVID-19, кожен з графіків, а точніше підходів до аналізу та візуалізації даних, можна варто) використовувати, аналізучи будь-який бізнес або процес.

[Всі графіки, крім першого — про коронавірус. Якщо це складна для вас тема, не читайте. Почитайте краще про щастя.

Почну з графіка не про вірус, але з сумними, як мінімум для США, цифрами — кількість ув’язнених на 100 тис. населення у країнах-засновницях НАТО.

prisonpolicy.org
Фото: prisonpolicy.org

Більшість з нас обрізали б графік США, позначивши переривання, щоб він помістився в рамку і виглядав «акуратно».

Але автори не стали цього робити і графік вийшов як постріл — таку величезну різницю не можна не помітити. Що це означає? У США більше злочинів? В інших країнах слабкі закони? Я задаю собі питання — а що я знаю про закони країни, в якій живу?

У пошуках таких прикладів подивімося на графіки про COVID-19.

Перше спостереження: не всі подання даних витримують перевірку часом

Такий формат, можливо, непогано працював на ранніх етапах, коли хворих було небагато.

Google
Фото: Google

На жаль, криза поглиблюється і ця карта стає менш інформативною.

Можна збільшити масштаб, але ми втратимо контекст, який дають всі дані. Таблиця зайняла б стільки ж місця, напевно, і дала б можливість оцінити ситуацію швидше.

Так що графіки або інфографіку, яку ми плануємо доповнювати новими даними, варто перевіряти на інформативність через кілька днів, через кілька тижнів, через кілька місяців. Щоб переконатися, що з часом або розвитком бізнесу, вона інформативна і змістовна, як на початку.

Друге спостереження: не за всяку провину києм у спину

Цей приклад з авторитетного джерела. На графіку — кількість згадок різних вірусних захворювань у новинах. Схоже, єдина причина появи цього графіка — порожнє місце на сторінці.

Google
Фото: Google

Що ми дізналися з графіка? У новинах переважно говорять про коронавірус. А про що ще, під час світової пандемії?

Відступ, але найважливіше — не про графіки, а про показники: «Кількість хворих» — не найкращий показник.

«Кількість захворілих» залежить від кількості проведених (або не проведених) тестів. І від того, кого ми вважаємо «захворілим». Чилі, наприклад, вважає померлих здоровими — «тому що вони більше не заразні».

Якщо «кількість захворілих» сумнівний показник, який кращий? Можливо, для загальної картини «кількість смертей». А для того, щоб оцінити інтенсивність проблеми — «кількість смертей на мільйон жителів». Якщо ви маєте інші ідеї або заперечення — напишіть мені.

У будь-якому разі не варто забувати — все пізнається в порівнянні. Пам’ятаєте паніку і жахи через кількість смертей «від коронавірусу» в Італії?

Пригальмовуємо, знаходимо статистику смертей в Італії за попередні роки у Вікіпедії, ділимо на 365, кількість днів у році, отримуємо кількість смертей на день. За три роки середня — 1,762 людини на день.

Wiki
Фото: Wiki

Сьогодні 19 квітня, з початку року пройшло 109 днів. Тобто якби тенденції попередніх, не-пандемічних років тривали, сьогодні в Італії мало б померти 192,038 людини (109*1,762).

Знаходимо дані про фактичну смертність в Італії станом на сьогодні: 173,271. Як так? Окрема розмова. За участю Сержа Московічі та П'єра Бурдьє.

Повертаємося до графіків. Для наступного спостереження припустимо, що «кількість хворих» все-таки відображає реальну картину.

Третє спостереження: на городі бузина, а в Києві дядько

Google
Фото: Google

Інтенсивністю кольору позначати кількість хворих — поширений прийом. Що не так?

Різна кількість жителів в областях України. Найпростіший спосіб виправити цю помилку — використовувати в ролі показника кількість хворих (померлих) як відсоток від населення області. Може виявитися, що нас мають хвилювати зовсім не темно-червоні області.

На щастя, кількість хворих у процентному співвідношенні до населення в Україні невелика, тому, на жаль, доведеться ілюструвати ефективність відносних показників на американських даних. Дивимося на колонку «смертей» — Нью-Йорк і Нью-Джерсі найпроблемніші.

СС
Фото: СС

Розрахуємо показник «кількість смертей до кількості хворих». Ясно, що Мічиган, Коннектикут і Вашингтон мають нас хвилювати, як мінімум, не менше. Бузина і на городі і в Києві, і ми отримуємо нову інформацію, в порівнянні з абсолютними цифрами.

Приклад такого ж підходу на карті — карта Європейського центру профілактики та контролю захворювань (жовта карта тут) показує сумарну кількість хворих точніше, зареєстрованих, ще точніше — опублікованих, випадків захворювання) на 100 тис. населення.

Те, що наступне спостереження можна проілюструвати кількома прикладами, — справжній захват.

Четверте спостереження: унікальні інсайти просто на графіках

Графіки для багатьох (на жаль, навіть для тих, хто нам за них платить) просто «палички» або «лінії», що позначають очевидні тренди — «ось тут вгору пішло, краще стало, а тут падає».

Але можна в графік додати елемент, який зробить очевидним неочевидний тренд.

На графіку Financial Times, такий елемент — сірі пунктирні прямі, що показують, як поширювався б вірус, якби кількість хворих подвоювалася — щодня, що два дні, що три дні, щотижня.

FT
Фото: FT

Рожева крива США, яка обганяє майже всіх, стає ще страшнішою, коли розумієш, що кількість хворих у США подвоюється майже що два дні. Це неочевидний висновок, який змушує задуматися.

Думка про подвоюване зростання ще страшніша, якщо застосувати її до кількості смертей.

Іноді неочевидні спостереження можна додати від руки.

ft.com
Фото: ft.com

Тепер ми бачимо, що маска на обличчі — важлива змінна, яка гальмує розповсюдження вірусу.

Звичайно, ці країни швидко реагували і щодо інших змінних (тестування, негайна ізоляція, відстеження контактів тощо). Потрібно і про це пам’ятати.

Однак, графік допомагає зрозуміти, що західні уряди, які, можливо, бажали зберегти маски для медиків, могли б переконати нас носити хоча б саморобні маски, додатково до урядових заходів. Як вчинили в Чехії (увімкніть українські субтитри).

П’яте спостереження: Не ставайте копіями!

«Ми всі народжуємося оригіналами, чому багато хто з нас вмирає копіями?» — писав англійський поет Едвард Юнг.

Після перегляду пів сотні сайтів з даними про коронавірус, мало які запам’ятовуються. Всі про одне. Кольори хіба що різні.

Тож ці два графіки — як ковток кисню. До того ж їхнє завдання — нас трохи заспокоїти. Лівий нижній показує серйозність симптомів — легкі (mild), важкі (severe), критичні (critical) і називається «у більшості хворих на коронавірус легкі симптоми».

СС
Фото: СС

Впевнена, ви, як і я, побачивши 80.9%, видихнули з полегшенням. І блакитний заспокоює.

Квадратна матриця праворуч показує кількість хронічних захворювань у тих, хто помер з коронавірусом 48% було три і більше хронічних хвороби) і називається «множинні хронічні захворювання збільшують ризик».

Всі ми так чи інакше знаємо, чи є у нас, або у наших близьких, хронічні хвороби. Цей графік дає можливість точніше оцінити ризик. Дуже корисно.

Я згадувала вище, що дані про кількість хворих хороший показник, якщо ми знаємо про кількість проведених тестів. Але дані про кількість проведених тестів дуже складно знайти.

Bloomberg у цьому випадку «пішов ліворуч, коли всі йдуть праворуч».

Bloomberg
Фото: Bloomberg

Дуже простий графік — кількість проведених тестів, тренд зростання хворих, і важливий контекст — розмір населення.

Динаміка у Флориді одразу ж викликає запитання, тому що кількість проведених тестів тут набагато менша, ніж у Нью-Йорку, а розмір населення — однаковий. Тобто реальність відрізняється від оприлюднюваних цифр через низький рівень тестування.

Останнє спостереження: покажіть сезонність/прогноз

Епідемічна крива — статистичний графік, який використовують для візуалізації життєвого циклу захворювання, беручи до уваги інкубаційний період, темпи поширення та інші параметри.

Епідемічная крива, простіше кажучи, допомагає нам зрозуміти, що нас ще чекає.

Наприклад, станом на 19 квітня в Україні 5,449 заражених (125 випадків на 1 млн населення), а в Китаї 82,7 тис. (57 випадків на млн населення). Але контексту, які етапи життєвого циклу пройшла і має пройти країна, ці цифри не дають.

А ось графік епідеміологічної кривої COVID-19, опублікований четвертого квітня.

СС
Фото: СС

На момент публікації графіка в Китаї було приблизно 81,6 тис. випадків, а в Україні 1,225.

Тобто Україна на цей момент перебуває на стадії акселерації. Нам потрібно пройти цю стадію, потім стадію Пізнього накопичення, перш ніж ми опинимося в стадії Відродження. Довго ще нам.

Сумно від цього стає, зате крива допомагає зрозуміти, що нас чекає попереду. Навіть просто знання дає відчуття контролю.

Серйозні аналітики, напевно, хотіли б бачити на графіку точнішу вісь Х. Я теж. Але тривалість кожної фази настільки залежить від заходів, які вживає кожна країна, що одна глобальна вісь Х для всіх країн просто неможлива — як мінімум поки ми не виберемося з цієї пандемії.

І останній графік на сьогодні «Зростання підтверджених випадків на території Китаю з 20 січня». Червоний — смерті, блідо-червоний — важкі випадки, жовтий — інші підтверджені випадки захворювання, сірий — покинули госпіталь.

Bloomberg
Фото: Bloomberg

Мрію побачити такий самий щодо України і щодо США, та й узагалі щодо всіх країн.

Коли ми всі зможемо дивитися на цю величезну сіру область і розуміти, що ми перебуваємо з іншого боку кризи.

Підіб'ємо підсумки:

1. Не всі способи представлення даних витримують перевірку часом.

2. Не за всяку провину києм у спину — не будуйте зайвих графіків.

3. На городі бузина, а в Києві дядько — порівнюйте порівнянне.

4. Позначайте унікальні інсайти безпосередньо на графіках.

5. Не ставайте копіями — коли всі йдуть праворуч, йдіть ліворуч.

6. Шукайте сезонність і будуйте прогнози.

Бережіть себе.

poster
Підписатись на щоденну email-розсилку
матеріалів розділу Техно
Розсилка про те як технології змінють світ
Щопонеділка

Приєднуйтесь до нас у соцмережах Facebook, Telegram та Instagram.

Показати ще новини
Радіо НВ
X