Що може бути гірше кругової діаграми?
Дві кругові діаграми! Едвард Тафті
Всі ми вже не раз бачили, що може піти не так з візуалізацією даних. Сьогодні обговоримо кілька важливих принципів, що лежать в основі якісної графіки, і що набагато цікавіше, дізнаємося, що станеться, якщо ці правила НЕ дотримуватися.
Структура статті
- Сприйняття вимірювань
- Співвідношення чорнила-дані
- Фактор обману
- Парадокс Сімпсона
- Джон Сноу все-таки щось знає - приклад класики візуалізації
- Що ще подивитися-почитати
- Кругова діаграма в реальному житті
(* обережно трафік *)
Сприйняття вимірювань
Найчастіше нам необхідно зображати лінійні величини на графіку тобто залежність однієї змінної Х, наприклад час в годиннику, від другої Y, наприклад пройдений шлях в км. Нехай 1 см на графіку дорівнює 1 годині по Х і 5 км по Y. Вася їде на велосипеді 10 км на годину і їхав протягом 4 годин. Значить, зміна по Х складе 4 см, а по Y 40/5 = 8 см.
Що в подібній ситуації може піти не так?
Площа та тривимірні ефекти
Вся хитрість у деталях: уявімо, що певною реальною вимірюваною величиною X1 відповідає точка Y1 на графіку, а X2 точка Y2, а значить, що при зміні даних від X1 до X2 різниця на графіку складе Y2 - Y1. Але не тут-то було - на круговій діаграмі це буде відповідати різниці площ, а якщо додати тривимірні ефекти, то і обсягів.
Приклади в студію! Уявімо, що частка Андроїда зросла на кілька відсотків. Тоді на графіку нижче частка зросте пропорційно обсягу, а не лінійній шкалі. Чим це загрожує? Перш за все, це веде до абсолютного нерозуміння читачем розглянутих величин і неможливості коректного порівняння величин. Хто зможе вгадати яка частка у Blackberry на цьому графіку і наскільки вона менше частки iPhone?
Сприйняття об "єму
Чи врятують ситуацію явно прописані на графіку величини? Насправді ні. Розгляньмо простий приклад, де всі величини явно прописані. На графіку нижче зелена частина явно в два рази більше жовтої, але насправді це не так.
(клікабельно; взято звідси)
Тортикова вечірка
Ось тут уважний читач може заявити, що ми розглядали виключно патологічні приклади з тривимірними ефектами і якщо використовувати стандартні кругові діаграми, то все пройде як по маслу. Увага питання, наскільки точно можна порівняти дані між категоріями за даним графіком?
(клікабельно)
Співвідношення чорнила-дані
Тепер перейдемо від питання сприйняття даних на графіку до інформативності. Питання: яку кількість інформації передає цей графік?
Відповідь: 4 (!) числа, причому коричнева частина зорово виглядає помітно менше зеленої через тривимірну перспективу.
Чи можемо ми поліпшити цю кругову діаграму? Для цього поставимо кілька важливих питань:
- Чи тут дійсно потрібен колір? Якщо так, то яку функцію він виконує?
- Яку функціональну роль відіграє тут тривимірний ефект?
- Чи можна легко порівнювати числа між собою, чи варто змінити тип графіка?
- Чи тло читання і сприйняття графіка полегшує?
- Чи не дублюють функціональні елементи один одного, наприклад, текстові мітки та використання кольору?
Якщо ми відповімо на ці питання, то можемо отримати щось схоже з ось таким графіком:
Мінімалістичний приклад, який не відволікає читача від головного.
На дану тему всіляко рекомендую курс на Udacity: Data Visualization and D3.js
Зокрема з цього питання, у них є відмінне відео:
Після перегляду відео порівняйте цю візуалізацію
і цю
(хоча деякі з цим прикладом в якості «неправильної візуалізації» не згодні, і дебати не померуть донині).
Фактор обману
Якщо графіки з площами і обсягами не переконали, то настав час написати переконливу формулу.
На графіку вища кількість миль на галон палива змінилася з 18 до 27.5, тобто на 53%, зростання на графіку склало 783%, тепер давайте розрахуємо фактор обману.
Підставивши числа, отримаємо 783/53 = 14.8, ми перебільшили ріст за допомогою графіки практично в 15 (!) разів.
Докладніше і прикладами можна прочитати тут.
Вправа з зірочкою: порахувати фактор обману з урахуванням того, графік показує обсяг замість лінійних розмірів. Мені здається чи тут дійсно 11 неймовірно більше 9, а 6 і 11 взагалі не порівняні?
(Взято звідси)
Парадокс Сімпсона
Підступ може знаходитися і там, де його найменше чекають. Візуалізуючи дані, ми часто розбиваємо їх на категорії або групи і один з класичних сюрпризів, який при цьому може виникнути і називається парадоксом Сімпсона.
Розглянемо як приклад Гомера, який вирішив поправити своє здоров'я і почав бігати по стадіону і записувати результати тренування по місяцях. Перші чотири місяці він стабільно нарощував на навантаження, але на п'ятий місяць знайшов коробку з пончиками і припинив тренування. Через два місяці совість і зайва вага знову підштовхнули його почати тренування і знову кожен місяць він нарощував навантаження.
Виходить, і в перший період, і в другий навантаження зростало, а в середньому навантаження стабільно падало.
Парадокс полягає в тому, що розбивши дані на групи, можна звернути негативний тренд в позитивний і навпаки.
Графіки та приклади разом з детальним поясненням парадоксу можна також знайти тут (рекомендую).
Джон Сноу все-таки щось знає - приклад класики візуалізації
Джон Сноу не тільки охороняв Стіну, але і врятував жителів Лондона від холери, використовуючи візуалізацію. Він завдав кожного загиблого на карту і помітив, що навколо водяної колонки на Broad Stree кластер смертей. Тоді-то він і висунув гіпотезу про те, що джерело холери в зараженій воді колонки. І виявився правий.
(клікабельно)
Одним з цікавих висновків стало те, що пивоварня була найбезпечнішим місцем (нуль смертей), використана вода і сам процес приготування робили пиво набагато більш безпечним до вживання, ніж звичайну воду з колонки (правда тільки в середині 19го століття в Лондоні).
Детальна історія з інтерактивною картою тут.
Що ще подивитися-почитати
Відео про зростання ролі візуалізації в політичному житті.
(відео перекине на іншу сторінку; можна також клікнути сюди)
Корисні книги (must read, зараз насолоджуюся прочитанням першої)
- The Visual Display of Quantitative Information by Edward Tufte
- Functional Art by Alberto Cairo
- The Grammar of Graphics by Leland Wilkinson
Real life pie chart
< гумор > Кругова діаграма в реальному житті </гумор >
З п'ятницею!