Před nedávnem poblíž tohoto místa zveřejnil Zdeněk Wachtl svoji petici za zrušení aritmetického průměru. Mám
za to, že má-li být průměr ve veřejném prostoru nahrazen něčím hodnotnějším, musí to být
něco čtenáři srozumitelného. Málo platné, žádné jiné jednotlivé číslo nemá
takovou vypovídací hodnotu jako průměr, a tak potřebujeme něco o trochu komplikovanějšího.
Začněme jednou proměnnou, například karmou blogů. Můžeme říct, že průměrná karma článků ve
sledovaném období 9. července až 21. listopadu (celkem 986 karmovaných článků) byla 11,11. Nebo můžeme
zobrazit histogram:
Histogram je lehko pochopitelný způsob sumarizace hodnot, pokud
dobře popíšeme osy. Má ale jedno úskalí: musíme dobře zvolit velikost
přihrádek, do kterých seskupujeme hodnoty (zde tedy 0 až 5, 5 až 10, …).
Pokud ji zvolíme moc velkou, moc se nedozvíme:
Pokud ji zvolíme moc malou, dozvíme se toho tolik, že nám to neumožní
vidět celkový tvar distribuce:
Alternativní způsob zobrazení, který není závislý na žádnem našem parametru, je
krabicový graf (někdy též krabicový diagram), který letos slaví už třicet let od vynalezení.
Krabicový graf je vpodstatě grafické znázornění pěti hodnot: minima, prvního kvartilu, mediánu, třetího kvartilu a maxima:
Pokud prezentovaný vzorek hodnot obsahuje i extrémní hodnoty, ty se
tradičně kreslí zvlášť jako samostatné body. Pokud tedy chceme shrnout
karmu všech článků ve sledovaném období, krabicový graf bude vypadat
takto:
Vidíme, že na dolním konci žádné extrémy nejsou. Hodně jich je zato na horním
konci (například ten s karmou přes 35, který je vidět i na podrobném
histogramu). Extrémní hodnoty na jednom konci značí, že distribuce není
symetrická (jak už jsme viděli na histogramu) a tvarem připomíná např.
distribuci platů. Dále vidíme, že nejmenší udělená karma byla něco málo pod 3 a že
střední polovina všech hodnot leží mezi 7,5 a 14. Medián je 10,1.
Zatím není jasné, proč bychom měli použít krabicový graf místo histogramu,
který je přeci jen o něco srozumitelnější. Opravdová výhoda se ukáže, když
srovnáváme více proměnných. Jak třeba vypadá karma deseti nevíce píšících
bloggerů? Nejplodnější bloggeři ve sledovaném období jsou:
Blog | Počet příspěvků ve vzorku |
---|---|
marek | 100 |
vido | 44 |
fekar | 34 |
klusak | 34 |
becher | 29 |
manak | 26 |
hokes | 22 |
sikora | 21 |
rubensteinova | 18 |
derer | 17 |
Noviny by se zmohly maximálně na něco jako pareto diagram:
Tím se ale zobrazí pro každého autora jen jedno číslo: průměr. Pokud ale
překlopíme krabicový graf na bok, můžeme srovnat autory mnohem podrobněji
na stejném prostoru:
Zde jsem navíc použil ještě další modifikaci: krabičky mají tloušťku podle počtu
článků. Vidíme, že různí bloggeři mají různý rozptyl hodnot. derer, hokes a manak
mají karmu pokaždé podobnou, zatímco becher, rubensteinova, vido a marek
kolísají. Taky vidíme, že někteří mají výjimečně hodnocené články. Jaké
to jsou (postupně odshora):
Zpátky u vrat do pekla socialistického zdravotnictví,
Tuňák v olivovém oleji,
Jak chutná cybersex,
Naše bývalé děti,
Lucie Bílá. No Comment.,
Dnes je den nedožitých šedesátin Deža Ursinyho,
Negr, co hulí trávu a
Mám rád sklo.
Jeden příspěvek měl dokonce výjimečně nízkou karmu: Medvídek.
Stejný obrázek jsem mohl vyrobit i bez překlápění grafu,
ale nevešel se mi dolů dobře nápis „rubensteinova”, tak jsem si to otočil
na šířku. Pomocí krabicového grafu tedy můžeme i odhalit zajímavé články, které
nemají absolutně velkou karmu (protože každý nemá stejně kamarádů), ale jsou výjimečné
v rámci svého autora.
Při takovém srovnání by nebylo únosné vyrábět deset histogramů, pokud chceme šetřit
místem. Doufám, že si krabicový graf najde cestu i do novin a jednou se začne běžně používat,
protože zabere stejně místa, není složité ho pochopit a obsahuje mnohem víc
informací než průměr. Myslíte, že něco takového by se někdy mohlo stát, nebo je to utopie?
K dnešnímu článku povoluji diskuzi všem kromě yogumina,
který diskuzi jen předstírá a ve skutečnosti se jen snaží dělat dojem na Ritu Holoubkovou.
Zákaz se nevztahuje na příspěvky, ve kterých uvede odkaz na relevantní zdroj.