Zhluková analýza patrí medzi štatistické metódy, ktoré sa zaoberajú podobnosťou viacrozmerných objektov, tzn. objektov charakterizovaných väčším množstvom premenných. Základom zhlukovej analýzy je tvorba zhlukov takým spôsobom, aby si objekty v rámci jedného zhluku boli čo najviac podobné a súčasne, aby podobnosť zhlukov bola čo najmenšia.

 

 

Podobnosť, resp. nepodobnosť objektov sa stanoví pomocou mier podobnosti, ktoré sa klasifikujú na miery vzdialenosti, miery korelácie a miery asociácie. Až po zostavení matice podobnosti objektov nasleduje proces zhlukovania objektov, na ktorý sa používajú hierarchické alebo nehierarchické metódy zhlukovej analýzy.

Hierarchické metódy zhlukovej analýzy

Tieto algoritmy zhlukovej analýzy súvisia s konštrukciou stromovej štruktúry zhlukov, tzn. dendrogramu. Postup výpočtu je u všetkých metód rovnaký. Začína sa výpočtom mier podobnosti pomocou koeficientov podobnosti, ktoré tvoria vstupnú maticu údajov a končia vytvorením dendrogramu. Vo všetkých krokoch tejto metódy sa spájajú objekty alebo skupiny objektov, ktoré sú si najbližšie, tzn. ktoré sú si najpodobnejšie.

Rozdiely medzi jednotlivými hierarchickými metódami spočívajú v tom, ako sa definuje podobnosť, resp. nepodobnosť medzi objektmi, tzn. na základe akého kritéria sa zhluky spájajú do väčších zhlukov:

Metóda najbližšieho suseda

obr1

Pri tejto metóde sa jednotlivé objekty spájajú podľa najmenšej vzdialenosti medzi objektmi, resp. zhlukmi, tzn. spájajú sa zhluky, ktorých objekty sú si najbližšie.

Metóda najvzdialenejšieho suseda

obr2

Vzdialenosť medzi objektmi, resp. zhlukmi, je definovaná ako najväčšia vzdialenosť medzi bodmi týchto skupín.

Centroidná metóda

obr3

Vzdialenosť medzi objektmi, resp. zhlukmi, je definovaná ako priemer vzdialenosti medzi všetkými pármi objektov. Nevýhodou tejto metódy je zohľadňovanie veľkosti skupín, čo sa prejaví pri zlučovaní väčšej skupiny a menšej skupiny objektov, kde dôjde k zanedbaniu vlastnosti menšej skupiny, lebo centroid novovzniknutej skupiny bude v blízkosti väčšej skupiny alebo dokonca vo vnútri tejto skupiny.

Wardova metóda

obr4

Metóda je založená na minimalizácii zvyšovania chyby sumy štvorcov odchýlok bodov zhluku od priemeru – centroidu. Pre spojenie každého možného páru zhluku sa počíta suma štvorcov a následne sa spájajú také zhluky, kde dochádza k minimálnemu nárastu chyby sumy štvorcov.

Mediánová metóda

obr5

Pri tejto metóde sa nezohľadňuje veľkosť zlučovaných skupín. Zlučované skupiny sa považujú za rovnako veľké a centroid novovzniknutej skupiny bude vždy v polovici vzdialenosti medzi centroidmi spájaných skupín.

Nasledujúci obrázok znázorňuje v podobe dendrogramov výsledok použitia rôznych metód v kombinácii s euklidovskou vzdialenosťou aplikovaných na rovnaký súbor údajov.

obr6

Záver

Pri voľbe spôsobu zhlukovania neexistuje jednoznačné pravidlo, ktorá z metód v kombinácii s ktorou mierou podobnosti je najlepšia, resp. najvhodnejšia alebo najspoľahlivejšia. Zhluková analýza v praxi nezahŕňa jednoduchú aplikáciu jednej metódy, ale celý rad krokov, ktoré môžu byť závislé na výsledkoch predchádzajúcich krokov.

Jednotlivé metódy sa odlišujú aj v tom, že niektoré z nich priestor medzi objektmi „zužujú“ tvorbou reťaziacich sa zhlukov na nízkej zhlukovacej úrovni (metóda najbližšieho suseda), iné priestor „rozširujú“ tvorbou kompaktných zhlukov na vysokej zhlukovacej úrovni (Wardova metóda, metóda najvzdialenejšieho suseda), ďalšie metódy priestor zachovávajú (priemerová, centroidná a mediánová metóda).

Výsledky niekoľkých štúdií, ktoré porovnávali výstupy metód zhlukovej analýzy dospeli k nasledujúcim záverom:

-          neexistuje univerzálna metóda, ktorá je vhodná v každej situácii,

-          metóda najbližšieho suseda je väčšinou najmenej vhodná,

-          priemerová a Wardova metóda sú vo väčšine prípadov najvhodnejšie.

Použitie rôznych zhlukovacích postupov môže priniesť výrazne odlišné výsledky, preto sa odporúča použiť viaceré metódy zhlukovej analýzy a akceptovať len tie zhluky, ktoré sa objavujú vo všetkých, alebo aspoň vo väčšine prípadov.

 

TEXT Doc. Ing. Peter TREBUŇA, PhD., Ing. Jana HALČINOVÁ, Dr. h. c., Ing. Milan FIĽO, PhD., Katedra priemyselného inžinierstva a manažmentu, Strojnícka fakulta, Technická univerzita v Košiciach FOTO archív redakcie

 

Tento príspevok bol spracovaný za podpory projektu KEGA 4/2013 Intenzifikácia modelovania vo výučbe II. a III. stupňa v študijnom odbore 5.2.52 Priemyselné inžinierstvo.

 

Literatúra:

[1] MELOUN, M.; MILITKÝ, J.; HILL, M.: Počítačová analýza vícerozměrných dat v příkladech. Praha: Academia. 2005. 449 s. ISBN 80-200-1335-0.

[2] MELOUN, M.; MILITKÝ, J.: Statistická analýza experimentálních dat. Praha: Academia. 2004. 953 s. ISBN 80-200-1254-0.

[3] ŘEZANKOVÁ, H.; HÚSEK, D.; SNÁŠEL, V.: Shluková analýza dat. Praha: Professional Publishing. 2009. 218 s. ISBN 978-80-86946-81-8.

[4] STANKOVIČOVÁ, I.; VOJTKOVÁ, M.: Viacrozmerné štatistické metódy s aplikáciami. Bratislava: IURA Edition, 2007, 261 s. ISBN 978-80-8078-152-1.

[5] WARD, J. H. (1963), „Hierarchical Grouping to Optimize an Objective Function,“ Journal of the American Statistical Association, 58, pp, 236 – 244.