Modification of Hinov Method of Variable Selection for Multiple Cluster Structure Analysis
Słowa kluczowe:
cluster analysis, variable choice, multiple cluster structuresAbstrakt
Oryginalna metoda HINoV jest zupełnie nieodporna na występowanie wśród zmiennych zanieczyszczających strukturę skupień zmiennych skorelowanych jednomodalnych lub równomiernych. Ponadto HINoV można stosować tylko w przypadku jednej struktury skupień.W referacie zaproponowana jest modyfikacja polegająca na tym, by, oddzielnie, dla każdej ustalonej zmiennej, grupować zmienne w dwie klasy zmiennych podobnych i niepodobnych do niej w sensie podobieństwa podziału zbioru danych na daną liczbę skupień (od 2 do 10). Otrzymujemy wówczas macierz zerojedynkową opisującą związki pomiędzy każdą parą zmiennych. Następnie, podzbiór zmiennych tworzących tę samą (najsilniejszą) strukturę skupień wybierany jest za pomocą kryterium optymalizującego podział macierzy na cztery bloki. Po wybraniu zmiennych tworzących jedną strukturę skupień można, w dalszym kroku, wybierać zmienne tworzące następną strukturę skupień spośród zmiennych, które nie zostały wybrane w pierwszym kroku. W celu selekcji właściwego bloku macierzy stosowane jest kryterium stabilności podziału zbioru danych oparte na wielokrotnym losowaniu połowy zbioru i porównywaniu podziałów otrzymanych przy pomocy metody k-średnich. Modyfikacja oceniona jest w obszernym eksperymencie symulacyjnym na 2250 zbiorach danych wygenerowanych w postaci mieszanin rozkładów normalnych.Pobrania
Bibliografia
Brusco M. J., Cradit J.D., (2001), A variable-selection heuristics for K-means clustering, Psychometrika 66
Google Scholar
Carmone F. J. Jr., Kara Ali, Maxwell S. (1999), HINoV: A New Model to Improve Market Segment Definition by Identifying Noisy Variables, Journal of Marketing Research, Vol. 36, No. 4
Google Scholar
Friedman J., Meulman J. (2004), Clustering Objects on Subsets of Attributes, Journal of the Royal Statistical Society, Series B 66
Google Scholar
Gatnar E., Walesiak M. (2004), Metody Statystycznej Analizy Wielowymiarowej w Badaniach Marketingowych, Wydawnictwo AE we Wrocławiu
Google Scholar
Korzeniewski J. (2012), Metody selekcji zmiennych w analizie skupień. Nowe procedury, Wydawnictwo Uniwersytetu Łódzkiego
Google Scholar
Steinley D., Brusco M. (2007), A new variable weighting and selection procedure for K-means cluster analysis, Psychometrika 66
Google Scholar
Steinley D., Brusco M. (2008), Selection of Variables in Cluster Analysis: An Empirical Comparison of Eight Procedures, Psychometrika 73 No. 1
Google Scholar
Steinley D., Henson R. (2005) OCLUS: An analytic method for generating clusters with known overlap. Journal of Classification, 22
Google Scholar




