Skrócona reprezentacja symboliczna szeregów czasowych dla analizy skupień
DOI:
https://doi.org/10.18778/0208-6018.341.03Słowa kluczowe:
analiza skupień, szereg czasowy, reprezentacja symboliczna, data miningAbstrakt
W ostatnich latach pojawiły się metody symbolicznego reprezentowania szeregów czasowych. Te badania są zasadniczo motywowane względami praktycznymi, takimi jak oszczędzanie pamięci lub szybkie przeszukiwanie baz danych. Niektóre wyniki w temacie symbolicznego reprezentowania szeregów czasowych sugerują, że zapis skrócony może nawet poprawić wyniki grupowania. Artykuł zawiera propozycję nowego algorytmu ukierunkowanego na zagadnienie skróconej symbolicznej reprezentacji szeregów czasowych, a w szczególności na efektywne grupowanie szeregów. Idea propozycji polega na wykorzystaniu techniki PAA (piecewise aggregate approximation) z następną analizą korelacji otrzymanych segmentów szeregu. Podstawowym celem artykułu jest modyfikacja techniki PAA ukierunkowana na możliwość dalszego grupowania szeregów w ich skróconym zapisie. Próbowano również znaleźć odpowiedzi na następujące pytania: „Czy zadanie grupowania szeregów czasowych w ich oryginalnej postaci ma sens?”, „Ile pamięci można oszczędzić, stosując nowy algorytm?”. Efektywność nowego algorytmu została zbadana na empirycznych zbiorach danych szeregów czasowych. Wyniki pokazują, że nowa propozycja jest dość efektywna przy bardzo nikłym stopniu parametryzacji wymaganym od użytkownika.
Pobrania
Bibliografia
Agrawal R., Faloutsos C., Swami A. (1993), Efficient similarity search in sequence databases, “Lecture Notes in Computer Science”, vol. 730, pp. 69–84.
Google Scholar
Bagnall A., Janacek G. (2005), Clustering time series with clipped data, “Machine Learning”, vol. 58(2–3), pp. 151–178.
Google Scholar
Fu T. (2011), A review on time series data mining, “Engineering Applications of Artificial Intelligence”, vol. 24, Issue 1, pp. 164–181.
Google Scholar
Gatnar E., Walesiak M. (2004), Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław.
Google Scholar
Gavrilov M., Anguelov D., Indyk P., Motwani R. (2000), Mining the stock market: which measure is best, Proceedings of the eighth ACM SIGKDD international conference on knowledge discovery and data mining, Boston, pp. 487–496.
Google Scholar
Grabiński T., (1992), Metody taksonometrii, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków.
Google Scholar
Korzeniewski J. (2012), Metody selekcji zmiennych w analizie skupień. Nowe procedury, Wydawnictwo Uniwersytetu Łódzkiego, Łódź.
Google Scholar
Möller‑Levet C. S., Klawonn F., Cho K., Wolkenhauer O. (2003), Fuzzy clustering of short time‑series and unevenly distributed sampling points, “Lecture Notes in Computer Science”, vol. 2811, pp. 330–340.
Google Scholar
Struzik Z. R., Siebes A. (1999), Measuring time series’ similarity through large singular features revealed with wavelet transformation, Proceedings of tenth international workshop on database & expert systems applications, Berlin, pp. 12–22.
Google Scholar
Yeh M. Y., Dai B. R., Chen M. S. (2007), Clustering over multiple evolving streams by events and correlations, “IEEE Transactions on Knowledge and Data Engineering”, vol. 19(10), pp. 1349–1362.
Google Scholar
Yin J., Gaber M. M. (2008), Clustering distributed time series in sensor networks, Proceedings of the eighth IEEE international conference on data mining, Washington, pp. 678–687.
Google Scholar