Abridged Symbolic Representation of Time Series for Clustering

Jerzy Korzeniewski

doi:10.18778/0208-6018.341.03

Autor

Jerzy Korzeniewski University of Łódź, Faculty of Economics and Sociology, Department of Statistical Methods https://orcid.org/0000-0001-6526-5921

DOI:

https://doi.org/10.18778/0208-6018.341.03

Słowa kluczowe:

analiza skupień, szereg czasowy, reprezentacja symboliczna, data mining

Abstrakt

W ostatnich latach pojawiły się metody symbolicznego reprezentowania szeregów czasowych. Te badania są zasadniczo motywowane względami praktycznymi, takimi jak oszczędzanie pamięci lub szybkie przeszukiwanie baz danych. Niektóre wyniki w temacie symbolicznego reprezentowania szeregów czasowych sugerują, że zapis skrócony może nawet poprawić wyniki grupowania. Artykuł zawiera propozycję nowego algorytmu ukierunkowanego na zagadnienie skróconej symbolicznej reprezentacji szeregów czasowych, a w szczególności na efektywne grupowanie szeregów. Idea propozycji polega na wykorzystaniu techniki PAA (piecewise aggregate approximation) z następną analizą korelacji otrzymanych segmentów szeregu. Podstawowym celem artykułu jest modyfikacja techniki PAA ukierunkowana na możliwość dalszego grupowania szeregów w ich skróconym zapisie. Próbowano również znaleźć odpowiedzi na następujące pytania: „Czy zadanie grupowania szeregów czasowych w ich oryginalnej postaci ma sens?”, „Ile pamięci można oszczędzić, stosując nowy algorytm?”. Efektywność nowego algorytmu została zbadana na empirycznych zbiorach danych szeregów czasowych. Wyniki pokazują, że nowa propozycja jest dość efektywna przy bardzo nikłym stopniu parametryzacji wymaganym od użytkownika.

Pobrania

Brak dostępnych danych do wyświetlenia.

Bibliografia

Agrawal R., Faloutsos C., Swami A. (1993), Efficient similarity search in sequence databases, “Lecture Notes in Computer Science”, vol. 730, pp. 69–84.
Google Scholar

Bagnall A., Janacek G. (2005), Clustering time series with clipped data, “Machine Learning”, vol. 58(2–3), pp. 151–178.
Google Scholar

Fu T. (2011), A review on time series data mining, “Engineering Applications of Artificial Intelligence”, vol. 24, Issue 1, pp. 164–181.
Google Scholar

Gatnar E., Walesiak M. (2004), Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław.
Google Scholar

Gavrilov M., Anguelov D., Indyk P., Motwani R. (2000), Mining the stock market: which measure is best, Proceedings of the eighth ACM SIGKDD international conference on knowledge discovery and data mining, Boston, pp. 487–496.
Google Scholar

Grabiński T., (1992), Metody taksonometrii, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków.
Google Scholar

Korzeniewski J. (2012), Metody selekcji zmiennych w analizie skupień. Nowe procedury, Wydawnictwo Uniwersytetu Łódzkiego, Łódź.
Google Scholar

Möller‑Levet C. S., Klawonn F., Cho K., Wolkenhauer O. (2003), Fuzzy clustering of short time‑series and unevenly distributed sampling points, “Lecture Notes in Computer Science”, vol. 2811, pp. 330–340.
Google Scholar

Struzik Z. R., Siebes A. (1999), Measuring time series’ similarity through large singular features revealed with wavelet transformation, Proceedings of tenth international workshop on database & expert systems applications, Berlin, pp. 12–22.
Google Scholar

Yeh M. Y., Dai B. R., Chen M. S. (2007), Clustering over multiple evolving streams by events and correlations, “IEEE Transactions on Knowledge and Data Engineering”, vol. 19(10), pp. 1349–1362.
Google Scholar

Yin J., Gaber M. M. (2008), Clustering distributed time series in sensor networks, Proceedings of the eighth IEEE international conference on data mining, Washington, pp. 678–687.
Google Scholar