ВИДІЛЕННЯ ТРЕНДОВИХ СКЛАДОВИХ ЧАСОВОГО РЯДУ...
DESCRIPTION
13 січня 2011 року виступ на конференції ІПМЕ ім.Г.Є.Пухова або Гусениця-SSA в українському національному гріді ;) Відео доступне тут - http://taltek.info/ipme_ssa_grid.htmlTRANSCRIPT
1
ВИДІЛЕННЯ ТРЕНДОВИХ СКЛАДОВИХ
ЧАСОВОГОРЯДУГ АЗОСПОЖИВАННЯ
МЕТОДОМ“ ”-SSA ГУСЕНИЦЯ В
УКРАЇНСЬКОМУ НАЦІОНАЛЬНОМУ
ГРІДІ : Асистент кафедри КН .НазаревичОБ.
: ., . . . Науковий керівник проф дтн . .ЩербакЛМ
12-13 січня 2011 ІПМЕ ім. Г.Є.Пухова НАН України (с) [email protected]
Тернопільський національний технічний університет імені ІванаПулюя
' Кафедра комп ютерних наук
22
Предметна область досліджень
• Аналіз річних часових рядів (газоспоживання міста)
• Методом “Гусениця”-SSA виділення трендових складових: сезонна і циклічні компоненти та стохастичний залишок (адитивна модель)
• Оцінка складності реалізації алгоритму даного методу, обчислювальний експеримент в Українському національному грід (УНГ)
33
Мета доповіді
• Постановка задачі на основі SVD-розкладу (перший крок методу “Гусениця”-SSA)
• Аналіз результатів чисельного експерименту оцінки алгоритмічної складності
• Розглянути три програмних реалізації алгоритму SVD: на базі Matlab на HPC, R+RSSA (на одному ядрі) та як грід-задачу
44
Структура, характерні властивості топології споживачів при формуванні статистики
• Річний часовий ряд, 2008рік, 366днів, N=8784год• Агрегація даних - 1 година, розмірність м3
• Газорозподільна станція (ГРС), що подає газ для обласного центру (не має великих промислових об'єктів)
• Витратомірний комплекс Флоутек (витрати приведені до нормальних умов)
• Межі допустимої відносної похибки ±1.0%• Два види споживачів: побутові газові прилади та
газові котельні (опалення міста взимку)
55
– Приклад виділення адитивної складової сезонноготренду
Главные компонентыOnly for SSA Q Gaz Ternopil 2008 by hours.csv; Перем:Var1;
РАЗЛОЖ.-K=8113,Цент.(Нет);
1(92.739%)
33
6
67
2
10
08
13
44
16
80
20
16
23
52
26
88
30
24
33
60
36
96
40
32
43
68
47
04
50
40
53
76
57
12
60
48
63
84
67
20
70
56
73
92
77
28
80
64
188988
487611
786235
1084858
1383481
2(1.239%)
33
6
67
2
10
08
13
44
16
80
20
16
23
52
26
88
30
24
33
60
36
96
40
32
43
68
47
04
50
40
53
76
57
12
60
48
63
84
67
20
70
56
73
92
77
28
80
64
-240145
-121878
-3612
114654
232920
3(1.183%)
33
6
67
2
10
08
13
44
16
80
20
16
23
52
26
88
30
24
33
60
36
96
40
32
43
68
47
04
50
40
53
76
57
12
60
48
63
84
67
20
70
56
73
92
77
28
80
64
-197127
-98817
-507
97802
196112
4(1.179%)
33
6
67
2
10
08
13
44
16
80
20
16
23
52
26
88
30
24
33
60
36
96
40
32
43
68
47
04
50
40
53
76
57
12
60
48
63
84
67
20
70
56
73
92
77
28
80
64
-200858
-93337
14184
121705
229225
5(0.495%)
33
6
67
2
10
08
13
44
16
80
20
16
23
52
26
88
30
24
33
60
36
96
40
32
43
68
47
04
50
40
53
76
57
12
60
48
63
84
67
20
70
56
73
92
77
28
80
64
-102938
-51331
275
51882
103488
6(0.495%)
33
6
67
2
10
08
13
44
16
80
20
16
23
52
26
88
30
24
33
60
36
96
40
32
43
68
47
04
50
40
53
76
57
12
60
48
63
84
67
20
70
56
73
92
77
28
80
64
-105505
-52860
-215
52430
105075
7(0.303%)
33
6
67
2
10
08
13
44
16
80
20
16
23
52
26
88
30
24
33
60
36
96
40
32
43
68
47
04
50
40
53
76
57
12
60
48
63
84
67
20
70
56
73
92
77
28
80
64
-112724
-43405
25913
95232
164551
8(0.263%)
33
6
67
2
10
08
13
44
16
80
20
16
23
52
26
88
30
24
33
60
36
96
40
32
43
68
47
04
50
40
53
76
57
12
60
48
63
84
67
20
70
56
73
92
77
28
80
64
-138167
-72400
-6633
59134
124901
9(0.133%)
33
6
67
2
10
08
13
44
16
80
20
16
23
52
26
88
30
24
33
60
36
96
40
32
43
68
47
04
50
40
53
76
57
12
60
48
63
84
67
20
70
56
73
92
77
28
80
64
-74381
-33026
8329
49684
91040
Главные компонентыOnly for SSA Q Gaz Ternopil 2008 by hours.csv; Перем:Var1;
РАЗЛОЖ.-K=8113,Цент.(Нет);
1(92.739%) - 2(1.239%) 2(1.239%) - 3(1.183%) 3(1.183%) - 4(1.179%)
4(1.179%) - 5(0.495%) 5(0.495%) - 6(0.495%) 6(0.495%) - 7(0.303%)
7(0.303%) - 8(0.263%) 8(0.263%) - 9(0.133%) 9(0.133%) - 10(0.074%)
L=672(28дн) головні компоненти та їх поєднання
L=168(тиждень) виділений тренд та залишок
66
Приклад виділення сезонних та циклічних складових тренду, що визначають динаміку часового ряду
Sin-модульована компонента Т=12год
Sin-модульована компонента Т=24год
Sin-модульована компонента Т=8год
Сезонна складова
77
Адитивна модель газоспоживання
0( , ) ( ) ( ) ( , )kk
t A t B t t
0 ( )A t
kk
B
- сезонний тренд
- циклічні складові (наприклад, з періодом 6,12,24,168 годин частково sin-модульовані)
- стохастичний залишок( , )t
88
1 – ПРИКЛАД сума циклічних
0( ) ( ) ( ) ( )Y t A t t X t 0 ( )A t
( )X t
( )t
99
2 – ПРИКЛАД окремо циклічні
( )X t
0( ) ( ) ( ) ( )TT
Y t A t B t X t 12 ( )B t
24 ( )B t
8 ( )B t
0 ( )A t
1010
Програмна реалізаціяОбчислювальні ресурси, використані в дослідженні:
• Linux кластер Суперкомпютерного центру НТУУ “КПІ” (TOP-1 України, http://hpcc.org.ua/ganglia/)
• Windows кластер НТУУ “КПІ” (http://hpcc.org.ua/index.php/Cluster, ліцензійний MATLAB @ 56 ядрах Intel Xeon E5345)
• Ресурси віртуальної організації (ВО) academia (http://grid.org.ua/voms/ , найбільші кластери України)
• R-CRAN + RSSA грід сайту ТНТУ (ng.tntu.edu.ua) (http://gridmon.bitp.kiev.ua/clusdes.php?host=ng.tntu.edu.ua&port=2135)
1111
Розкладу N=8784, L=N/2, k=NMatlab 2009b (Intel Xeon 8 ядер, 8Гб ОЗП)
1212
1
10
100
1000
Результат тестування SVDS(X,K) у Matlab 2009b на Xeon 2 х CPU 4 сores, 8Gb RAM
Суперкомп’ютерний центр НТУУ “КПІ”
K – кількість рангованих власних векторів (100-4300)
Час виконання: K=100 – 2хв … K=4300 – 229хв (N=8784, L=N/2)Загальна тривалість тесту (сума часу по точках) ~91 год.
Час виконання Ln(Т), хв
1313
0.1
10
1000
100000
nutrlan 992.97 981.21 398.67 95.91 27.95 8.56 4.2 1.29 0.42
propack 1022.79 876.57 780.56 668.19 159.45 47.58 19.45 5.04 1.58
svd 741.72 741.98 743.84 736.87 738.65 742.67 766.04 762.9 763.29
eigen 383.92 382 382 382 374.05 384.3 381 382 383
4392 3000 2000 1000 500 300 200 100 50
Час
Log
(T
), с
ек
Кількість власних чисел (головних компонент)
Порівняння витраченого часу [R+RSSA] (для одного ядра L=N/2)
1414
1
10
100
1000
nutrlan 147.3 100.6 67.1 33.58 16.83 10.12 6.771 3.419 1.743
propack 294.5 201.2 134.1 67.1 33.58 20.18 13.47 6.771 3.419
svd 294.5 201.2 134.1 67.1 33.61 20.21 13.51 6.08 3.452
eigen 147.3 147.3 147.3 147.3 147.3 147.3 147.3 147.3 147.3
4392 3000 2000 1000 500 300 200 100 50
Порівняння 'використаної пам яті [R+RSSA] (для одного ядра L=N/2)
Пам
'ять
Log
(M
),
Mb
Кількість власних чисел (головних компонент)
15
Приклад запуску грід задачі на грід вузлі ТНТУ - ng.tntu.edu.ua
1616
ВИСНОВКИ
• Складність алгоритму
• При зменшенні дискретизації та збільшенні інтервалу спостереження – експоненційно зростають вимоги до обчислювальних ресурсів (часу та пам'яті)
• Перспектива використання ресурсів (від HPC до УНГ)
• Перспектива зменшення складності – алгоритм (R+Rssa)
• Дослідити використання гібридних HPC(GRID) CPU+GPU• Запропоновано найбільш ефективну за часом та ресурсами
пам'яті реалізацію R+RSSA, але необхідність перезбирання і адаптацію під MPI (в загальному роботу в ГРІД)
3O N
1717
Література
1. Golyandina N.E., Nekrutkin V.V., Zhigljavsky A.A. (2001). Analysis of Time Series Structure: SSA and related technique, Chapman & Hall / CRS, Boca Raton, 306 p.
2. http://www.mathworks.com/products/parallel-computing/
3. A. Korobeynikov (2010), "Computation- and space-efficient implementation of SSA", Statistics and Its Interface", 3, 357-368
1818
1
10
100
1000
!Дякуюза увагу Запитання –
ВИДІЛЕННЯТРЕНДОВИХСКЛАДОВИХ ЧАСОВОГОРЯДУ Г АЗОСПОЖИВАННЯ
“ ”-SSA МЕТОДОМ ГУСЕНИЦЯ В УКРАЇНСЬКОМУНАЦІОНАЛЬНОМУ
ГРІДІ
Тернопільський національний технічний
університет імені Івана Пулюя
' Кафедра комп ютерних наук
12-13 січня 2011 ІПМЕ ім. Г.Є.Пухова НАН України (с) [email protected]
19
Додаткові слади
Слайди для відповідей на запитання
2020
Статистика грід сайту ТНТУ
Грід сайт ТНТУ ім.Пулюя
(ng.tntu.edu.ua)
2121
ВО academia
22
Зменшуємо складність алгоритму O(N^3) -> O(k N log(N))
Математичний пакет – R (CRAN)
Бібліотека RSSA [3]
Переваги:
- Швидкість виконання зменшується в 10-15 раз при повному розкладі
Недолік:
- працює для одного ядра, не підктримує розприбілених обчислень (напр. MPI)
2323
Метод “Гусениця”-SSA
Нехай N - довжина часового ряду, розглянемо відрізок 2<L<N/2, який будемо називати «вікно»,
або «довжина гусениці».
Апріорі, якщо N має тренд чи періодичну повторюваність, то і L буде мати її теж.
Розглянемо даний відрізок послідовно як вікно, що переміщується з кроком 1:
(f0,f1…fL-1), (f1,f2…fL), … ,(f(K-1) ,fK…f(N-1)) . Запишемо у вигляді траєкторної матриці.Складемо із векторів вложення траєкторну матрицю L×K, де K = N−L+1, N – довжина ряду, L – довжина вікна (гусениці)Тепер маємо повторюваність, можемо спробувати побачити структуру вкладених векторів.
Використаємо такий підхід:• Розкладемо всю траєкторну матрицю наелементарні частини (суму елементарних матриць)і впорядковані по їх вкладу розклади• Якщо розклад буде “вдалим”, зможемо згрупувати елементарні матриці, наприклад: трендова складова, циклічна тощо.• На далі просумуємо матриці в середині кожної групи і повернемося від суми елементарних матриць до матриць розкладу ряду на тренд, циклічну складову та залишок.• Для траєкторної матриці використаємо сингулярний розклад з точки зору статистики, якщо розглядати вектор вкладень як вибірку, сингулярний розклад з точністю до центрування, еквівалентний аналізу головний компонент (МГК або PCA))
24
Тренд при різних значеннях L=24(доба), 168( )тиждень , 672(28 )дн , 744(31 )дн
L=744(31день) 1-2компоненти
L=168(тиждень) 1 компонента
L=744(31день) 1 компонента
L=24(доба) 1 компонента
L=672(28днів) 1компонентаL=336(2 тижні) 1компонента
25
Висновки по вибору L – довжини гусениці
L=24(доба) 1 компонента
• При виборі L – довжини гусениці, необхідно задавати число кратне періоду
• Необхідно декілька ітерацій: L=N/2,….L=24(Tmin)
• Інтерактивність методу полягає в групуванні дослідником головних компонент
L=744(31день) 1 компонента
2626
“ ”-Актуальність використання Гусениця SSA
• На сьогоднішній день актуальним є математичне моделювання та використання ефективних методів аналізу динаміки часових рядів (газоспоживання).
• Традиційні підходи, засновані на використанні класичних моделей типу «тренд + шум» або «авторегресії - ковзного середнього», призводять до задовільних результатів лише для рядів досить простої структури
• Особливість часових рядів, що відображають динаміку, полягає в тому, що їхні характеристики можна сформувати з декількох складових:
Повільної – сезонного тренда;Циклічних складових - періодичних;Випадкової – залишок після виділення тренду, як реалізації випадкового процесу.
2727
“ ”-Гусениця SSA і динамічний хаос
1. Broomhead і King (1986) пропонують використовувати SSA і М-SSA в контексті нелінійної динаміки з метою відновлення атрактор системи з виміряних часових рядів.
2. Ghil, Vautard і співробітники (Vautard і Ghil, 1989; Ghil і Vautard, 1991;. Vautard та ін., 1992) зауважив аналогію між траєкторією матриця Broomhead і King, з одного боку, і Karhunen (1946)-Loève (1945) аналіз головних компонент у домені часу, з іншого. Таким чином, SSA може бути використаний як метод області часу і частоти для аналізу часових рядів - незалежно від атрактора реконструкції, в тому числі і у випадках, коли останній може дати збій.
3. На сьогоднішній час праці, присвячені методологічним аспектам застосування SSA, обчислюються сотнями.
4. Багато літератури надаються Elsner and Tsonis (1996), Danilov and Zhigljavsky (1997), Golyandina et al. (2001) and Ghil et al. (2002).
2828
“ ”-Література та автори методу Гусениця SSA
1. Broomhead D., King G. Extracting qualitative dynamics from experimental data // Physica D. — 1986. — V. 20. — P. 217–236.2. Главные компоненты временных рядов: метод «Гусеница» / Под ред. Д.Л. Данилова, А.А. Жиглявского. — СПб.: Пресском, 1997. — 308 с.3. Бухштабер В. М. Многомерные развертки временных рядов. Теоретические основы и алгоритмы // Обозрение прикл. промышл. матем. Сер. Вероятн. и статист. — 1997. — Т. 4. — Вып. 4. — С. 629–645.4. Cadzow J. A. Signal Enhancement — A Composite Property Mapping Algorithm // IEEE Transactions on Acoustics, Speech and Signal Processing. — 1988. — V. 36. — P. 49–62.5. Golyandina N. E., Nekrutkin V. V., Zhigljavsky A. A. Analysis of Time Series Structure: SSA and Related Techniques. — Boca Raton: Chapmap & Hall/CRC, 2001. — 305 p.6. Elsner J. B., Tsonis A. A. Singular Spectrum Analysis: A New Tool in Time Series Analysis. — New York, London: Plenum Press, 1996. — 164 p.7. Vautard R., Yiou P., Chil M. Singular-spectrum analysis: A toolkit for short, noisy chaotic signals // Physica D. —1992. — V. 58. — P. 95–126.8. Голяндина Н. Э. Метод «Гусеница»-SSA: анализ временных рядов: Учебное пособие. — СПб: ВВМ, 2004. — 76 с.9. Кендэл М. Ранговые корреляции. — М: Статистика,1975. — 212 c.
29
Випадковий процес
Випадко? вий проце? с (англ. stochastic process, нім. Stochastischer Prozess, рос. Случайный процесс) — важливе поняття сучасної теорії ймовірностей. Є певним узагальненням поняття випадкова величина, а саме — це випадкова величина, що змінюється з часом (іншими словами: випадкова величина, що залежить від змінної величини, яку називають час, або іншими словами — це набір випадкових величин, параметризованих величиною T — часом).
[uk.wikipedia.org/wiki/Випадковий_процес]
30
Часовий ряд
Часов?ий ряд (англ. time series) — реалізація випадкового процесу, набір послідовних результатів спостереження.[1]
1. Chris Chatfield The Analysis of Time Series, an Introduction, вид. 5-те, 1996. — С. 33, Chapman & Hall/CRC.2.
2. Бокс, Дженкинс Анализ временных рядов прогноз и управление, 1974.
3. Т.Андерсон Статистический анализ временньіх рядов, 1976