ai&bigdata lab 2016. Ярослав Притула: data are never good but they are good...
TRANSCRIPT
![Page 1: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/1.jpg)
Data are never good but they are good enough:
або пробуємо прогнозувати непрогнозованеЯрослав Притула, керівник CS@UCU
![Page 2: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/2.jpg)
Про що будем говорити Економічне/бізнес прогнозування та його різновиди Проект побудови довготермінових демографічних та
економічних прогнозів в США: Задача Рішення
Проект надбудови над існуючим проектом: Задача Рішення
Висновки
![Page 3: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/3.jpg)
Прогнозиста образити може кожен
Рим, 357 д.н.е. : Імператор Константіус заборонив консультуватись з віщунами, математиками та прогнозистами….. щоб цікавість передбачень замовкла назавжди.
В наші дні роль Константіуса виконують юристи, є кейси судових розглядів (і засуджень!) через погані передбаченя погоди, землетрусів, ураганів, паводків, засух, снігопадів.
Економічні прогнози Тенденція до усереднення The Economist: I never forecast a recession. If I’m right, no-one
will thank me; if I’m wrong, I’ll be fired
![Page 4: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/4.jpg)
Прогнозиста образити може кожен
Короткострокові v.s. довгострокові прогнози
![Page 5: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/5.jpg)
Прогнозиста образити може кожен
Гібрид І типу
Гібрид ІІ типу
Рівень теоретичної обґрунтованості
Рівень емпіричної обґрунтованості
DSGE
IDSGE
VAR
Класифікація Пагана макроекономічних моделей за ступенем теоретичної та емпіричної обґрунтованості. Джерело: Pagan, A. (2003). Report on Modelling and Forecasting at the Bank of England. Bank of England Quarterly Bulletin (Spring), 1-29.
![Page 6: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/6.jpg)
Різниця між Projection та Forecasting Projections – це прогноз зроблений на основі
заявленої моделі та заявлених припущень. Він вірний настільки, наскільки вірна модель прогнозування та зроблені припущення.
Forecasting не вимагає оприлюднення детальної моделі, на основі якої робиться прогноз.
![Page 7: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/7.jpg)
Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Коротко про економічну географію США
Країна США – одна 9 Multi-State Regions, 51 States (including DC), 179 Multi-County U.S. Economic Areas, 361 Multi-County Metropolitan Statistical Areas 29 Multi-County Metropolitan Divisions, and 3099 (or 3142) Counties or County Equivalents. Разом 3729 географічних одиниць.
![Page 8: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/8.jpg)
Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Задача проекту
Побудувати прогнози для 3729 географічних одиниць На 2005-2030 роки По 54 економічній та 51 демографічній змінній
Іншими словами На основі понад 21 млн одиниць інформації Видати близько 2.5 млн одиниць інформації З яких понад 1 млн - прогнози
![Page 9: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/9.jpg)
Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Кому це потрібно
Державні контрактори Рітейл Будівельні компанії Бібліотеки/університети Власне використання для побудови інших прогнозів
![Page 10: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/10.jpg)
Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Коротко про статистичну інформацію в США:
problems & opportunities Розподіл сфер та відповідальностей – Census, BEA,
Department of Justice, OFHEO, Office of the President…. Різні терміни виходу нових даних Різні географічні поділи у різних агентствах
Доступні стандартизовані дані з 1969 року, але Різні географічні поділи і класифікації Різні означення галузей: SIC vs NAICS Згрупована (схована) частина даних, через законодавство
![Page 11: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/11.jpg)
Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Етапи прогнозу: макрорівень
Макро прогноз базового року, як правило базується на даних від Chief Economic Advisor to the President
Будуємо економічний прогноз до 2030 року виходячи з припущень (прогнозів) зростання продуктивності –
Productivity isn't everything, but in the long run it is almost everything @Paul Krugman
Прогноз демографічний залежить від коефіцієнтів народжуваності, смертності та чистої імміграції, що в свою чергу залежить від економічних чинників, на які впливає продуктивність і демографія.
Отже маємо систему одночасних рівнянь, яка дає нам макропрогноз, до якого можна буде підтасовувати все інше.
![Page 12: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/12.jpg)
Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Етапи прогнозу: мікрорівень – ми любимо проблеми!
Згідно законодавства США, не можна розголошувати дані по тих галузях, де є менше рівно трьох компаній – Gap-filling algorithm
Gap-filling algorithm - the iterative proportion fitting (IPF) algorithm (a.k.a. RAS algorithm), застосовується для контролю сумування даних, як по галузі, так і по географічній одиниці. Робимо це на рівні штатів, потім на рівні county.
Деталі тут: M.H. Schneider and S.A. Zenios (1990), “A Comparative Study of Algorithms for Matrix Balancing,” Operations Research, 38: 439-455.
Проблеми/покращення: IPF\RAS алгоритм передбачає внесення початкових даних, що суттєво впливає на час та точність кінцевого результату. Експериментування з різними початковими даними!
![Page 13: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/13.jpg)
Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Етапи прогнозу: мікрорівень – ми любимо проблеми!
Зміни з галузевій класифікації, уніфікація географічних одиниць на рівні county. Переводимо всі грошові дані в сталі долари
Прогнозуємо основні економічні змінні (дохід та кількість працюючих) виходячи з (і) темпів зростання County, (іі) темпів зростання Economic Area, (iii) національного зростання. Прогнозуємо та балансуємо дохід та кількість працюючих по галузях.
Демографія залежить від економіки, народжуваності/ смертності та внутрішньої міграції. Частина counties мають специфічний прогноз (військові бази, великі тюрми, тощо)
Далі округлюються дані по людях – Rounding algorithm. Агрегуємо до бажаного рівня.
![Page 14: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/14.jpg)
Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Який output очікує клієнт (+/- 2005 рік)?
Дані на сайті? Диск з даними? Дані надіслані емейлом? Дані надіслані факсом? Дані надіслані друкованим листом? Надрукована книжка з прогнозами? Графіки та візуалізації даних?
![Page 15: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/15.jpg)
Використання базових прогнозів для творення більш специфічних продуктів Construction Economics projections:
Number of new housing units authorized by permits Number of new single-family units Average cost of construction of new housing unit
Median Prices of Houses projections Projections of Building Permit Activity by Category of
Construction Специфічні прогнози для індивідуального замовника
![Page 16: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/16.jpg)
Median Prices of Houses projections
Початок проекту – 2004 рік, початок housing boom. Пошук даних Чи добрі дані? Case–Shiller Home Price Indices для порівняння Пошук замовників
![Page 17: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/17.jpg)
Median Prices of Houses projections
![Page 18: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/18.jpg)
Median Prices of Houses projections
Панельна регресія з фіксованими ефектами
HPRICEP = Ci
+ 3.69 YHH (high skew) + 1.55 YHH (medium skew) + 1.40 YHH (low skew)
- 3.42 MGRATE * valueSF/UnitsSF - 0.24 surplus 5 year
+ 270 899.30 Pop/Density, R2 = .95, DW =.60YHH – income per householdMGRATE – monthly mortgage rate per single family unitSurplus 5 year - surplus of new houses cumulated over the past five years (comes as a difference between actual and estimates number of new housing units available)Pop/Density - indicator of limitations of building land availability.
![Page 19: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/19.jpg)
Як вимірювати якість прогнозу при мільйоні зроблених прогнозів?
Якщо вибрана методика залежить від побажань/преференцій споживача, то точність прогнозу не варто вимірювати звичними методами.
Окрім того, як виміряти якість прогнозу на 2020 чи 2030 рік?
Пропозиція 1: якщо клієнт задоволений і прийшов знову (за наявності конкурентів), то якість є задовільною.
Пропозиція 2: якщо ви можете переконати муніципального регулятора зменшити ваш податок виходячи з ваших оцінок (прогнозів), то якість є задовільною.
![Page 20: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/20.jpg)
Висновки
Data are never good but they are good enough Бажаю всім працювати в information rich environment Data Science є (чи має бути) настільки Science в
прикладних дослідженнях, наскільки замовники цього бажають
Якщо ви працюєте з економічними даними, то важко переносити методику прогнозу з однієї країни на іншу, оскільки інститути, соціум та культура сильно впливають як на економіку, так і на самі дані. Є приємні виключення.
![Page 21: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое](https://reader034.vdocuments.site/reader034/viewer/2022042723/587d706e1a28ab32318b7ba1/html5/thumbnails/21.jpg)
Питання? Відповіді!
11 червня 2016 – День відкритих дверей, Львів, вул. Козельницька 2а, 13.00.
csds.ucu.edu.ua, cs.ucu.edu.ua