Использование программ import io и openrefine
TRANSCRIPT
![Page 1: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/1.jpg)
OPEN DATA WORKSHOPСкрепинг данных с сайтов гос. органов с помощью import.io и обработка в Open Refine для активистов и журналистов
Виталий ВласовОльга Пархимович
![Page 2: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/2.jpg)
ПРОБЛЕМЫ ПРИ РАБОТЕ С ДАННЫМИ
• Не в машиночитаемом формате (html, doc, pdf)
• «Грязные» данные: не нормализированные данные (одни и те же данные записаны в разной форме) и пр.
• Отсутствие геокоординат (или разные системы) в датасетах с адресами
• Отсутствие технической поддержки
• Несвоевременное обновление данных
• Недостаточный уровень детализации данных
• Отсутствие актуальных наборов данных
• Использование латиницы вместо кириллицы
![Page 3: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/3.jpg)
IMPORT.IO
• http://import.io - сервис для скрепинга данных
• http://zakupki.okmot.kg/pub/PublicOrder.action
![Page 4: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/4.jpg)
![Page 5: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/5.jpg)
![Page 6: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/6.jpg)
![Page 7: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/7.jpg)
![Page 8: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/8.jpg)
![Page 9: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/9.jpg)
![Page 10: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/10.jpg)
![Page 11: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/11.jpg)
![Page 12: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/12.jpg)
![Page 13: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/13.jpg)
![Page 14: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/14.jpg)
![Page 15: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/15.jpg)
![Page 16: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/16.jpg)
![Page 17: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/17.jpg)
![Page 18: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/18.jpg)
![Page 19: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/19.jpg)
![Page 20: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/20.jpg)
![Page 21: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/21.jpg)
![Page 22: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/22.jpg)
![Page 23: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/23.jpg)
![Page 24: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/24.jpg)
![Page 25: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/25.jpg)
ФУНКЦИИ OPEN REFINE- Преобразование данных к нужному формату- Предварительная обработка. Нахождение ошибок и опечаток- Получение представления о массиве данных
Установка:
1. Скачать OpenRefine: http://openrefine.org/2. Запустить установщик3. Открыть браузер и перейти по ссылке: http://127.0.0.1:3333
![Page 26: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/26.jpg)
ЗАГРУЗКА МАССИВА ДАННЫХ
![Page 27: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/27.jpg)
Создаем новый проект
![Page 28: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/28.jpg)
Загрузка исходного массива
![Page 29: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/29.jpg)
Настройка импорта файла. Выбор типа файла
![Page 30: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/30.jpg)
Изменение имени проекта
Настройка кодировки
![Page 31: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/31.jpg)
Настройка кодировки
![Page 32: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/32.jpg)
Настройка дополнительных параметров
![Page 33: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/33.jpg)
ПРЕДВАРИТЕЛЬНАЯ ОЧИСТКА ДАННЫХ
![Page 34: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/34.jpg)
количество строк в файле
количество отображаемых строк
название столбца
Основные элементы страницы
![Page 35: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/35.jpg)
Изменение наименований столбцов
- закупающая организация
- наименование закупки
- планируемая сумма- количество лотов- метод закупки- дата публикации- срок подачи заявок- статус
![Page 36: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/36.jpg)
Удаление столбцов
![Page 37: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/37.jpg)
Преобразование в числовой формат
Удаление пробелов: value.replace(" ", "")
![Page 38: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/38.jpg)
Разделение колонок на две
![Page 39: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/39.jpg)
Преобразование в формат дат
![Page 40: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/40.jpg)
Фасеты
![Page 41: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/41.jpg)
ИЗУЧЕНИЕ ДАННЫХ
![Page 42: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/42.jpg)
Использование фасетов для изучения встречающихся значений
Текстовые фасеты
![Page 43: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/43.jpg)
Использование фасетов для изучения встречающихся значений
Временные фасеты
![Page 44: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/44.jpg)
Использование фасетов для изучения встречающихся значений
Числовые фасеты
![Page 45: Использование программ Import IO и OpenRefine](https://reader034.vdocuments.site/reader034/viewer/2022052301/55c37546bb61eb997f8b46f2/html5/thumbnails/45.jpg)
Использование кластеризации