Работа с данными в google таблицах
DESCRIPTION
Пошаговое прохождениеTRANSCRIPT
Таблицы Google как наиболее удобный инструмент для
начинающих дата-журналистов
Мастер-класс
19 сентября 2013 г.
Таблицы:
• Google (бесплатное ПО)
• Open/Libre Office (бесплатное ПО)
• MS Excel (платное ПО)
Чтобы работать с Google таблицами, необходимо завести аккаунт Google
Google документы:
Допускают совместную работу над таблицей онлайн.
Если вдруг оборвалась связь с
интернетом, то работать с документом невозможно.
Можно включить возможность автономной работы.
Форматы, с которыми можно работать в таблицах:
Импорт файла в Google таблицу
Импорт файла в Google таблицу
Готово
Примечание: Если таблица отказывается импортировать файл .xls, ссылаясь на то, что это неизвестный ей формат, можно попробовать открыть этот файл в таблице Excel или Open/Libre Calc и сохранить его, например, в версии 97-2003.
Важно: До начала обработки данных обязательно нужно сделать копию документа, чтобы исходный вариант на всякий случай тоже сохранился.
Как правило, данные в таблице бывают отформатированы. Удобства ради уберем форматирование, чтобы видеть таблицу в чистом виде.
Готово
Теперь смотрим на данные
Продолжаем смотреть на данные
Что делать?
Что делать с отсутствующими данными?
• Это всегда зависит от конкретной ситуации.
• Отсутствие данных может быть поводом провести расследование именно по этому вопросу.
• Можно попробовать обратиться в ведомства, отвечающие за публикацию этих данных, и запросить недостающую информацию.
• Можно попробовать поискать наборы данных по той же теме в других источниках.
Что делать с отсутствующими данными?
• В ряде случаев, когда речь идет об общих тенденциях и соотношениях, отсутствием данных можно пренебречь: например, вообще не рассматривать данные за определенный период, а исследовать тот период, для которого все данные есть.
• Аналитики в применении к некоторым случаям могут сопоставлять просто последние имеющиеся данные для каждого случая.
Важно: все допущения в работе с данными желательно фиксировать в
таблице – например, в форме комментария.
В нашем случае данных за 2010 и 2011 гг. существенно меньше, чем за прочие годы. Попробуем посмотреть тот период, за который у нас больше данных.
Выделяем нужную область, копируем её (Ctrl+C), создаем новую вкладку в таблице и вставляем туда то, что скопировали (Ctrl+V)
Подсчёты
Сортировка
В нашем случае рассортируем страны по признаку общей численности самоубийств от максимальных показателей к минимальным.
Теперь у нас есть рассортированные данные, и мы можем сосредоточиться на странах с максимальными и минимальными значениями. К примеру, можно сопоставить эти показатели с другими индикаторами благополучия/неблагополучия. Например, ВВП, продолжительность жизни, уровень безработицы и т.д.
Забегая вперед, скажу, что во многих случаях из тех, с которыми мы хотим сопоставить наши данные, отсутствуют значения за 2004 г. Также по ряду стран некоторые данные представлены очень неполно. Набор стран, с которыми мы в дальнейшем будем работать, обусловлен и этими факторами.
За 2005 год отсутствуют данные по Италии. В порядке допущения внесем в ячейку тот же показатель, что в 2006 г. (необходимо это указать).
Теперь попробуем соотнести это с другими показателями, как-то:
• Продолжительность жизни
• ВВП
• Уровень безработицы
• Бюджет на социальные нужды
• Бюджет на пособия по безработице
Проблема:
Как представить несколько измерений в одной таблице, а в дальнейшем – и в виде двухмерной визуализации?
Одно из возможных решений – представить данные в виде интерактивной динамической схемы
https://docs.google.com/spreadsheet/ccc?key=0AofhFA7uQyz0dEwxMGE2QWpsNUtpbDhmN0U3cXJ0MXc#gid=0
Динамическую схему (motion chart) разработал Ханс Рослинг (Hans Rosling), шведский врач и статистик.
Выступления Рослинга (в том числе презентация динамической схемы) на конференции TED:
http://www.ted.com/speakers/hans_rosling.html
В свою очередь, сводная таблица должна выглядеть примерно так:
Задача: преобразовать нашу таблицу в таблицу такого вида
Data Wrangler
Это можно легко сделать при помощи бесплатной программы Data Wrangler, которая работает онлайн.
http://vis.stanford.edu/wrangler/
Data Wrangler
1. Для удобства в дальнейшем вернем сортировку стран по алфавиту. После чего копируем таблицу.
2. Включаем Data Wrangler:
Data Wrangler
3.Вставляем скопированное в открывшееся окно и нажимаем “Wrangle”.
Data Wrangler
Data Wrangler
4. Фиксируем заглавную строку
Data Wrangler
5. Перераспределяем данные
Data Wrangler 6. Экспортируем (для вставки в таблицу – лучше всего в виде Tab-Separated Values)
Data Wrangler
7. Вставляем результат в таблицу
Data Wrangler
Дальнейшие шаги
• Аналогичным образом обрабатываем нужные нам данные из других таблиц.
• Всё нужное собираем в единую сводную таблицу.
Визуализация
Выделяем таблицу и вызываем диалог построения диаграмм.
Выбираем динамическую схему и нажимаем «Вставить»
Если щелкнуть по белому полю диаграммы, то в правом верхнем углу появится треугольник, щелкнув по которому можно вызвать меню.
В частности, можно получить код для публикации схемы на html-странице
Можно также переместить диаграмму на отдельный лист
Ссылки:
• Таблица, которая была создана в итоге: https://docs.google.com/spreadsheet/ccc?key=0AofhFA7uQyz0dEwxMGE2QWpsNUtpbDhmN0U3cXJ0MXc#gid=0
• Google Диск: https://drive.google.com
• Data Wrangler: http://vis.stanford.edu/wrangler/