Модуль 3: Как понять данные · 2017-01-26 · О ком были...

54
Модуль 3: Как понять данные 1 От данных к репортажу: Думай как дата-журналист Модуль 3: Как понять данные УЧЕБНОЕ ПОСОБИЕ ДЛЯ СТУДЕНТОВ Чтобы грамотно анализировать данные, вам прежде всего нужно научиться оценивать их качество и применять основные принципы статистики для их правильной интерпретации. В этом модуле мы рассмотрим основные моменты организации и очистки данных, а также вопросы, которые помогут оценить источник данных. Далее вы познакомитесь с базовыми вычислениями, которые могут превращать числа в доли, сопоставимые значения и округленные величины, которые более понятны аудитории. После этого мы освоим основы статистики, чтобы быть уверенными в правильной интерпретации данных и замечать, что с данными были произведены какие-то манипуляции. В конце мы рассмотрим вопрос конфиденциальности данных. После окончании этого модуля вы сможете: Организовать набор данных для анализа Определить, можно ли доверять источнику данных Упростить данные, чтобы они были более понятны широкой аудитории Объяснить основные принципы статистики Проанализировать обработанные данные Объяснить трудности, возникающие в связи с конфиденциальностью данных Содержание Урок 1: Организация данных ....................................................................................................... 3 Стандартизация данных ......................................................................................................................... 3 Как стандартизировать данные ............................................................................................................. 5 Урок 2: Проверка данных............................................................................................................. 6 Пример: Причины смертности среди детей в возрасте до 5 лет ........................................................ 7 Вопросы, которые необходимо задать при работе с набором данных ............................................. 9 Упражнение: Вопросы к данным ........................................................................................................ 11 Пример: оценка данных о преступности ............................................................................................ 12 Упражнение: оценка данных о расходах на здравоохранение ........................................................ 14 Урок 3: Обобщаем и упрощаем данные ................................................................................... 15

Upload: others

Post on 05-Mar-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 1

Отданныхкрепортажу:Думайкакдата-журналист

Модуль3:КакпонятьданныеУЧЕБНОЕПОСОБИЕДЛЯСТУДЕНТОВ

Чтобыграмотноанализироватьданные,вампреждевсегонужнонаучитьсяоцениватьихкачествоиприменятьосновныепринципыстатистикидляихправильнойинтерпретации.Вэтоммодуле мы рассмотрим основные моменты организации и очистки данных, а также вопросы,которыепомогутоценитьисточникданных.Далеевыпознакомитесьсбазовымивычислениями,которыемогутпревращатьчиславдоли,сопоставимыезначенияиокругленныевеличины,которыеболеепонятныаудитории.Послеэтогомыосвоимосновыстатистики,чтобыбытьувереннымивправильной интерпретации данных и замечать, что с данными были произведены какие-томанипуляции.Вконцемырассмотримвопросконфиденциальностиданных.

Послеокончанииэтогомодулявысможете:

● Организоватьнаборданныхдляанализа

● Определить,можнолидоверятьисточникуданных

● Упроститьданные,чтобыонибылиболеепонятныширокойаудитории

● Объяснитьосновныепринципыстатистики

● Проанализироватьобработанныеданные

● Объяснитьтрудности,возникающиевсвязисконфиденциальностьюданных

Содержание

Урок1:Организацияданных.......................................................................................................3Стандартизацияданных.........................................................................................................................3Какстандартизироватьданные.............................................................................................................5

Урок2:Проверкаданных.............................................................................................................6Пример:Причинысмертностисредидетейввозрастедо5лет........................................................7Вопросы,которыенеобходимозадатьприработеснаборомданных.............................................9Упражнение:Вопросыкданным........................................................................................................11Пример:оценкаданныхопреступности............................................................................................12Упражнение:оценкаданныхорасходахназдравоохранение........................................................14

Урок3:Обобщаемиупрощаемданные...................................................................................15

Page 2: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 2

Отданныхкрепортажу:Думайкакдата-журналист

Упрощаемпроцентныепоказатели....................................................................................................15Считаемдоли........................................................................................................................................17Сравниваемпоказатели.......................................................................................................................18Округляемзначения.............................................................................................................................20Упражнение:сравниваемзначения....................................................................................................21

Урок4:Основыстатистики........................................................................................................26Выборка.................................................................................................................................................26Наиболеечастовстречающиесяметодывыборки............................................................................27Примерыплохойвыборки:ненаучныеопросы.................................................................................28Чтотакоепределпогрешности...........................................................................................................28Пример:маленькийобъемвыборкииспорыовакцинеиаутизме................................................29Пример:маленькиевыборкивнутрибольших..................................................................................29Пример:какнедатьввестисебявзаблуждениедокладомозанятости........................................30Упражнение:пределпогрешности.....................................................................................................31Оценкадостоверностиданных(1/3)...................................................................................................32Оценкадостоверностиданных(2/3)...................................................................................................33Оценкадостоверностиданных(3/3)...................................................................................................34Упражнение:оценкадостоверностиданных.....................................................................................35

Урок5:Оценкаинтерпретацииданных....................................................................................36Подменаиндикатора...........................................................................................................................37Сравнениенесравнимого(1/2)...........................................................................................................38Сравнениенесравнимого(2/2)...........................................................................................................40Выводзакономерностиизсовпадения(1/2).....................................................................................41Выводзакономерностиизсовпадения(2/2).....................................................................................42Корреляциянеозначаетпричинно-следственнойсвязи(1/3).........................................................43Корреляциянеозначаетпричинно-следственнойсвязи(2/3).........................................................44Корреляциянеозначаетпричинно-следственнойсвязи(3/3).........................................................45Экстраполяцияиобобщенияизслишкоммаленькогонабораданных..........................................46Совокупностьотдельныхслучаевнеявляетсянаборомданных.....................................................48

Урок6:Персональныеданные..................................................................................................49Пересечениеоткрытыхданныхимоихданных.................................................................................50Пример:Персональныеданные.........................................................................................................51Упражнение:Конфиденциальностьданных......................................................................................53Отказвпредоставленииданныхпопричинамконфиденциальности............................................54

Page 3: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 3

Отданныхкрепортажу:Думайкакдата-журналист

Урок1:Организацияданных

Передтемкакприступитьканализуданных,которыйпоможетнампроверитьгипотезуиответить на вопросы, мы должны понимать имеющуюся у нас информацию. Упорядочиваниеданных происходит в соотвествии с определенным набором стандартных правил, в результатекоторых данные становятся более читаемы. В ходе работымы в основном будем иметь дело сданнымивтаблицах,анесбазамиданных,номногиеизорганизационныхпринциповотносятсяиктем,икдругим.

Данныевтаблицах—этоданные,занесенныевэлектроннуютаблицуипредставленныевчеловекочитаемом формате. Вместо того, чтобы читать строку за строкой, вы можетепроанализироватьтаблицуцеликомисделатьвыводы.

Табличная база данных — это набор данных в виде двумерной таблицы: столбцы дляобозначения категории и строки для занесения записей. Такая система организации позволяеткомпьютеруанализироватьданныеинаходитьсовпадения,чтобывымоглисделатьобщиевыводыобэтихданных.

Каждый столбец назван в соответствии с категорией данных, которые он содержит, акаждая строка представляет собой отдельную запись. Столбец также указывает на тип данных,например,названия,возрастныекатегории,пол,организацияит.д.

Стандартизацияданных

Есливыработаетесбазойданных,важноучитывать,чтоинформациятудамоглапоступатьиз различных источников, данные могут отсутствовать, быть по-разному организованы, а такжесодержать ошибки, такие как дублирующиеся записи или орфографические ошибки. Все этоусложняетпроцессанализа,ихотямысвамивидимэтиошибки,компьютерихнераспознает.

Стандартизацияданных—этопроцессочисткиданных,одинизключевыхэлементоввдата-журналистике.

Первое,чтонадосделатьприочисткеданных—убедиться,чтостолбцыобозначеныверно,ичтотипданныхвстрокахсоответствуетзаголовку.

Многие процессы очистки данных позволяют нам привести в порядок всю базу данных,используяодинитотженаборинструментов.

Еслибазаданныхсодержиттакуюинформациякакадреса,возраст,единицыизмерения,топервое,чтонеобходимосделать—выбратьединыйспособзаполненияполейвбазеданных.

Page 4: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 4

Отданныхкрепортажу:Думайкакдата-журналист

Вотнестандартизированнаяколонкаданных:

Данные

12февраля2012

12/2/2012

2/12/2012

12/2/12

12/фев/2012

Несуществуетединственногоправильногоформата—главное,чтобывсезначенияимелиодинаковыйформат,икомпьютермогегораспознать.Важновыбратьтакойформат,которыйбылобынаиболееудобноприменятьдлявсейбазыданных.ВданномслучаемырешилииспользоватьформатДД/ММ/ГГГГ.Итеперь,послеочистки,нашиданныевыглядяттак:

Дата

12/2/2012

12/2/2012

12/2/2012

12/2/2012

12/2/2012

Теперькаждаязаписьсдатойимеетидентичныйформат:ДД/ММ/ГГГГ

Page 5: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 5

Отданныхкрепортажу:Думайкакдата-журналист

Какстандартизироватьданные

Основнойпринцип—убедиться,чтовседанныеимеютодинитотжеформат.Частодлястандартизациииспользуютсятолькозаглавныебуквы.Убедитесь,чтоввашихданныхнетлишнихпробелов.

Переднамиследующийнаборданных:

Нестандартизированныеданные:

Имя Датарождения

Адрес Зарплата

MarinaTzvetaeva 8October1892

Borisoglebskyi,6/1 10000р.

ОсипМандельштам 15/1/1891 Нащокинскийпер.3,кв.26

Врублях10000

Стандартизированныеданные:

ИМЯ ДАТАРОЖДЕНИЯ

АДРЕС ЗАРПЛАТА(РУБ)

МАРИНАЦВЕТАЕВА 08/10/1892 БОРИСОГЛЕБСКИЙПЕРЕУЛОК,ДОМ6/1

10000

ОСИПМАНДЕЛЬШТАМ 15/01/1891 НАЩОКИНСКИЙПЕРЕУЛОК,ДОМ3,КВ.26

10000

Существуют специальные программы, а также функции в Excel, предназначенные дляочисткиданных.ДлябазовойочисткиданныхвамбудетдостаточнофункцийExcel:фильтр,«найтиизаменить»,СЖПРОБЕЛЫ.ДляболеесложнойочисткиданныхподойдетпрограммаOpenRefine—она может справиться даже с самыми запутанными наборами данных. Мы рассмотрим этиинструментыналабораторныхзанятиях.

Page 6: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 6

Отданныхкрепортажу:Думайкакдата-журналист

Урок2:Проверкаданных

Наизображении:Источникданных?Показатели?Единицыизмерения?

Таблицыданных зачастую содержат в себебольшойобъеминформации в сжатомвиде.Перед тем как приступать к анализу, важно понять, что конкретно измеряется и что означаютописания,категорииидругаяконтекстуальнаяинформация.Этопоможетверноинтерпретироватьданные.

Какправило,данныепоконкретнойтемеготовятсяспециалистамивэтойобласти,поэтомутамширокоиспользуетсяпрофессиональныйжаргониаббревиатуры,отчастичтобысэкономитьместо в документе. Если немного изучить эту тему и посмотреть, как именно используется этотисточник, вам будет намного легче понять эти данные в контексте. Многие наборы данныхсопровождаются кодовым словарем или глоссарием, где объясняются категории и единицыизмерения.

Page 7: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 7

Отданныхкрепортажу:Думайкакдата-журналист

Пример:Причинысмертностисредидетейввозрастедо5лет

ЗайдитенасайтВсемирнойОрганизацииЗдравоохраненияинайдитеданныепопричинамсмертностисредидетейввозрастедопятилет1.Выберитекатегорию«Детскоездоровье»,далее«Смертностьсредидетейдо5лет»=>«Причины»=>«Пропорциясмертностипопричинам»=>«Постране»,ивыберитесвоюстрану.ЗатемзагрузитеданныеввидеCSV-файла,гдебудеттекст,кодыизначения.

1http://apps.who.int/gho/data/view.main.ghe300-SDN?lang=en

Page 8: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 8

Отданныхкрепортажу:Думайкакдата-журналист

Такой набор данных обычно используется для проведения оценки состояния здоровьядетей в какой-либо стране. При посмотре подобного набора необработанных данных важнотщательнопросмотретьвсюдополнительнуюинформациюпередтем,какпроводитькакой-либоанализ.Вданнойтаблицесобранывопросы,накоторыенужноответитьдотого,какиспользоватьданные.

Источникиданных Пониманиепоказателей ЕдиницыизмеренияВопросыоданных:

● Какаяорганизацияпредоставилаэтиданные?

● Изкакихисточниковэтаорганизацияполучиладанныеилионасамаявляетсяисточником?

● Могулиянайтипояснениякэтимданным?

● Естьлиссылкинаисточникиданныхвтаблице?

● Этоновыеилиустаревшиеданные?

Вопросыоданных:● Чтоозначают

показатели?● Могулия

посмотретьопределенияпоказателей,которыемненепонятны?

● Вчемразличиямеждувозрастнымикатегориями?

● Какиепоказатели,невключенныевэтиданные,моглибыпредоставитьбольшеконтекстнойинформации?

Вопросыоданных:● Чтоозначают

цифры?Чтоявляетсяединицейизмерения?

● Какрассчитанадоляилипроцентноеотношение?

● Можнолиполучитьэтиданные,используядругиевеличиныиздругогоисточника?

Вопросыобщественногозначения:

● Поступилилиэтиданныеизнадежногоисточника?

● Актуальнылиэтиданныечтобыиметьзначение?

● Могулиянайтидополнительнуюинформациюобисточникеданных?

Вопросыобщественногозначения:

● Чтообществубылобыинтересноузнатьобэтихданных?

● Отвечаютлипоказателинавопросы,которыеяхочузадать?

● Какаядругаяинформациямоглабыобъяснитьэтиданные?

Вопросыобщественногозначения:

● Помогаетлиединицаизмеренияпоместитьданныевнужныйконтекст?

● Можнолиоценитьмасштабырискаспомощьюэтойединицыизмерения?

● Какприпомощитекстаобъяснитьэтиизмерениясвоейаудитории?

Кданнымнужноподходитьсответственностью—передтемкакписатьоданных,автор

должен проверить их на достоверность. Для этого не обязательно быть дата-аналитиком,достаточно пройти по списку вопросов, которые помогут рядовым пользователям выявитьпризнакиподозрительныхилиненадежныхданных.Есливыбудетерегулярнопользоватьсяэтимсписком для оценки данных, вы сведете риск к минимуму. Также надо быть в курсе типичныхошибокприинтерпретацииданных,этопоможетвамбытьначеку.

Page 9: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 9

Отданныхкрепортажу:Думайкакдата-журналист

Вопросы,которыенеобходимозадатьприработеснаборомданных2Откудаэтицифры?

Какаяорганизацияопубликовалаэтиданные?

Являетсялиэтаорганизациянадежнымисточникомданных?

Выложеналиметодологиясбораданныхнасайтеорганизации?

● Ктособралэтиданные?

Занималасьлиэтаорганизациясборомданныхсамостоятельно,илиона

привлекладляэтойцелидругуюкомпанию?

Прошлилиработникиспециальноеобучение?

● Как?

Данныеполученыизпервоисточникаилиизкакого-либодоклада/отчета?

Этиданные—результатисследования,охватившегочастьнаселения,или

переписи,охватившейпочтивсенаселение?

● Скакойцельюпроводилсясборданных?

Проводилсялисборданныхдляпредоставленияотчетаспонсору,чтобы

продемонстрироватьвыполнениепоставленныхцелей?

Проводилсялисборданныхвнешнимаудитором?

● Насколькополныеэтиданные?

Можнолипоговоритьстеми,ктозанималсясборомданных?

Естьлиоговоркионедостаткахданных?

● Какаедемографическиегруппыохваченыэтимиданными?

Окомбылисобраныданные,аоком—нет?

Былилипредставленыисельские,игородскиерайоны?Мужчиныиженщины?

Трудоспособныелицаилицасограниченнымивозможностями?

● Веренлиэтотподходдляколичественногоизмерениявопроса?

Чтоименноизмеряютэтиданныеиподходитлиэтодлявашегорепортажа?

● Чтонеучтеновэтихданных?

2JonathanStray,Source,https://source.opennews.org/en-US/learning/statistically-sound-data-journalism/

Page 10: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 10

Отданныхкрепортажу:Думайкакдата-журналист

Имелалиместоситуация,когдакакая-либогруппанебылавключенав

исследованиепопричинесложностейсполучениемдоступакней?(например

лицасограниченнымивозможностямиилилюди,живущиевконфликтныхзонах)

● Ктоможетбытьвыставленвплохомсветеилипотерятьденьгиврезультате

обнародованияэтихцифр?

Былолиэтоисследованиеинициированоорганизацией,котораяхочетдоказать

эффективностьсвоихпроектов?

Былолиэтоисследованиеинициированолицом,известнымсвоейкритикойпо

данномувопросу?

● Согласованылиданныевзависимостиотвремениилитем,ктоихсобирал?

Еслисборданныхпродолжалсявтечениенесколькихлет,проводилсялионодной

итойжегруппойспециалистовсприменениемоднойитойжеметодологии?

● Какиепроизвольныерешениябылипринятывходесозданияэтогонабораданных?

Какпринималисьрешенияпотакимвопросам,какобъемвыборки?

● Непротиворечатлиэтиданныедругимисточникам?Ктоужепроанализировалих?

Естьлидругиеданныепоэтойжетемеисовпадаютлирезультаты?

● Естьлиуэтихданныхочевидныеизъяны?Существуетлинескольковерсийэтихданных?

Объясняетлиметодологияпотенциальныеошибкивданных?Отличаютсялиэти

данныевзависимостиоттого,гдеонипомещены?

Page 11: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 11

Отданныхкрепортажу:Думайкакдата-журналист

Упражнение:Вопросыкданным

Прочитайтестатью«Каждыйтретийтрудоспособныйкыргызстанецнаходитсяназаработкахзарубежом»3Ответьтенавопросы:

● Накакиеданныессылаетсяпремьер?● Находятсялионивоткрытомдоступе?● Какбылиполученыэтиданные?● Учитываютлионивсекатегориимигрантов?● Существуютлиальтернативныеподсчеты?

Прочитайтестатью«БедностьвГрузии—проблемаесть,ноонарешаема»4Ответьтенавопросы:

● Какиеисточникиданныхцитируютсявстатье?● Существуютлиразныевариантыданныхизразныхисточников?● Скакойцельюикембылисобраныэтиданные?● Известналиметодологиясбораданных?Заслуживаетлионадоверия?● Опрашивалосьливсенаселениеиливыборка?Насколькоэтавыборкарепрезентативна?● СобиралисьлисравнительныеданныевГрузиииАрмениипооднойметодике?

Прочитайтестатью«ВКазахстанекаждыйгод15усыновленныхдетейвозвращаютвдетскиедома»5Ответьтенавопросы:

● Ктоопубликовалданные,накоторыессылаетсястатья?● Можнолиимдоверять?Какбылисобраныэтиданные?● 15случаев–этомногоилимало?Существуютлиальтернативныеданные?● Уместнолииспользованиеслова«ежегодно»,еслиданныесобранытолькозаодингод?● Закакойпериодсобраныданныеовозвращенииусыновленныхдетейвдетскиедома?А

закакойпериодприведеныданныеостатистикеусыновлений?Правомернолисопоставлениеэтихдвухпоказателей?

● Какиеданныенеучитываютсяимоглибыдополнитькартину?

3Каждыйтретийтрудоспособныйкыргызстанецнаходитсяназаработкахзарубежом.KNEWS,21сентября2016http://knews.kg/2016/09/kazhdyj-tretij-trudosposobnyj-kyrgyzstanets-nahoditsya-na-zarabotkah-za-rubezhom/4БедностьвГрузии—проблемаесть,ноонарешаема.ГрузияOnline,5сентября2016,http://apsny.ge/society/1473128697.php5ВКазахстанекаждыйгод15усыновленныхдетейвозвращаютвдетскиедома.Today.kz,20октября2015,http://today.kz/news/kazahstan/2015-10-20/700659-v-kazahstane-kazhdyij-god-15-usyinovlennyih-detej-vozvraschayut-v-detskie-doma/

Page 12: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 12

Отданныхкрепортажу:Думайкакдата-журналист

Прочитайтестатью«Людиспортфелями.Зарплатаработниковгосоргановзапрошлыйгодвырослана100рублей»6Ответьтенавопросы:

● Какойорганпредоставилданные,которыеанализируютсявстатье?● Какбылисобраныданные?Насколькополнуюкартинупредоставляютэтиданные?● Естьликатегории,параметры,показатели,которыенебралисьврасчетилиизменялисьот

годакгоду?● Какиенедостаткивывидитевприведенныхданных?

Пример:оценкаданныхопреступности

Иногда у нас недостаточно данных, чтобы сделать на основе их осмысленные выводы.Зачастуюэтопроисходитиз-затого,чтомынедостаточноразбираемсявтемеиливстатистике,либонамтакнетерпитсяопубликоватьматериал,чтомынепомещаемданныевнужныйконтекстинесравниваемсдругиминаборамиданных.Врезультатемынеможемпроверитьимеющиесяданныекак следует. Это частый случай при интерпретации данных о преступности— в результате онипреувеличены или неправильно истолкованы. Вот несколько типичных ошибок, которыедопускаютсяприосвещениипреступлений.

Этокартапреступностииливсеголишькартаплотностинаселения?7ВданномпримереизБерлина наивысший уровень преступности— в центре города, который также является самымгустонаселеннымрайоном.

6Людиспортфелями.Зарплатаработниковгосоргановзапрошлыйгодвырослана100рублей.TUT.By,21сентября2016,https://finance.tut.by/news512971.html7BerlinAtlasofCrime.http://www.economicworldmap.net/berlincrime/

Page 13: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 13

Отданныхкрепортажу:Думайкакдата-журналист

Уровень преступлений не рассчитан на душу населения, из-за чего кажется, чтопреступность зашкаливает там, гдеживетбольшелюдей.Однако темно-красноепятновцентреБерлинанеозначает,чтоуотдельногочеловекарискстатьжертвойпреступлениявыше,еслионживетвцентре.

● Являютсялиданныестатистическизначимыми,еслисравнитьихсостальнойчастью

страныиливзятьотрезоквнескольколет?(например,повышениеуровняместной

преступностина5%в2012годунеявляетсястатистическизначимым,еслипостране

уровеньвыросна7%илионвыросна6%в2012году).

● Имеллиместофактор,исказившийрезультаты?(например,террористическаяатакав

центре,котораярезкоувеличилапоказатели,илизаниженныеданныепопреступлениям

противсоциальноуязвимыхгруппнаселения?)

● Влияетликоличествополицейскихнарезультаты?(например,показателипо

преступлениям,связаннымснезаконнымоборотомнаркотиков,могутвзлететь,еслина

этобудутброшеныдополнительныесилы)

● Чтоэтозакатегорияпреступлений?Возможно,этипоказателивсегдазаниженыкакв

случаессексуальнымнасилиемлибонаоборот,завышены—например,превышение

скоростивтехрайонах,гдеуполицейскихестьежемесячнаяквотанавыпискуштрафовза

превышениескорости.

Page 14: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 14

Отданныхкрепортажу:Думайкакдата-журналист

Упражнение:оценкаданныхорасходахназдравоохранение

Вас попросили изучить данные об основных расходах на здравоохранение и выявитьнаиболееважнуюдлягражданинформацию.Этопоможетгражданамтребоватьотправительстваграмотногораспределениябюджетаирешениянаиболееважныхпроблем.

● Шаг1:Откройтесайтсинформациейорасходахстранназдравоохранение8ивыберите

своюстрану.Можетедобавитьнесколькодругихстрандлясравнения.Можетеизменить

индикаторысравнения.

● Шаг2:Убедитесь,чтоконтекстэтихданныхвампонятен(Нажмитезначок«i»длядеталей).

Откудаэтиданные?

Чтоозначаеткаждыйизпоказателей?

Проверьте,какиепоказателидолжнывсуммедавать100%

Какиеединицыизмеренияиспользуются?Являютсялионинаиболееподходящимидля

вашегоанализа?

● Шаг3:Определите,какаяинформация,повашемумнению,наиболееважнадля

общественности

● Шаг4:Подумайтеоследующем:

Какиеракурсыдлярепортажавывидитевэтихданных?

Какиепоказателинужносопоставить,чтобыобъяснитьпроблему?

Укакихэкспертовнадобудетвзятьинтервью?

● Шаг5:Напишитекраткоеизложениематериалапримернона200-300слов.

8http://data.worldbank.org/indicator/SH.XPD.PUBL.ZS?end=2014&start=1995&view=chart

Page 15: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 15

Отданныхкрепортажу:Думайкакдата-журналист

Урок3:Обобщаемиупрощаемданные

В этом упражнении мы будем работать с докладом ЮНИСЕФ «Положение детей вКыргызской Республике»9. Здоровье детей измеряется по большому количеству показателей,причем результаты варьируются в зависимости от дохода семьи, места проживания и другихфакторов.Чембольшефакторовиисточниковданныхмыпримемвовнимание,темболееполноепредставлениеодетскомздоровьевстранеполучатчитатели.

УпрощаемпроцентныепоказателиВрезультатахисследованийданные,какправило,представленывобезличенномвиде,в

процентах.Читателямсложносовместитьпроцентысобъектомисследования.Поэтомустарайтесьупростить процентный показатель и перевести его в долю (четверть, треть) или в количествочеловекнатысячунаселения.Тогдауаудиториибудетпонимание,сколькихчеловеквобществекоснуласьтаилиинаяпроблема.Упроститьцифрыпомогаетнаибольшийобщийделитель—самоебольшоечисло,накотороеделитсябезостаткаичислитель,изнаменательдроби—тоестьисамопроцентноезначение,иобщаясумма(100%).

УчимсяработатьспроцентнымипоказателямиКакпреобразовыватьпроценты?Посмотрите:

• 33%=33/100=3/10(разделитеичислитель,изнаменательна3)=⅓• 75%=75/100(разделитеичислитель,изнаменательна25)=¾

ПримерВот несколько примеров, которые показывают, как доля и доля от населения помогают

упроститьследующиефактыодетскомздоровье,гдеданныеприводятсяввидепроцентов.

Процент Доля Долявгруппенаселения

В2006годупоказательпоотставаниювростевыроспочтидо25процентовсредидетейдотрехлет.

Одначетвертьдетейдотрехлетотстаетвросте.

Каждыйчетвертыйребенокдотрехлетотстаетвросте.

Вбеднейшемслоенаселениятолько60,1процентаженщинполучаютквалифицированнуюмедицинскуюпомощьприродах.

Толькотрипятыхотобщегоколичестваженщинвбеднейшемслоенаселенияполучаютквалифицированнуюмедицинскуюпомощьприродах.

Толькотриизпятиженщинвбеднейшемслоенаселенияполучаютквалифицированнуюмедицинскуюпомощьприродах.

9ПоложениедетейвКыргызскойРеспублике.ЮНИСЕФ,2011,https://www.unicef.org/kyrgyzstan/ru/Situation_analysis_RUS.pdf

Page 16: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 16

Отданныхкрепортажу:Думайкакдата-журналист

Упражнение:Упрощаемпроцентныепоказатели

Упростите следующие высказывания, в которых данные приведены в виде процентов,используядолюидолюотнаселения.

• Исследование, проведенное в Таласской области в 2008 году, показало, что около 50процентовдетейввозрастедо5лети25процентовматерейстрадаютотанемии.

______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

• В 2006 году более 5 процентов детей в стране родились с малым весом. В Нарынскойобластиэтотпоказательсоставил10процентов.

______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

• Диарейные заболевания являются одной из основных причин смертности средидетей вКыргызстане. Исследование 2006 года показывает, что лишь при лечении 20 процентовдетей из числа тех, кто заболел диареей в предыдущие две недели, использоваласьпероральнаярегидратация.

______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

Page 17: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 17

Отданныхкрепортажу:Думайкакдата-журналист

Считаемдоли

Доли от группы населения удобно использовать, когда нужно упростить процентныйпоказатель. Чтобы посчитать, какую часть населения касается та или иная проблема, разделитеобщееколичестволюдейввыборкенаколичестволюдей,затронутыхпроблемой—врезультатевыполучитедолюотвыборки,затронутуюпроблемой.

Пример

Переднамифакт:«НедостаточноепитаниеявляетсявКыргызстанеосновнойпричинойсмертностидетейдо5лет(в22процентахслучаев)».

Давайтепереведемпроцентныйпоказательвдолюотвсехумершихдетейдо5лет:

Выпонимаете,что22%=22/100

Теперь давайте разделим общее число (то есть 100) на количество детей из этого количества,затронутыхпроблемой(тоесть22),получается100/22=4,55

На основе этих вычислений мы можем сказать, что 1 из 4,55 детей умирает от недостаточногопитания.

Таккак4,55—нецелоечисло,поэтомуумножимвсена2иокруглимдоцелого.

«ДвоеиздевятиумершихдетейвКыргызстанеумираютотнедостаточногопитания».

Упражнение:Считаемдолиотгруппнаселения

Упроститеследующиевысказывания,посчитавдолюотнаселения.

● ВКыргызстанетолько31,5процентановорожденныхнаходятсянаисключительногрудномвскармливанииилишь37,5процентовполучаютполноценноепитание.

______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

● Поданным2006года,11,8процентанаселениянеимелидоступакчистойпитьевойводе.______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

● В1996годуу14процентовдетейввозрастедо5летнаблюдалосьотставаниевросте.______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

Page 18: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 18

Отданныхкрепортажу:Думайкакдата-журналист

Сравниваемпоказатели

Теперьдавайтепопробуемсравнитьдвавысказывания,вкоторыхсодержатсяпроцентныепоказатели,иперепишемихтак,чтобычитателямбылапонятнаэтаинформация.

Например,давайтеупростимследующиедвавысказывания:

• Показательотставаниявростеудетейвсельскихрегионах—15,7процента• Показательотставаниявростеудетейизгородов—10,4процента

Чтобысделатьэто,переведемпроцентывпростыедроби:

● 15,7%=16/100=4/25

● 10,4%=10/100=1/10

Теперьмыможемсказать:

● Четвероиз25детейвсельскихрегионахотстаютвразвитии● Одинребенокиздесятидетей,живущихвгороде,отстаетвразвитии

Мыможемупроститьэтивысказыванияещебольше,приведяобакобщемузнаменателю:

● 8из50детей,растущихвсельскойместности,отстаютвразвитии● 5из50детей,растущихвгородах,отстаютвразвитии

Page 19: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 19

Отданныхкрепортажу:Думайкакдата-журналист

Упражнение:СравниваемпоказателиУпроститеисравнитеданные,которыепредставленывследующемвиде:

1. ВОшскойобластинаблюдаетсяособенновысокийуровеньродовсосложнениямииз-за

анемии—67,1процентав2008годуи71,2процентав2009году.

____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

2. Показателиотставаниявростевышеудетейвсельскихрегионах(15,7процента)по

сравнениюсгородом(10,8процента).

____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

Page 20: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 20

Отданныхкрепортажу:Думайкакдата-журналист

Округляемзначения

Из-забольших,сложныхчиселвашааудиторияможетпотерятьинтерескрепортажу.

Используйтеокругленные,упрощенныезначения,чтобылюдилегкопредставлялисебеобъеми

масштабпоказателя,непутаясьвцифрах.

ПримерыИсходныезначения ОкругленныезначенияНаселениеУкраины45,49миллионачеловек ВУкраинепроживаетболее45миллионов

человек.

УровеньрождаемостивМолдове—1,46 ЖенщинывМолдоверожают,какправило,одногоилидвухдетей

Упражнение:округляемзначения

Найдитепоказателинаселенияиуровнярождаемостипосвоейстранеиперепишитеихв

упрощенномвиде.

____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

Page 21: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 21

Отданныхкрепортажу:Думайкакдата-журналист

Упражнение:сравниваемзначения

Используяпройденныеметодыупрощенияданных,перепишитеследующуюинформацию

впонятномширокойаудиториивиде.

Передтем,какприступитькзаданию,примитевовнимание:

• Вселииндикаторывампонятны?Понятнылиониаудитории?

• Нужнылидополнительныеданныеилиинформация,чтобыцеликомраскрытьпроблему?

Еслида,точтоэтозаинформация/данные?

Примеры

1. «ВАрменииостростоитпроблемадетскогонедоедания»10«Попоследнимданнымисследования,котороепроводитсявАрмениикаждые5лет,в2010

г.у19%детейобнаружилсязамедленныйростразвития.Причемсредидетей,живущихвсельскойместности, был зафиксирован рекордный, 22-% показатель, превышающий статистику,наблюдаемуюугородскихдетей(17%).Экспертысвязываютстольтревожныепоказателинетолькосбедностью,ноинизкойосведомленностьюнаселенияоправильномрежимедетскогопитания.

Согласноданнымнациональнойстатистическойслужбыза2012год,почтикаждыйтретийжительАрменииживетвнужде,апорезультатамисследования,проведенногоАрмянскимфондомпомощи в 2013 году, в Тавушской области среди 16 процентов детей в возрасте до 6 летнаблюдаютсязамедленныетемпыроста,ещеу19процентовстрадаютотмалокровия».

____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

2. «ЗдоровьедетейУкраины:актуальныепроблемыипутиихрешения»11

10ВАрменииостростоитпроблемадетскогонедоедания.IWPR,30июля2014года,http://bit.ly/armenia-nedoedanie11ЗдоровьедетейУкраины:актуальныепроблемыипутиихрешения.Медицинскийпортал«health-ua.org»,https://www.health-ua.org/faq/mammologiya/1953.html

Page 22: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 22

Отданныхкрепортажу:Думайкакдата-журналист

«ЗаведующаякафедройнеонатологииКМАПОим.П.Л.Шупика,доктормедицинскихнаук,профессор, главныйвнештатныйспециалистпонеонатологииМЗУкраиныЕлизаветаЕвгеньевнаШунькоостановиласьнаосновныхпроблемахидостиженияхнеонатологии.

На протяжении последних лет в Украине наблюдается явная тенденция к снижениюмладенческойинеонатальнойсмертности.Так,в2003годуперинатальнаясмертностьсоставила8,3‰ (в 2002 году — 8,6), неонатальная смертность — 5,3‰ (в 2002 году — 5,8), ранняянеонатальнаясмертность—3,6‰(в2002году—3,9),постнеонатальнаясмертность—4,4‰(в2002году—4,7)».

____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________3.«Распространенностьанемииудетейввозрасте6-59месяцев,Молдова,2012год»12

________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 12РазвитиедетейвраннемвозрастевЕвропейскомрегионе:потребности,тенденциииразработкаполитики.Обзорнаосновеоценкипятистран.ЕвропейскоерегиональноебюроВОЗ,2014год,http://www.euro.who.int/__data/assets/pdf_file/0009/265779/Early-child-development-in-the-European-Region-needs,-trends-and-policy-development-Rus.pdf

Page 23: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 23

Отданныхкрепортажу:Думайкакдата-журналист

____________________________________________________________________________________________________________________________________________________________________________________

4.Проанализируйтепоказателимладенческойсмертностиисмертностидетейза1996годввашейстранеисравнитеспоказателямивдругихстранах.

Этиданныеприведенывдокладе«Кормлениеипитаниегрудныхдетейидетейраннеговозраста»13.Cкакимипоказателямиуместносопоставлятьпоказателивашейстраны?

____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

13Кормлениеипитаниегрудныхдетейидетейраннеговозраста.МетодическиерекомендациидляевропейскогорегионаВОЗсособымакцентомнареспубликибывшегоСоветскогоСоюза.РегиональныепубликацииВОЗ,Европейскаясерия,№87.Обновленноепереиздание2003г.Страница16.http://www.euro.who.int/__data/assets/pdf_file/0009/265779/Early-child-development-in-the-European-Region-needs,-trends-and-policy-development-Rus.pdf

Page 24: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 24

Отданныхкрепортажу:Думайкакдата-журналист

5.ПроанализируйтераспространенностьгрудноговскармливаниявразныхстранахЕвропейскогорегиона.Обратитевниманиенаданныеповашейстранеисравнитеихспоказателямивдругихстранах.

Этиданныеприведенывдокладе«Кормлениеипитаниегрудныхдетейидетейраннеговозраста»настранице35.

____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

6.Найдитеданныеполюбомуизпоказателейдетскогоздоровьяповашейстране/регионуинапишитеобэтомодинабзацтекста,предназначенногодляширокойаудитории.

Дляпоискаданныхвоспользуйтесьdata.unicef.org.Найденныепоказатели:____________________________________________________________________________________________________________________________________________________________Источник:______________________________________________________________________________Текст:

Page 25: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 25

Отданныхкрепортажу:Думайкакдата-журналист

______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

Page 26: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 26

Отданныхкрепортажу:Думайкакдата-журналист

Урок4:Основыстатистики

Выборка

Наизображении:Население=>Выборка

По мере того, как все больше информации хранится в виде данных, особенно важнооценивать их по методу сбора и технических стандартам научного исследования. Если выпонимаете, что такоевыборкаипределпогрешности, вамбудетлегчеопределить, являютсялиопросыианкетированиярепрезентативными,икакиевыводыможносделатьнаихоснове.

Чтотакоевыборочноеисследование?

Так как собрать данные от каждого представителя населения невозможно или оченьзатратновпланевремениифинансов,исследователиобычноприменяютметод«выборки».Цельвыборочногоисследования—сделатьвыборкулюдей,котораябудетотображатьвсенаселение.

Очемстоитподуматьприопределениивыборки:

• Какуюгенеральнуюсовокупностьпредставляетвашавыборка?• Каквыбудетеделатьвыборку?• Насколькодемографическихгруппвыхотитеразбитьучастниковисследования?• Какаяточностьвамнужна?

Page 27: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 27

Отданныхкрепортажу:Думайкакдата-журналист

Наиболеечастовстречающиесяметодывыборки

СлучайнаяВыборкаСистематическаявыборкаСтратифицированнаявыборка

Существуетнесколькометодоввыборочныхисследованийсрединаселения.Например:

Случайнаявыборка Увсехэлементовспискаравныешансыбытьвключеннымиввыборку.

Систематическаявыборка

Выбираетсякаждыйn-ныйэлемент.

Стратифицированная/расслоенная/выборка

Совокупностьделитсянаподгруппы,которыевзаимноисключаютивзаимнодополняютдругдруга.Далееизкаждойгруппыделаетсяслучайнаявыборка.Например,еслиувасестьданныепочетыремстранам,товместотогочтобысмешиватьвседанныеиделатьслучайнуювыборку,делаетсяслучайнаявыборкапокаждойстране.

ДополнительнаяВыборка

Производитсядополнительнаявыборкаопределеннойгруппыдляпроведениядальнейшегоисследования.Например,вызаметилинеобычныепоказателипозаболеваемостиуопределеннойвозрастнойилигендернойгруппы,следовательно,выделаетедополнительныевыборкиизэтогодемографическогосегментадлядальнейшегоизученияэтойтенденции.

Page 28: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 28

Отданныхкрепортажу:Думайкакдата-журналист

Примерыплохойвыборки:ненаучныеопросы

● Веб-опросыилионлайн-опросы:участвуюттолькотелюди,укогоестьдоступкинтернетуикоторыезаходятнавашсайт.

● Опросыпотелевидениюилирадио:вашопросохватываеттолькопредставителейвашейаудитории,которыеужепринадлежаткопреденнойгруппепополитическимипредставлениям,итолькотех,укоторыхестьвремяижеланиеучаствовать.

● Опросынаулице:этослишкоммаленькаявыборка,котораянеможетбытьрепрезентативнойдлянаселения.

● Опросывтвиттере:опятьже,респондентамиявляютсятолькопользователитвиттера,итолькоте,которыеужеподписанынавасиливашеСМИ.

Чтотакоепределпогрешности14

14https://ru.wikipedia.org/wiki/Предел_погрешности

Page 29: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 29

Отданныхкрепортажу:Думайкакдата-журналист

Припроведенииопросов,какправило,работаютсвыборкойнаселения.Опроситькаждого—задачаневыполнимая,поэтомуисследователиработаютснебольшимислучайнымивыборками,которые должны быть репрезентативны. Предел погрешности показывает, насколько можнодоверятьрезультатамопроса.

Чембольшелюдейопрошено,темболеешансов,чтоэтавыборкабудетрепрезентативной.Есливопросеуказано,чтопределпогрешности—2,5%,этоозначает:еслипровеститакойопрос100раз,каждыйразопрашиваяразнуювыборкулюдей,тообщийпроцентлюдейответившихтакже,будетвпределах2,5%отпервоначальногорезультатакакминимумв95изэтих100опросов.

Пример:маленькийобъемвыборкииспорыовакцинеиаутизмеПрочтитестатью“Stickingwiththetruth”15

В1998годуЭндрюУэйкфилди12егоколлегопубликовалисериюисследованийвжурналеLancet,вкоторыхутверждалось,чтовакцинаоткори,краснухиипаротита(MMR)можетвызыватьу детей механизм регресса и первазивные нарушения развития. Несмотря на очень маленькуювыборку (n=12), непроверенный дизайн клинического исследования и спекулятивный характерзаключений,этапубликацияполучилаширокуюизвестность,ауровеньпрививаниявакцинойMMRсталснижаться,таккакродителиопасалисьразвитияаутизмапослевакцинации.

Как отмечается в статье, хотя дальнейшиенаучныеисследования полностьюопровергликакую-либосвязьмеждувакцинамииаутизмом,журналистыради«балансамнений»продолжалицитироватьпредставителейобеихсторон.«Неможетнерадовать,чтопочтиполовинарепортажейв США (41%) пытались в различной степени опровергнуть связь между вакциной и аутизмом.Однаковозникаетбольшойвопрос«объективности»восвещениипроблем, гдеоднаиз сторонспора права. В таких случаях «сбалансированное» освещение может быть безответственным,потомучтоонопредполагаетполемикутам,гдееенедолжнобыть».

Даженачальныхпознанийвстатистикедостаточно,чтобыпонять,чтообъемвыборкив12человекслишкоммалдлякаких-либозаключений.Предположенияосвязивакцинысаутизмомосновывалисьнаслучайныхсовпаденияхидругихошибкахвданномисследовании.

Пример:маленькиевыборкивнутрибольшихПрочтитестатью«Подводныекамнииспользованияданныхпоэтническимменьшинствамвбольшихисследованиях»16.

Вэтомслучае,объемвыборкиБританскогоисследованиярынкарабочейсилы(BritishLaborForce Survey) очень большойи составляет 100 000 человек.Однаконаписаннаяна основе этого

15Stickingwiththetruth.ColumbiaJournalismReview,May/June2013,http://www.cjr.org/feature/sticking_with_the_truth.php16Thehiddendangersofethnicminoritydatainbigsurveys.OnlineJournalism,July28,2015,https://onlinejournalismblog.com/2015/07/28/the-hidden-dangers-of-ethnic-minority-data-in-big-surveys/

Page 30: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 30

Отданныхкрепортажу:Думайкакдата-журналист

опроса статья «Мигранты „доят“ систему социальной помощи: у иностранцев намного большешансовполучитьвыплаты»17говориттолькоолюдяхизвозрастнойгруппы40-44года,родившихсявПакистанеилиБангладешеипретендующихнапособиенаоплатужилья.

Весьопросв100тысяччеловекохватилтолько27представителейэтойдемографическойподгруппы. Таким образом, хотя выборка всего исследования большая, меньшинства остаютсянедостаточно представленными. Это создает особую трудность для журналистов, которыепытаютсяпривлечьобщественныйинтересктакимгруппамнаселения.Передтемкакиспользоватькрупные ислледования, которые содержат данные о меньшинствах, постарайтесь найти другиеисследования,целевойгруппойкоторыхявляютсянепосредственноэтигруппы.

Пример:какнедатьввестисебявзаблуждениедокладомозанятости

В статье “How Not to Be Misled by the Jobs Report”18 объясняется, что даже при оченьбольшомобъемевыборки,полученныеданныеявляютсяпофактунеточными,ичто закаждойцифройможетстоятьцелыйдиапазонданных,описывающихростзанятости.

Прочтитестатьюиответьтенаследующиевопросы:

● Каковобъемвыборкизакаждыймесяц?

● Сколькорабочихместнасамомделесуществуетвэкономике?

● Чтоозначаютдвижущиесяколонки?

● Почемувсезаголовкипотенциальномогутбытьверными?

17Migrants'milking'benefitssystem:Foreignersmorelikelytoclaimhandouts.Express,July21,2015,http://www.express.co.uk/news/uk/592541/Migrants-milking-benefits-system-Foreigners-more-likely-to-claim-handouts18HowNottoBeMisledbytheJobsReport.TheUpshot,May1,2014,https://www.nytimes.com/2014/05/02/upshot/how-not-to-be-misled-by-the-jobs-report.html?_r=1

Page 31: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 31

Отданныхкрепортажу:Думайкакдата-журналист

Упражнение:пределпогрешности

Передвамизаголовок:«Общенациональныйопрос:кандидатАопередилкандидатаВещенадвапунктававгустеидостиг56%голосов»

Пределпогрешностисоставляет2,5%.

Наосновеэтогозаголовкаипределапогрешности,ответьтенаследующиевопросы:

● КакаяприблизительнодолянаселенияпланируетголосоватьзакандидатаАвавгусте?

● КакаяприблизительнодолянаселенияпланировалаголосоватьзакандидатаАвиюле?

● Пересекаютсялиэтипоказатели?

● Чтоозначаетэтопересечение?

● Какойзаголовокбылбыболееточным?

Page 32: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 32

Отданныхкрепортажу:Думайкакдата-журналист

Оценкадостоверностиданных(1/3)

Вспышкиинфекционныхзаболеванийпоштатам(2014)

Вэтомпримере,мыбудемоценивать,насколькодостоверныданные,представленныев

видевизуализации.

В2014годуправительствоИндиираспространилоинформациюовспышкахэпидемическихзаболеваний в различных штатах страны. Эти данные касались таких заболеваний как диарея,холераималярия.

Вотграфиканаосновеэтихданных19.Давайтедляначалапопытаемсяразобратьсявней.

Вопросы:● Вкакомштатебылосамоебольшоеколичествовспышекзаболеваний?● Вкакомштатесамаявысокаядоля20вспышекзаболеваний?● Вкакомштатевспышекзаболеванийменьшевсего,анаселение—большевсего?● Вчемразницамеждуколичествомвспышекзаболеваний,количествомслучаев

заболеванийиколичествомсмертейотзаболевания?

19LiesandStatistics:HowIndia’sMost-PopulousStateFudgesCrimeData.IndiaSpend,March132015,http://www.indiaspend.com/cover-story/lies-and-statistics-how-indias-most-populous-state-fudges-crime-data-1109120Доляпредставляетсобойколичествовспышекзаболеваний,разделенныхнаколичествонаселения

Page 33: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 33

Отданныхкрепортажу:Думайкакдата-журналист

Оценкадостоверностиданных(2/3) Младенческаясмертность,предполагаемаяпродолжительностьжизниприрождениии

материнскаясмертность(2010-2012)

Изучив первую инфографику, мы можем сказать: «Штат Уттар-Прадеш стоит на первом

местепоколичествунаселения,новтожевремятамменьшевсеговспышекзаболеваний».

Чтобы дать оценку этому утверждению, давайте посмотрим на другую визуализациюпоказателейсостоянияздоровьянаселениявИндии.

Вопросы:

● Вкакомштатесамыйвысокийуровеньдетскойсмертности?● Вкакомштатесамыевысокиепоказателипредполагаемойпродолжительности

жизни?Авкакомсамыенизкие?● Вкакомштатесамыйвысокийуровеньматеринскойсмертности?● Меняютлиэтиданныенашедовериекданнымовспышкахзаболеванийвштате

Уттар-Прадеш?

Page 34: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 34

Отданныхкрепортажу:Думайкакдата-журналист

Оценкадостоверностиданных(3/3)

Зарегистрированныеслучаиубийствиизнасилований(2013)

Давайте теперь сравним данные о преступности в некоторых штатах Северной Индии.

Обратите внимание, что штат, вызвавший наше пристальное внимание в двух предыдущихвизуализациях–Уттар-Прадеш—такжеприсутствуетвэтойграфике.

Вопросы:

● Вкакомштатерегистрируетсябольшеубийств,чемизнасилований?● Чтосложнеескрытьилинезарегистрировать—убийствоилиизнасилование?● ВспомнитенашивыводыоштатеУттар-Прадешизпредыдущихвизуализаций.Верители

вы,что,согласноэтойинфографике,женщинывУттар-ПрадешнаходятсявбольшейбезопасностипосравнениюсдругимиштатамиСевернойИндии?

● Наосновеэтойинформации,вданнымкакогоштатанамстоитсомневаться?

Page 35: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 35

Отданныхкрепортажу:Думайкакдата-журналист

Упражнение:оценкадостоверностиданных

Статистикатранспортныхаварийвкрупныхгородах(2013)

На основе пройденного материала, давайте оценим следующую инфографику. Здесь

сравниваютсяданныеобаварияхвкрупнейшихгородахИндии.Ответьтенаследующиевопросы,чтобыоценитьдостоверностьприведенныхданных.

Вопросы:

● Вкакомгородерегистрируетсябольшевсегоаварий?● ВМумбаеиДелипроживаетпримерносхожееколичествонаселения,13и11миллионов

соответственно.ВДелинамногобольшетранспортныхсредств,однаковМумбаерегистрируетсявтриразабольшеаварий.Означаетлиэто,чтоводителивМумбаевтриразаменееосторожны?

● ВМумбаенакаждые50аварийприходитсяодинсмертельныйслучай,втовремякаквДелиодинсмертельныйслучайприходитсянакаждые4аварии.Означаетлиэто,чтоавариивДелисамипосебеболееопасны?

● Какиепоказателилегчезанизить:аварииилисмертельныеслучаивавариях?

Page 36: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 36

Отданныхкрепортажу:Думайкакдата-журналист

Урок5:Оценкаинтерпретацииданных

● Подменаиндикатораприответенавопрос

● Корреляциянеозначаетпричинно-следственнойсвязи

● Сравнение

несравнимого

● Экстраполяцияиобобщенияизслишкоммаленькогонабораданных

● Вывод

закономерностиизсовпадения

● Совокупностьотдельныхслучаевнеявляетсянаборомданных

Данные — восхитительный ресурс для создания материалов, способных влиять нагосударственную политику. Однако важно понимать, какие ограничения есть у набора данных,какиевыводыможноделатьнаегооснове,ираспознаватьутверждения,которыенеподкрепленыимеющимися данными. Вся дата-журналистика основывается на интерпретации, даже в самыхнедвусмысленныхзаголовках:

● «Уровеньпреступностипадает»● «Человечествоявляетсяпричинойизмененияклимата»● «Встранахсбольшимколичествоморужияунаселенияпроисходитбольшесмертейот

огнестрельногооружия»

Вэтомуроке,мынаучимсяоцениватьутвержденияиздата-репортажейнадостоверность.Ошибки можно разделить на несколько основных категорий, на которые мы будем обращатьвниманиеприоценкеанализаданных.

Page 37: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 37

Отданныхкрепортажу:Думайкакдата-журналист

Подменаиндикатора

Часто то, чтомыхотимизмеритьи то, чтомыможемизмерить—эторазныевещи.Этоприводит к выбору косвенного показателя. Он заменяет то, чтомы хотим измерить. Например,частовновостныхстатьяхтакиепоказатели,как«валовыйвнутреннийпродуктнадушунаселения»илиобщийуровеньдоходовстраны,используютсядляоценкиуровняжизнивэтойстране.Тоестьвместотого,чтобыизмерятькачествожизникаждойсемьипоключевымфакторамкачестважизни,оцениваетсякачествожизнипостраневцелом.

Вотещеодинпример21—обиспользованиипротивомоскитныхсетокдляборьбысмалярией.

Вопросы:● Являетсяликоличествосетокнаодногочеловекапоказателемтого,сколькочеловекспят

подмоскитнымисетками?● Чтонужноизмерить,чтобыпонять,укакойчастинаселенияестьмоскитныесетки?

21Preventingthebite.Internews,http://www.internewskenya.org/dataportal/assets/img/data_visualisations/Preventingthebite.pngLiberia:GovtWarnsAgainstMisuseofMosquitoNets.AllAfrica,June32015,http://allafrica.com/stories/201506031681.html

Page 38: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 38

Отданныхкрепортажу:Думайкакдата-журналист

Сравнениенесравнимого(1/2)

Частомынеможемполучитьнарукивседанные,нужныедлярепортажа—повсемгодам,

повсемрегионам,иливовсехдеталях.Приходитсярешать,сколькодостовернойинформациимыможемизвлечьизограниченногонабораданных.Давайтепредставим,чтомыполучилиданныеозарплатах учителей по всей стране. Интересно, конечно, сразу посмотреть, в каких регионахучителям платят меньше всего, однако надо принимать во внимание и другие факторы:прожиточныйминимум где-томожетбытьниже, требуемыйуровеньобразованиядляучителейможетотличатьсяпорегионам,поощрительнаяоплатаможетстимулироватьучителейпереезжатьвопределенныерегионырадиболеевысокихзарплат,аможет,действуетсистемаротации.

Представим такую ситуацию: у вас есть две карты, по которым надо понять, насколькоуспешноСуданборетсясВИЧиСПИДпосравнениюсдругимиафриканскимистранамивтечениепоследних10лет.

Page 39: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 39

Отданныхкрепортажу:Думайкакдата-журналист

● Накартекарте122даютсяпоказателизаболеваемостиВИЧза2008год,нотолькозаодингод

● Накарте223,данныеболееустаревшие,нозатомывидимпоказателизаболеваемостьюВИЧпотремгодам:1990,2001и2007.

Вопросы:● Вчемпреимуществопервойкарты?● Наосновепервойкарты,скакимистранаминамследуетсравниватьСудан?● Вкакихстранах15летназадбылиблизкиепоказателизаболеваемостиВИЧ?

22Wikipedia,2008,https://commons.wikimedia.org/wiki/File:Map-of-HIV-Prevalance-in-Africa.png23Africa&HIV.WorldBank,http://siteresources.worldbank.org/INTPROSPECTS/Images/334933-1271876733261/6992744-1328626949160/8422535-1328627766358/Africa_&_HIV.pdf

Page 40: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 40

Отданныхкрепортажу:Думайкакдата-журналист

Сравнениенесравнимого(2/2)

Теперь давайте рассмотрим другой пример – перед вами визуализация минимальной

заработнойплатывпост-советскихстранах24.

Вопросы:

● Показательнолисравнениепотакомупоказателю,какМРОТ?● Одинаковылиежемесячныерасходыгражданвэтихстранах?● Какиедругиепоказателиможнодобавить,чтобысравнениебылоболееуместным?● Скакимистранамиимеетсмыслсравниватьвашустрану?

24Радио Свобода.MinimumWageinPost-SovietCountries,http://www.rferl.org/a/28121003.html

Page 41: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 41

Отданныхкрепортажу:Думайкакдата-журналист

Выводзакономерностиизсовпадения(1/2)

Иногда наборы данных практически совпадают, отражая несуществующую тенденцию.

Например,существуетблизкоесходствомеждупоказателямивступлениявбраквштатеВермонтвАмерикеипоказателямипроизводствамеда25.Однако,скореевсего,этидвепеременныхникакнесвязанымеждусобой.

НайдитенасайтеSpuriousCorrelationsещеодностранноесовпадениеданных26.

Есливыподходитекданнымнепредвзято,вырискуетеобнаружитьсвязи,которыхнасамомделе нет. Если что-то кажется слишком очевидным, постарайтесь найти другой набор данных,которыйподтвердитилиопровергнетвашунаходку.

25http://www.tylervigen.com/page?page=126SpuriousCorrelations,http://tylervigen.com/discover

Page 42: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 42

Отданныхкрепортажу:Думайкакдата-журналист

Выводзакономерностиизсовпадения(2/2)

Вот еще один пример: количество нобелевских наград, полученных какой-либо страной(нормализованныхпонаселению)коррелируетсспотреблениемшоколаданадушунаселения.

Вопросы:

● Какоевзаимоотношениявозможнымеждуэтимидвумяпеременными?● Наскольковероятно,чтоэтидвепеременныевообщевзаимосвязаны?

Page 43: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 43

Отданныхкрепортажу:Думайкакдата-журналист

Корреляциянеозначаетпричинно-следственнойсвязи(1/3)

Наизображении:какпроисходиткорреляция:XвызываетY,YвызываетX,ZвызываетXиY,

скрытаяпеременнаявызываетXиY,случайноесовпадение

Корреляция—этостатистическаявзаимосвязьдвухилиболеевеличин.Инымисловами,корреляция — это когда значения одной величины сопутствуют систематическому изменениюзначенийдругойвеличины.

Сложностьскорреляциейсостоитвтом,чтобываетсложнопонять,какаявеличинавлияетнадругую,иестьливообщемеждунимивзаимосвязь27.

Когда будете работать над дата-репортажем, не спешите писать о взаимосвязи междудвумяпеременными—ееоченьсложнодоказать.

27Howcorrelationhappens,Source,https://source.opennews.org/media/img/uploads/article_images/correlation_1.png

Page 44: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 44

Отданныхкрепортажу:Думайкакдата-журналист

Корреляциянеозначаетпричинно-следственнойсвязи(2/3)

Давайтерассмотримэтонапримерестатьи“Thecorrelationbetweentestscoresandhomeprices”28.

На первый взгляд между ценами на жилье и результатамишкольных тестов существуеткорреляция.Нодействительнолиоднавеличинавлияетнадругую?

● Повышениеценнажильевмикрорайонемоглопривестиктому,чтотудапереехалибогатые,образованныелюдисдетьми,исоответственно,школьныеоценкивмикрорайонеповысились.

● Возможно,школысхорошимипоказателямипривлекаютболееобеспеченныесемьипереехатьвэтотмикрорайон,дажееслипроживаниетамстоитбольше.

● Можетиметьместоидругаяскрытаяпеременная.Например,большоеколичествозеленойтерриторииможетпривлекатьхорошихучителейиспособствоватьростуценнажилье.

● Возможно,естьфактор,окотороммынезнаем,либовсеэтотолькосовпадение.

28Thecorrelationbetweentestscoresandhomeprices.TheWashingtonPost,July22,2015,https://www.washingtonpost.com/blogs/all-opinions-are-local/wp/2015/07/22/the-correlation-between-test-scores-and-home-prices/

Page 45: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 45

Отданныхкрепортажу:Думайкакдата-журналист

Корреляциянеозначаетпричинно-следственнойсвязи(3/3)

Упражнение:изучитеэтитриграфика.

Они показывают, как членство в профсоюзе коррелирует с тремя различнымипеременными – доходом (график A29), долей рабочего класса (график B30) и долей креативногокласса(графикC31)—вразличныхштатахСША.

Вопросы:● Какаявозможнаявзаимосвязьсуществуетмеждуразвитиемпрофсоюзногодвиженияи

болеевысокимдоходом?● Какиевозможныевзаимосвязисуществуютмеждурабочимклассомиобъединениемв

профсоюзы?● Амеждуобъединениемвпрофсоюзыикреативнымклассом?● Какбывыопределили,чтоначтовлияет?

29http://www.creativeclass.com/creative_class/_wordpress/wp-content/uploads/2011/03/union4.png30http://www.creativeclass.com/creative_class/_wordpress/wp-content/uploads/2011/03/union5.jpg31http://www.creativeclass.com/creative_class/_wordpress/wp-content/uploads/2011/03/union6.jpg

Page 46: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 46

Отданныхкрепортажу:Думайкакдата-журналист

Экстраполяцияиобобщенияизслишкоммаленькогонабораданных

Шуточныйпример

Настоящийпример

Чембольшеобъемвыборки,чембольшеданныхсобрано,чембольшийпериодвременионипокрывают,тембольшешанс,чтовысможетесделатьверныевыводы.

В этом шуточном примере32 у героя есть только один элемент данных: за один день уженщиныпоявилсяодинмуж.Поэтомуонэкстраполирует,чтонавторойденьунеебудетдвамужа,натретийдень—три,итакдалее.Этосмешнойпример,ноивреальнойжизнилюдичастоделаютвыводынаосновеслишкоммаленькогообъемаданных.

Давайте рассмотрим реальный пример из жизни, где человек на собственном примере«доказал»,чтоводителиавтомобилейпроезжаютближеквелосипедистам,еслитевшлемах.Вэтом примере, британский исследователь собрал данные о том, насколько близко к немупроезжали автомобили в зависимости от того, был ли на немшлем или нет33. Он проехал 320километровиувидел,чтокогдананембылшлем,автомобилипроезжалина8,5смближе.

Вэтомисследованииестьнесколькопроблем.Во-первых,внемнедостаточноданных.Надобылобысобратьданныесомногихлюдей,изразличныхдемографическихгрупп,которыеездятвразноевремясутокивразличныхместах,чтобывыявитькакие-либотенденцииотносительнотого,

32Explainxkcd,http://www.explainxkcd.com/wiki/index.php/File:extrapolating.png33StopForcingPeopletoWearBikeHelmets.VOX,16May2014,http://www.vox.com/2014/5/16/5720762/stop-forcing-people-to-wear-bike-helmets

Page 47: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 47

Отданныхкрепортажу:Думайкакдата-журналист

какавтомобиливедутсебяпоотношениюквелосипедистам.Чтоеще,по-вашему,нужноучестьприсбореданных,чтобысделатьдостоверныевыводы?

Давайтепосмотримнадругойпример,касающийсяпреступностивСоединенныхШтатах34.

• Где,согласнозаголовку,происходитвсплескпреступности?• Вкакихгородахизстатьиимелместовсплескпреступности?• Сравниваютсяливстатьепоказателипреступностизанескольколет?• Какиеданныевыбыиспользовали,чтобыустановить,имеллиместовсплескпреступности

национальногомасштаба?

34NationwideCrimeSpikeHasLawEnforcementRetoolingItsApproach.NPR,July1,2015,http://www.npr.org/2015/07/01/418555852/nationwide-crime-spike-has-law-enforcement-retooling-their-approach

Page 48: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 48

Отданныхкрепортажу:Думайкакдата-журналист

Совокупностьотдельныхслучаевнеявляетсянаборомданных

Иногда, при отсутствии официальных данных, журналисты и негосударственные

организации пытаются собрать воедино данные из неофициальных источников. Например,журналистысобираютсообщениявСМИомигрантах,пропавшихприпересеченииСредиземногоморя, чтобы попытаться оценить общее количество пропавших мигрантов. Однако иногда этотподход не срабатывает из-за таких ошибок, как двойной счет или отсутствие сообщений поопределенномурегионуилидемографическойгруппе.

Давайте рассмотрим конкретный пример. После похищения девочек-школьницрадикальной организацией «Боко Харам» в обществе началась кампания «Верните нашихдевочек». При этом СМИ часто использовали данные одной НПО, которая собирала цифры изрепортажейопохищениях.

Прочтитестатью“GDELTandtheProblemofDecontextualizedData.HowFiveThirtyEightGot theNigerianKidnappingsAnalysisWrong”35,иответьтенаследующиевопросы:

• Чтопыталсяпоказатьавтор,приводяагрегированныеданныеопохищенияхвНигерии?• Почемуиспользованныеданныенеотображаютреальногоколичествапохищений?• Гдеещеавтормогбыполучитьэтиданные?• Почемуважнопоказать,какменялоськоличествопохищенийстечениемвремени?

35GDELTandtheProblemofDecontextualizedData.HowFiveThirtyEightGottheNigerianKidnappingsAnalysisWrong.Source,May14,2014,https://source.opennews.org/en-US/articles/gdelt-decontextualized-data/

Page 49: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 49

Отданныхкрепортажу:Думайкакдата-журналист

Урок6:Персональныеданные

Наизображении:моиданные–открытыеправительственныеданны–открытыеданные

Несмотрянаактивноедвижениеоткрытыхданных,конфиденциальностьигосударственнаяслежка — основные причины для беспокойства, когда правительства и компании публикуютданные в открытом доступе. Иногда при помощи алгоритмов можно обратить процессанонимизации данных. В других случаях, публикация данных может иметь неожиданныепоследствия.

Открытыеданные

«Открытыеданныемогутбытьсвободноиспользованы,измененыираспространеныкемугодноислюбойцелью»

Моиданные

Ктовладеетинформациейобомне,ктоконтролируетее,иктоимееткнейдоступ?Могулия получить копию данных о себе в такомформате, чтобы использовать или распространять этиданные,могулияизвлечьизэтихданныхпользудлясебя?Еслиязахочуоткрытоопубликоватьнекоторыеданныеосебе,могулиявпринципеэтосделать?

Page 50: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 50

Отданныхкрепортажу:Думайкакдата-журналист

Пересечениеоткрытыхданныхимоихданных

Мои данные становятся открытыми данными (путем трансформации)36: важные наборы

данных, которые являются (или могли бы быть) открытыми, создаются из «моих данных»посредствомагрегирования,анонимизацииит.д.Значительнаячастьстатистическойинформации— это опросы отдельных людей, где конечные результаты агрегированы (например, данныепереписи).

Моиданныестановятсяоткрытымиданными(помоемусобственномужеланию):бывает,чтолюди,хотятподелитьсясвоимиличнымиданнымирадиблагадругих.Пациент,страдающийонкологическимзаболеванием,можетподелитьсяисториейболезни,еслиэтопоможетвпоискеметодовлеченияемуилидругимлюдямсэтимжедиагнозом.

Право выбора: если это мои данные, я должен иметь право на доступ, использование,распространениеираскрытиеэтоинформации.Еслиоткрытыеданныеоткрытыдлявсех,томоиперсональныеданныедолжныбытьоткрытыдляменя.

Такимобразом,персональныеданные—важныйисточник,однаковажно,чтобыактивистыоткрытых данных осознавали риски, когда анонимизация и агрегирование данных не даетдостаточной конфиденциальности. Еще более важно, чтобы «открытое правительство»определило,какприниматьрешенияоперсональныхданныхикакиересурсыпонадобятсятем,ктобудет публиковать эти данные. Важно четко понимать, где проходит черта междунеприкосновенностью частной жизни и использованием открытых данных для общественногоблага.37

36LauraJames,OpenData&MyData.OpenKnowledgeInternationalBlog,February22,2013,http://blog.okfn.org/2013/02/22/open-data-my-data/#sthash.zo14wGXL.dpuf37ChristopherWilson,WhatDoesPrivacyHavetoDowithOpenGovernment?TechPresident,April42014,http://techpresident.com/news/wegov/24895/what-does-privacy-have-do-open-government

Page 51: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 51

Отданныхкрепортажу:Думайкакдата-журналист

Пример:Персональныеданные

Поданнымбританскойполиции,какминимум850человекизВеликобританииездиливСириюиИрак,чтобыподдержатьджихадистскиеорганизациииливоеватьнаихстороне.ОколополовиныпозднеевернулисьВеликобританию.Предполагается,чтобольшинствоизпобывавшихвзонеконфликтавступиливтакназываемое«Исламскоегосударство»–запрещеннуювРоссиитеррористическуюорганизацию.

ЭтабазаданныхBBCNews38подробноописываетисторииболее200человек,которыепогибли,былиосужденызапреступления,связанныессирийскимконфликтом,иливсеещенаходятсявэтомрегионе.ИнформациябыласобранаизоткрытыхисточниковисобственныхрасследованийжурналистовBBC.

Вопросы:

• Вчемсостоитновостнаяценностьпубликацииперсональныхданных?• Какиепреимуществаприобрелэтотматериалблагодаряналичиювнемперсональных

данных?

38WhoareBritain’sjihadists?BBCNews,10October2016,http://www.bbc.com/news/uk-32026985

Page 52: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 52

Отданныхкрепортажу:Думайкакдата-журналист

• Чтопотерялбыэтотматериал,еслибыизнегоудалилиперсональныеданные?• Какоевлияниенаупомянутыхвматериалелюдейможетоказатьраспространениеих

персональныхданных?

Передвами—ещеодинпримерматериала,использующегоперсональныеданные.

БеларусскоеизданиеTUT.BYвыпустилорепортажоминскомполумарафоне,используяданныеучастников39.Несомненно,данныедаютинтереснуюкартину.Однакохочетликаждыйизучастниковмарафонабытьнавсеобщемобозрениипослетого,какпересекфинишнуючерту?

39Кто,откудаизасколькопробежал?ВсеоМинскомполумарафоне—воднойинфографике.TUT.BY,13сентября2016года,http://news.tut.by/society/511827.html

Page 53: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 53

Отданныхкрепортажу:Думайкакдата-журналист

Упражнение:Конфиденциальностьданных Назовитекакминимумодинаргументзаиодинаргументпротивобнародованияперсональныхданныхвследующихситуациях:

• Данныеопреступностиврайоне;• Списоклюдей,инфицированныхвирусомЭболасуказаниемулиц,накоторыхониживут;• Списоксемей,получающихфинансовуюпомощьотгосударства;• Больницыитюрьмыссамымвысокимкоэффициентомсмертности.

Page 54: Модуль 3: Как понять данные · 2017-01-26 · О ком были собраны данные, а о ком — нет? Были ли представлены

Модуль3:Какпонятьданные 54

Отданныхкрепортажу:Думайкакдата-журналист

ОтказвпредоставленииданныхпопричинамконфиденциальностиКакизбежатьотказавпредоставленииданных:

• Конкретизируйтесвойзапросданных• ЗапрашивайтеданныевфайлахCSVилиExcel• Попросите,чтобывампоказалидокументацию,устанавливающуюоплатузадоступк

информации• Будьтенастойчивы• Непроситепредоставитьвамличныеданные,аеслиониесть,топустьихисключат

Чтобы избежать отговорок, максимально конкретизируйте свой запрос, включая географию,

временной период и организацию, у которой вы запрашиваете данные. Также запрашивайтеданные в файлах CSV или Excel, которые могут быть отправлены вам электронной почтой илископированы на флешку. Если с вас хотят взять за это деньги, попросите, чтобы вам показалидокументы,устанавливающиеоплатузадоступкинформации.Будьтенастойчивымивзапросах,звонитеиприходитедотехпор,покаорганизациинестанетпрощеудовлетворитьвашзапрос,чемпродолжатьиметьсвамидело.Непроситепредоставитьвамличныеданные,включаятелефонныеномера,адресаилиномерапаспортовдругихлюдей.Есливамнедаютданныенаоснованиитого,чтотамсодержитсяперсональнаяинформация,попроситеанонимизироватьданные.

Вопросы

• Какиеданныесчитаютсяввашейстранеконфиденциальнымиикакиеестьаргументызаипротивихобнародования?

• Комувыгодно,чтобыэтиданныеоставалиськонфиденциальными,акомувыгодно,чтобыонибылиобнародованы?