Модуль 3: Как понять данные · 2017-01-26 · О ком были...
TRANSCRIPT
Модуль3:Какпонятьданные 1
Отданныхкрепортажу:Думайкакдата-журналист
Модуль3:КакпонятьданныеУЧЕБНОЕПОСОБИЕДЛЯСТУДЕНТОВ
Чтобыграмотноанализироватьданные,вампреждевсегонужнонаучитьсяоцениватьихкачествоиприменятьосновныепринципыстатистикидляихправильнойинтерпретации.Вэтоммодуле мы рассмотрим основные моменты организации и очистки данных, а также вопросы,которыепомогутоценитьисточникданных.Далеевыпознакомитесьсбазовымивычислениями,которыемогутпревращатьчиславдоли,сопоставимыезначенияиокругленныевеличины,которыеболеепонятныаудитории.Послеэтогомыосвоимосновыстатистики,чтобыбытьувереннымивправильной интерпретации данных и замечать, что с данными были произведены какие-томанипуляции.Вконцемырассмотримвопросконфиденциальностиданных.
Послеокончанииэтогомодулявысможете:
● Организоватьнаборданныхдляанализа
● Определить,можнолидоверятьисточникуданных
● Упроститьданные,чтобыонибылиболеепонятныширокойаудитории
● Объяснитьосновныепринципыстатистики
● Проанализироватьобработанныеданные
● Объяснитьтрудности,возникающиевсвязисконфиденциальностьюданных
Содержание
Урок1:Организацияданных.......................................................................................................3Стандартизацияданных.........................................................................................................................3Какстандартизироватьданные.............................................................................................................5
Урок2:Проверкаданных.............................................................................................................6Пример:Причинысмертностисредидетейввозрастедо5лет........................................................7Вопросы,которыенеобходимозадатьприработеснаборомданных.............................................9Упражнение:Вопросыкданным........................................................................................................11Пример:оценкаданныхопреступности............................................................................................12Упражнение:оценкаданныхорасходахназдравоохранение........................................................14
Урок3:Обобщаемиупрощаемданные...................................................................................15
Модуль3:Какпонятьданные 2
Отданныхкрепортажу:Думайкакдата-журналист
Упрощаемпроцентныепоказатели....................................................................................................15Считаемдоли........................................................................................................................................17Сравниваемпоказатели.......................................................................................................................18Округляемзначения.............................................................................................................................20Упражнение:сравниваемзначения....................................................................................................21
Урок4:Основыстатистики........................................................................................................26Выборка.................................................................................................................................................26Наиболеечастовстречающиесяметодывыборки............................................................................27Примерыплохойвыборки:ненаучныеопросы.................................................................................28Чтотакоепределпогрешности...........................................................................................................28Пример:маленькийобъемвыборкииспорыовакцинеиаутизме................................................29Пример:маленькиевыборкивнутрибольших..................................................................................29Пример:какнедатьввестисебявзаблуждениедокладомозанятости........................................30Упражнение:пределпогрешности.....................................................................................................31Оценкадостоверностиданных(1/3)...................................................................................................32Оценкадостоверностиданных(2/3)...................................................................................................33Оценкадостоверностиданных(3/3)...................................................................................................34Упражнение:оценкадостоверностиданных.....................................................................................35
Урок5:Оценкаинтерпретацииданных....................................................................................36Подменаиндикатора...........................................................................................................................37Сравнениенесравнимого(1/2)...........................................................................................................38Сравнениенесравнимого(2/2)...........................................................................................................40Выводзакономерностиизсовпадения(1/2).....................................................................................41Выводзакономерностиизсовпадения(2/2).....................................................................................42Корреляциянеозначаетпричинно-следственнойсвязи(1/3).........................................................43Корреляциянеозначаетпричинно-следственнойсвязи(2/3).........................................................44Корреляциянеозначаетпричинно-следственнойсвязи(3/3).........................................................45Экстраполяцияиобобщенияизслишкоммаленькогонабораданных..........................................46Совокупностьотдельныхслучаевнеявляетсянаборомданных.....................................................48
Урок6:Персональныеданные..................................................................................................49Пересечениеоткрытыхданныхимоихданных.................................................................................50Пример:Персональныеданные.........................................................................................................51Упражнение:Конфиденциальностьданных......................................................................................53Отказвпредоставленииданныхпопричинамконфиденциальности............................................54
Модуль3:Какпонятьданные 3
Отданныхкрепортажу:Думайкакдата-журналист
Урок1:Организацияданных
Передтемкакприступитьканализуданных,которыйпоможетнампроверитьгипотезуиответить на вопросы, мы должны понимать имеющуюся у нас информацию. Упорядочиваниеданных происходит в соотвествии с определенным набором стандартных правил, в результатекоторых данные становятся более читаемы. В ходе работымы в основном будем иметь дело сданнымивтаблицах,анесбазамиданных,номногиеизорганизационныхпринциповотносятсяиктем,икдругим.
Данныевтаблицах—этоданные,занесенныевэлектроннуютаблицуипредставленныевчеловекочитаемом формате. Вместо того, чтобы читать строку за строкой, вы можетепроанализироватьтаблицуцеликомисделатьвыводы.
Табличная база данных — это набор данных в виде двумерной таблицы: столбцы дляобозначения категории и строки для занесения записей. Такая система организации позволяеткомпьютеруанализироватьданныеинаходитьсовпадения,чтобывымоглисделатьобщиевыводыобэтихданных.
Каждый столбец назван в соответствии с категорией данных, которые он содержит, акаждая строка представляет собой отдельную запись. Столбец также указывает на тип данных,например,названия,возрастныекатегории,пол,организацияит.д.
Стандартизацияданных
Есливыработаетесбазойданных,важноучитывать,чтоинформациятудамоглапоступатьиз различных источников, данные могут отсутствовать, быть по-разному организованы, а такжесодержать ошибки, такие как дублирующиеся записи или орфографические ошибки. Все этоусложняетпроцессанализа,ихотямысвамивидимэтиошибки,компьютерихнераспознает.
Стандартизацияданных—этопроцессочисткиданных,одинизключевыхэлементоввдата-журналистике.
Первое,чтонадосделатьприочисткеданных—убедиться,чтостолбцыобозначеныверно,ичтотипданныхвстрокахсоответствуетзаголовку.
Многие процессы очистки данных позволяют нам привести в порядок всю базу данных,используяодинитотженаборинструментов.
Еслибазаданныхсодержиттакуюинформациякакадреса,возраст,единицыизмерения,топервое,чтонеобходимосделать—выбратьединыйспособзаполненияполейвбазеданных.
Модуль3:Какпонятьданные 4
Отданныхкрепортажу:Думайкакдата-журналист
Вотнестандартизированнаяколонкаданных:
Данные
12февраля2012
12/2/2012
2/12/2012
12/2/12
12/фев/2012
Несуществуетединственногоправильногоформата—главное,чтобывсезначенияимелиодинаковыйформат,икомпьютермогегораспознать.Важновыбратьтакойформат,которыйбылобынаиболееудобноприменятьдлявсейбазыданных.ВданномслучаемырешилииспользоватьформатДД/ММ/ГГГГ.Итеперь,послеочистки,нашиданныевыглядяттак:
Дата
12/2/2012
12/2/2012
12/2/2012
12/2/2012
12/2/2012
Теперькаждаязаписьсдатойимеетидентичныйформат:ДД/ММ/ГГГГ
Модуль3:Какпонятьданные 5
Отданныхкрепортажу:Думайкакдата-журналист
Какстандартизироватьданные
Основнойпринцип—убедиться,чтовседанныеимеютодинитотжеформат.Частодлястандартизациииспользуютсятолькозаглавныебуквы.Убедитесь,чтоввашихданныхнетлишнихпробелов.
Переднамиследующийнаборданных:
Нестандартизированныеданные:
Имя Датарождения
Адрес Зарплата
MarinaTzvetaeva 8October1892
Borisoglebskyi,6/1 10000р.
ОсипМандельштам 15/1/1891 Нащокинскийпер.3,кв.26
Врублях10000
Стандартизированныеданные:
ИМЯ ДАТАРОЖДЕНИЯ
АДРЕС ЗАРПЛАТА(РУБ)
МАРИНАЦВЕТАЕВА 08/10/1892 БОРИСОГЛЕБСКИЙПЕРЕУЛОК,ДОМ6/1
10000
ОСИПМАНДЕЛЬШТАМ 15/01/1891 НАЩОКИНСКИЙПЕРЕУЛОК,ДОМ3,КВ.26
10000
Существуют специальные программы, а также функции в Excel, предназначенные дляочисткиданных.ДлябазовойочисткиданныхвамбудетдостаточнофункцийExcel:фильтр,«найтиизаменить»,СЖПРОБЕЛЫ.ДляболеесложнойочисткиданныхподойдетпрограммаOpenRefine—она может справиться даже с самыми запутанными наборами данных. Мы рассмотрим этиинструментыналабораторныхзанятиях.
Модуль3:Какпонятьданные 6
Отданныхкрепортажу:Думайкакдата-журналист
Урок2:Проверкаданных
Наизображении:Источникданных?Показатели?Единицыизмерения?
Таблицыданных зачастую содержат в себебольшойобъеминформации в сжатомвиде.Перед тем как приступать к анализу, важно понять, что конкретно измеряется и что означаютописания,категорииидругаяконтекстуальнаяинформация.Этопоможетверноинтерпретироватьданные.
Какправило,данныепоконкретнойтемеготовятсяспециалистамивэтойобласти,поэтомутамширокоиспользуетсяпрофессиональныйжаргониаббревиатуры,отчастичтобысэкономитьместо в документе. Если немного изучить эту тему и посмотреть, как именно используется этотисточник, вам будет намного легче понять эти данные в контексте. Многие наборы данныхсопровождаются кодовым словарем или глоссарием, где объясняются категории и единицыизмерения.
Модуль3:Какпонятьданные 7
Отданныхкрепортажу:Думайкакдата-журналист
Пример:Причинысмертностисредидетейввозрастедо5лет
ЗайдитенасайтВсемирнойОрганизацииЗдравоохраненияинайдитеданныепопричинамсмертностисредидетейввозрастедопятилет1.Выберитекатегорию«Детскоездоровье»,далее«Смертностьсредидетейдо5лет»=>«Причины»=>«Пропорциясмертностипопричинам»=>«Постране»,ивыберитесвоюстрану.ЗатемзагрузитеданныеввидеCSV-файла,гдебудеттекст,кодыизначения.
1http://apps.who.int/gho/data/view.main.ghe300-SDN?lang=en
Модуль3:Какпонятьданные 8
Отданныхкрепортажу:Думайкакдата-журналист
Такой набор данных обычно используется для проведения оценки состояния здоровьядетей в какой-либо стране. При посмотре подобного набора необработанных данных важнотщательнопросмотретьвсюдополнительнуюинформациюпередтем,какпроводитькакой-либоанализ.Вданнойтаблицесобранывопросы,накоторыенужноответитьдотого,какиспользоватьданные.
Источникиданных Пониманиепоказателей ЕдиницыизмеренияВопросыоданных:
● Какаяорганизацияпредоставилаэтиданные?
● Изкакихисточниковэтаорганизацияполучиладанныеилионасамаявляетсяисточником?
● Могулиянайтипояснениякэтимданным?
● Естьлиссылкинаисточникиданныхвтаблице?
● Этоновыеилиустаревшиеданные?
Вопросыоданных:● Чтоозначают
показатели?● Могулия
посмотретьопределенияпоказателей,которыемненепонятны?
● Вчемразличиямеждувозрастнымикатегориями?
● Какиепоказатели,невключенныевэтиданные,моглибыпредоставитьбольшеконтекстнойинформации?
Вопросыоданных:● Чтоозначают
цифры?Чтоявляетсяединицейизмерения?
● Какрассчитанадоляилипроцентноеотношение?
● Можнолиполучитьэтиданные,используядругиевеличиныиздругогоисточника?
Вопросыобщественногозначения:
● Поступилилиэтиданныеизнадежногоисточника?
● Актуальнылиэтиданныечтобыиметьзначение?
● Могулиянайтидополнительнуюинформациюобисточникеданных?
Вопросыобщественногозначения:
● Чтообществубылобыинтересноузнатьобэтихданных?
● Отвечаютлипоказателинавопросы,которыеяхочузадать?
● Какаядругаяинформациямоглабыобъяснитьэтиданные?
Вопросыобщественногозначения:
● Помогаетлиединицаизмеренияпоместитьданныевнужныйконтекст?
● Можнолиоценитьмасштабырискаспомощьюэтойединицыизмерения?
● Какприпомощитекстаобъяснитьэтиизмерениясвоейаудитории?
Кданнымнужноподходитьсответственностью—передтемкакписатьоданных,автор
должен проверить их на достоверность. Для этого не обязательно быть дата-аналитиком,достаточно пройти по списку вопросов, которые помогут рядовым пользователям выявитьпризнакиподозрительныхилиненадежныхданных.Есливыбудетерегулярнопользоватьсяэтимсписком для оценки данных, вы сведете риск к минимуму. Также надо быть в курсе типичныхошибокприинтерпретацииданных,этопоможетвамбытьначеку.
Модуль3:Какпонятьданные 9
Отданныхкрепортажу:Думайкакдата-журналист
Вопросы,которыенеобходимозадатьприработеснаборомданных2Откудаэтицифры?
Какаяорганизацияопубликовалаэтиданные?
Являетсялиэтаорганизациянадежнымисточникомданных?
Выложеналиметодологиясбораданныхнасайтеорганизации?
● Ктособралэтиданные?
Занималасьлиэтаорганизациясборомданныхсамостоятельно,илиона
привлекладляэтойцелидругуюкомпанию?
Прошлилиработникиспециальноеобучение?
● Как?
Данныеполученыизпервоисточникаилиизкакого-либодоклада/отчета?
Этиданные—результатисследования,охватившегочастьнаселения,или
переписи,охватившейпочтивсенаселение?
● Скакойцельюпроводилсясборданных?
Проводилсялисборданныхдляпредоставленияотчетаспонсору,чтобы
продемонстрироватьвыполнениепоставленныхцелей?
Проводилсялисборданныхвнешнимаудитором?
● Насколькополныеэтиданные?
Можнолипоговоритьстеми,ктозанималсясборомданных?
Естьлиоговоркионедостаткахданных?
● Какаедемографическиегруппыохваченыэтимиданными?
Окомбылисобраныданные,аоком—нет?
Былилипредставленыисельские,игородскиерайоны?Мужчиныиженщины?
Трудоспособныелицаилицасограниченнымивозможностями?
● Веренлиэтотподходдляколичественногоизмерениявопроса?
Чтоименноизмеряютэтиданныеиподходитлиэтодлявашегорепортажа?
● Чтонеучтеновэтихданных?
2JonathanStray,Source,https://source.opennews.org/en-US/learning/statistically-sound-data-journalism/
Модуль3:Какпонятьданные 10
Отданныхкрепортажу:Думайкакдата-журналист
Имелалиместоситуация,когдакакая-либогруппанебылавключенав
исследованиепопричинесложностейсполучениемдоступакней?(например
лицасограниченнымивозможностямиилилюди,живущиевконфликтныхзонах)
● Ктоможетбытьвыставленвплохомсветеилипотерятьденьгиврезультате
обнародованияэтихцифр?
Былолиэтоисследованиеинициированоорганизацией,котораяхочетдоказать
эффективностьсвоихпроектов?
Былолиэтоисследованиеинициированолицом,известнымсвоейкритикойпо
данномувопросу?
● Согласованылиданныевзависимостиотвремениилитем,ктоихсобирал?
Еслисборданныхпродолжалсявтечениенесколькихлет,проводилсялионодной
итойжегруппойспециалистовсприменениемоднойитойжеметодологии?
● Какиепроизвольныерешениябылипринятывходесозданияэтогонабораданных?
Какпринималисьрешенияпотакимвопросам,какобъемвыборки?
● Непротиворечатлиэтиданныедругимисточникам?Ктоужепроанализировалих?
Естьлидругиеданныепоэтойжетемеисовпадаютлирезультаты?
● Естьлиуэтихданныхочевидныеизъяны?Существуетлинескольковерсийэтихданных?
Объясняетлиметодологияпотенциальныеошибкивданных?Отличаютсялиэти
данныевзависимостиоттого,гдеонипомещены?
Модуль3:Какпонятьданные 11
Отданныхкрепортажу:Думайкакдата-журналист
Упражнение:Вопросыкданным
Прочитайтестатью«Каждыйтретийтрудоспособныйкыргызстанецнаходитсяназаработкахзарубежом»3Ответьтенавопросы:
● Накакиеданныессылаетсяпремьер?● Находятсялионивоткрытомдоступе?● Какбылиполученыэтиданные?● Учитываютлионивсекатегориимигрантов?● Существуютлиальтернативныеподсчеты?
Прочитайтестатью«БедностьвГрузии—проблемаесть,ноонарешаема»4Ответьтенавопросы:
● Какиеисточникиданныхцитируютсявстатье?● Существуютлиразныевариантыданныхизразныхисточников?● Скакойцельюикембылисобраныэтиданные?● Известналиметодологиясбораданных?Заслуживаетлионадоверия?● Опрашивалосьливсенаселениеиливыборка?Насколькоэтавыборкарепрезентативна?● СобиралисьлисравнительныеданныевГрузиииАрмениипооднойметодике?
Прочитайтестатью«ВКазахстанекаждыйгод15усыновленныхдетейвозвращаютвдетскиедома»5Ответьтенавопросы:
● Ктоопубликовалданные,накоторыессылаетсястатья?● Можнолиимдоверять?Какбылисобраныэтиданные?● 15случаев–этомногоилимало?Существуютлиальтернативныеданные?● Уместнолииспользованиеслова«ежегодно»,еслиданныесобранытолькозаодингод?● Закакойпериодсобраныданныеовозвращенииусыновленныхдетейвдетскиедома?А
закакойпериодприведеныданныеостатистикеусыновлений?Правомернолисопоставлениеэтихдвухпоказателей?
● Какиеданныенеучитываютсяимоглибыдополнитькартину?
3Каждыйтретийтрудоспособныйкыргызстанецнаходитсяназаработкахзарубежом.KNEWS,21сентября2016http://knews.kg/2016/09/kazhdyj-tretij-trudosposobnyj-kyrgyzstanets-nahoditsya-na-zarabotkah-za-rubezhom/4БедностьвГрузии—проблемаесть,ноонарешаема.ГрузияOnline,5сентября2016,http://apsny.ge/society/1473128697.php5ВКазахстанекаждыйгод15усыновленныхдетейвозвращаютвдетскиедома.Today.kz,20октября2015,http://today.kz/news/kazahstan/2015-10-20/700659-v-kazahstane-kazhdyij-god-15-usyinovlennyih-detej-vozvraschayut-v-detskie-doma/
Модуль3:Какпонятьданные 12
Отданныхкрепортажу:Думайкакдата-журналист
Прочитайтестатью«Людиспортфелями.Зарплатаработниковгосоргановзапрошлыйгодвырослана100рублей»6Ответьтенавопросы:
● Какойорганпредоставилданные,которыеанализируютсявстатье?● Какбылисобраныданные?Насколькополнуюкартинупредоставляютэтиданные?● Естьликатегории,параметры,показатели,которыенебралисьврасчетилиизменялисьот
годакгоду?● Какиенедостаткивывидитевприведенныхданных?
Пример:оценкаданныхопреступности
Иногда у нас недостаточно данных, чтобы сделать на основе их осмысленные выводы.Зачастуюэтопроисходитиз-затого,чтомынедостаточноразбираемсявтемеиливстатистике,либонамтакнетерпитсяопубликоватьматериал,чтомынепомещаемданныевнужныйконтекстинесравниваемсдругиминаборамиданных.Врезультатемынеможемпроверитьимеющиесяданныекак следует. Это частый случай при интерпретации данных о преступности— в результате онипреувеличены или неправильно истолкованы. Вот несколько типичных ошибок, которыедопускаютсяприосвещениипреступлений.
Этокартапреступностииливсеголишькартаплотностинаселения?7ВданномпримереизБерлина наивысший уровень преступности— в центре города, который также является самымгустонаселеннымрайоном.
6Людиспортфелями.Зарплатаработниковгосоргановзапрошлыйгодвырослана100рублей.TUT.By,21сентября2016,https://finance.tut.by/news512971.html7BerlinAtlasofCrime.http://www.economicworldmap.net/berlincrime/
Модуль3:Какпонятьданные 13
Отданныхкрепортажу:Думайкакдата-журналист
Уровень преступлений не рассчитан на душу населения, из-за чего кажется, чтопреступность зашкаливает там, гдеживетбольшелюдей.Однако темно-красноепятновцентреБерлинанеозначает,чтоуотдельногочеловекарискстатьжертвойпреступлениявыше,еслионживетвцентре.
● Являютсялиданныестатистическизначимыми,еслисравнитьихсостальнойчастью
страныиливзятьотрезоквнескольколет?(например,повышениеуровняместной
преступностина5%в2012годунеявляетсястатистическизначимым,еслипостране
уровеньвыросна7%илионвыросна6%в2012году).
● Имеллиместофактор,исказившийрезультаты?(например,террористическаяатакав
центре,котораярезкоувеличилапоказатели,илизаниженныеданныепопреступлениям
противсоциальноуязвимыхгруппнаселения?)
● Влияетликоличествополицейскихнарезультаты?(например,показателипо
преступлениям,связаннымснезаконнымоборотомнаркотиков,могутвзлететь,еслина
этобудутброшеныдополнительныесилы)
● Чтоэтозакатегорияпреступлений?Возможно,этипоказателивсегдазаниженыкакв
случаессексуальнымнасилиемлибонаоборот,завышены—например,превышение
скоростивтехрайонах,гдеуполицейскихестьежемесячнаяквотанавыпискуштрафовза
превышениескорости.
Модуль3:Какпонятьданные 14
Отданныхкрепортажу:Думайкакдата-журналист
Упражнение:оценкаданныхорасходахназдравоохранение
Вас попросили изучить данные об основных расходах на здравоохранение и выявитьнаиболееважнуюдлягражданинформацию.Этопоможетгражданамтребоватьотправительстваграмотногораспределениябюджетаирешениянаиболееважныхпроблем.
● Шаг1:Откройтесайтсинформациейорасходахстранназдравоохранение8ивыберите
своюстрану.Можетедобавитьнесколькодругихстрандлясравнения.Можетеизменить
индикаторысравнения.
● Шаг2:Убедитесь,чтоконтекстэтихданныхвампонятен(Нажмитезначок«i»длядеталей).
Откудаэтиданные?
Чтоозначаеткаждыйизпоказателей?
Проверьте,какиепоказателидолжнывсуммедавать100%
Какиеединицыизмеренияиспользуются?Являютсялионинаиболееподходящимидля
вашегоанализа?
● Шаг3:Определите,какаяинформация,повашемумнению,наиболееважнадля
общественности
● Шаг4:Подумайтеоследующем:
Какиеракурсыдлярепортажавывидитевэтихданных?
Какиепоказателинужносопоставить,чтобыобъяснитьпроблему?
Укакихэкспертовнадобудетвзятьинтервью?
● Шаг5:Напишитекраткоеизложениематериалапримернона200-300слов.
8http://data.worldbank.org/indicator/SH.XPD.PUBL.ZS?end=2014&start=1995&view=chart
Модуль3:Какпонятьданные 15
Отданныхкрепортажу:Думайкакдата-журналист
Урок3:Обобщаемиупрощаемданные
В этом упражнении мы будем работать с докладом ЮНИСЕФ «Положение детей вКыргызской Республике»9. Здоровье детей измеряется по большому количеству показателей,причем результаты варьируются в зависимости от дохода семьи, места проживания и другихфакторов.Чембольшефакторовиисточниковданныхмыпримемвовнимание,темболееполноепредставлениеодетскомздоровьевстранеполучатчитатели.
УпрощаемпроцентныепоказателиВрезультатахисследованийданные,какправило,представленывобезличенномвиде,в
процентах.Читателямсложносовместитьпроцентысобъектомисследования.Поэтомустарайтесьупростить процентный показатель и перевести его в долю (четверть, треть) или в количествочеловекнатысячунаселения.Тогдауаудиториибудетпонимание,сколькихчеловеквобществекоснуласьтаилиинаяпроблема.Упроститьцифрыпомогаетнаибольшийобщийделитель—самоебольшоечисло,накотороеделитсябезостаткаичислитель,изнаменательдроби—тоестьисамопроцентноезначение,иобщаясумма(100%).
УчимсяработатьспроцентнымипоказателямиКакпреобразовыватьпроценты?Посмотрите:
• 33%=33/100=3/10(разделитеичислитель,изнаменательна3)=⅓• 75%=75/100(разделитеичислитель,изнаменательна25)=¾
ПримерВот несколько примеров, которые показывают, как доля и доля от населения помогают
упроститьследующиефактыодетскомздоровье,гдеданныеприводятсяввидепроцентов.
Процент Доля Долявгруппенаселения
В2006годупоказательпоотставаниювростевыроспочтидо25процентовсредидетейдотрехлет.
Одначетвертьдетейдотрехлетотстаетвросте.
Каждыйчетвертыйребенокдотрехлетотстаетвросте.
Вбеднейшемслоенаселениятолько60,1процентаженщинполучаютквалифицированнуюмедицинскуюпомощьприродах.
Толькотрипятыхотобщегоколичестваженщинвбеднейшемслоенаселенияполучаютквалифицированнуюмедицинскуюпомощьприродах.
Толькотриизпятиженщинвбеднейшемслоенаселенияполучаютквалифицированнуюмедицинскуюпомощьприродах.
9ПоложениедетейвКыргызскойРеспублике.ЮНИСЕФ,2011,https://www.unicef.org/kyrgyzstan/ru/Situation_analysis_RUS.pdf
Модуль3:Какпонятьданные 16
Отданныхкрепортажу:Думайкакдата-журналист
Упражнение:Упрощаемпроцентныепоказатели
Упростите следующие высказывания, в которых данные приведены в виде процентов,используядолюидолюотнаселения.
• Исследование, проведенное в Таласской области в 2008 году, показало, что около 50процентовдетейввозрастедо5лети25процентовматерейстрадаютотанемии.
______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
• В 2006 году более 5 процентов детей в стране родились с малым весом. В Нарынскойобластиэтотпоказательсоставил10процентов.
______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
• Диарейные заболевания являются одной из основных причин смертности средидетей вКыргызстане. Исследование 2006 года показывает, что лишь при лечении 20 процентовдетей из числа тех, кто заболел диареей в предыдущие две недели, использоваласьпероральнаярегидратация.
______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Модуль3:Какпонятьданные 17
Отданныхкрепортажу:Думайкакдата-журналист
Считаемдоли
Доли от группы населения удобно использовать, когда нужно упростить процентныйпоказатель. Чтобы посчитать, какую часть населения касается та или иная проблема, разделитеобщееколичестволюдейввыборкенаколичестволюдей,затронутыхпроблемой—врезультатевыполучитедолюотвыборки,затронутуюпроблемой.
Пример
Переднамифакт:«НедостаточноепитаниеявляетсявКыргызстанеосновнойпричинойсмертностидетейдо5лет(в22процентахслучаев)».
Давайтепереведемпроцентныйпоказательвдолюотвсехумершихдетейдо5лет:
Выпонимаете,что22%=22/100
Теперь давайте разделим общее число (то есть 100) на количество детей из этого количества,затронутыхпроблемой(тоесть22),получается100/22=4,55
На основе этих вычислений мы можем сказать, что 1 из 4,55 детей умирает от недостаточногопитания.
Таккак4,55—нецелоечисло,поэтомуумножимвсена2иокруглимдоцелого.
«ДвоеиздевятиумершихдетейвКыргызстанеумираютотнедостаточногопитания».
Упражнение:Считаемдолиотгруппнаселения
Упроститеследующиевысказывания,посчитавдолюотнаселения.
● ВКыргызстанетолько31,5процентановорожденныхнаходятсянаисключительногрудномвскармливанииилишь37,5процентовполучаютполноценноепитание.
______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
● Поданным2006года,11,8процентанаселениянеимелидоступакчистойпитьевойводе.______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
● В1996годуу14процентовдетейввозрастедо5летнаблюдалосьотставаниевросте.______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Модуль3:Какпонятьданные 18
Отданныхкрепортажу:Думайкакдата-журналист
Сравниваемпоказатели
Теперьдавайтепопробуемсравнитьдвавысказывания,вкоторыхсодержатсяпроцентныепоказатели,иперепишемихтак,чтобычитателямбылапонятнаэтаинформация.
Например,давайтеупростимследующиедвавысказывания:
• Показательотставаниявростеудетейвсельскихрегионах—15,7процента• Показательотставаниявростеудетейизгородов—10,4процента
Чтобысделатьэто,переведемпроцентывпростыедроби:
● 15,7%=16/100=4/25
● 10,4%=10/100=1/10
Теперьмыможемсказать:
● Четвероиз25детейвсельскихрегионахотстаютвразвитии● Одинребенокиздесятидетей,живущихвгороде,отстаетвразвитии
Мыможемупроститьэтивысказыванияещебольше,приведяобакобщемузнаменателю:
● 8из50детей,растущихвсельскойместности,отстаютвразвитии● 5из50детей,растущихвгородах,отстаютвразвитии
Модуль3:Какпонятьданные 19
Отданныхкрепортажу:Думайкакдата-журналист
Упражнение:СравниваемпоказателиУпроститеисравнитеданные,которыепредставленывследующемвиде:
1. ВОшскойобластинаблюдаетсяособенновысокийуровеньродовсосложнениямииз-за
анемии—67,1процентав2008годуи71,2процентав2009году.
____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
2. Показателиотставаниявростевышеудетейвсельскихрегионах(15,7процента)по
сравнениюсгородом(10,8процента).
____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Модуль3:Какпонятьданные 20
Отданныхкрепортажу:Думайкакдата-журналист
Округляемзначения
Из-забольших,сложныхчиселвашааудиторияможетпотерятьинтерескрепортажу.
Используйтеокругленные,упрощенныезначения,чтобылюдилегкопредставлялисебеобъеми
масштабпоказателя,непутаясьвцифрах.
ПримерыИсходныезначения ОкругленныезначенияНаселениеУкраины45,49миллионачеловек ВУкраинепроживаетболее45миллионов
человек.
УровеньрождаемостивМолдове—1,46 ЖенщинывМолдоверожают,какправило,одногоилидвухдетей
Упражнение:округляемзначения
Найдитепоказателинаселенияиуровнярождаемостипосвоейстранеиперепишитеихв
упрощенномвиде.
____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Модуль3:Какпонятьданные 21
Отданныхкрепортажу:Думайкакдата-журналист
Упражнение:сравниваемзначения
Используяпройденныеметодыупрощенияданных,перепишитеследующуюинформацию
впонятномширокойаудиториивиде.
Передтем,какприступитькзаданию,примитевовнимание:
• Вселииндикаторывампонятны?Понятнылиониаудитории?
• Нужнылидополнительныеданныеилиинформация,чтобыцеликомраскрытьпроблему?
Еслида,точтоэтозаинформация/данные?
Примеры
1. «ВАрменииостростоитпроблемадетскогонедоедания»10«Попоследнимданнымисследования,котороепроводитсявАрмениикаждые5лет,в2010
г.у19%детейобнаружилсязамедленныйростразвития.Причемсредидетей,живущихвсельскойместности, был зафиксирован рекордный, 22-% показатель, превышающий статистику,наблюдаемуюугородскихдетей(17%).Экспертысвязываютстольтревожныепоказателинетолькосбедностью,ноинизкойосведомленностьюнаселенияоправильномрежимедетскогопитания.
Согласноданнымнациональнойстатистическойслужбыза2012год,почтикаждыйтретийжительАрменииживетвнужде,апорезультатамисследования,проведенногоАрмянскимфондомпомощи в 2013 году, в Тавушской области среди 16 процентов детей в возрасте до 6 летнаблюдаютсязамедленныетемпыроста,ещеу19процентовстрадаютотмалокровия».
____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
2. «ЗдоровьедетейУкраины:актуальныепроблемыипутиихрешения»11
10ВАрменииостростоитпроблемадетскогонедоедания.IWPR,30июля2014года,http://bit.ly/armenia-nedoedanie11ЗдоровьедетейУкраины:актуальныепроблемыипутиихрешения.Медицинскийпортал«health-ua.org»,https://www.health-ua.org/faq/mammologiya/1953.html
Модуль3:Какпонятьданные 22
Отданныхкрепортажу:Думайкакдата-журналист
«ЗаведующаякафедройнеонатологииКМАПОим.П.Л.Шупика,доктормедицинскихнаук,профессор, главныйвнештатныйспециалистпонеонатологииМЗУкраиныЕлизаветаЕвгеньевнаШунькоостановиласьнаосновныхпроблемахидостиженияхнеонатологии.
На протяжении последних лет в Украине наблюдается явная тенденция к снижениюмладенческойинеонатальнойсмертности.Так,в2003годуперинатальнаясмертностьсоставила8,3‰ (в 2002 году — 8,6), неонатальная смертность — 5,3‰ (в 2002 году — 5,8), ранняянеонатальнаясмертность—3,6‰(в2002году—3,9),постнеонатальнаясмертность—4,4‰(в2002году—4,7)».
____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________3.«Распространенностьанемииудетейввозрасте6-59месяцев,Молдова,2012год»12
________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 12РазвитиедетейвраннемвозрастевЕвропейскомрегионе:потребности,тенденциииразработкаполитики.Обзорнаосновеоценкипятистран.ЕвропейскоерегиональноебюроВОЗ,2014год,http://www.euro.who.int/__data/assets/pdf_file/0009/265779/Early-child-development-in-the-European-Region-needs,-trends-and-policy-development-Rus.pdf
Модуль3:Какпонятьданные 23
Отданныхкрепортажу:Думайкакдата-журналист
____________________________________________________________________________________________________________________________________________________________________________________
4.Проанализируйтепоказателимладенческойсмертностиисмертностидетейза1996годввашейстранеисравнитеспоказателямивдругихстранах.
Этиданныеприведенывдокладе«Кормлениеипитаниегрудныхдетейидетейраннеговозраста»13.Cкакимипоказателямиуместносопоставлятьпоказателивашейстраны?
____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
13Кормлениеипитаниегрудныхдетейидетейраннеговозраста.МетодическиерекомендациидляевропейскогорегионаВОЗсособымакцентомнареспубликибывшегоСоветскогоСоюза.РегиональныепубликацииВОЗ,Европейскаясерия,№87.Обновленноепереиздание2003г.Страница16.http://www.euro.who.int/__data/assets/pdf_file/0009/265779/Early-child-development-in-the-European-Region-needs,-trends-and-policy-development-Rus.pdf
Модуль3:Какпонятьданные 24
Отданныхкрепортажу:Думайкакдата-журналист
5.ПроанализируйтераспространенностьгрудноговскармливаниявразныхстранахЕвропейскогорегиона.Обратитевниманиенаданныеповашейстранеисравнитеихспоказателямивдругихстранах.
Этиданныеприведенывдокладе«Кормлениеипитаниегрудныхдетейидетейраннеговозраста»настранице35.
____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
6.Найдитеданныеполюбомуизпоказателейдетскогоздоровьяповашейстране/регионуинапишитеобэтомодинабзацтекста,предназначенногодляширокойаудитории.
Дляпоискаданныхвоспользуйтесьdata.unicef.org.Найденныепоказатели:____________________________________________________________________________________________________________________________________________________________Источник:______________________________________________________________________________Текст:
Модуль3:Какпонятьданные 25
Отданныхкрепортажу:Думайкакдата-журналист
______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Модуль3:Какпонятьданные 26
Отданныхкрепортажу:Думайкакдата-журналист
Урок4:Основыстатистики
Выборка
Наизображении:Население=>Выборка
По мере того, как все больше информации хранится в виде данных, особенно важнооценивать их по методу сбора и технических стандартам научного исследования. Если выпонимаете, что такоевыборкаипределпогрешности, вамбудетлегчеопределить, являютсялиопросыианкетированиярепрезентативными,икакиевыводыможносделатьнаихоснове.
Чтотакоевыборочноеисследование?
Так как собрать данные от каждого представителя населения невозможно или оченьзатратновпланевремениифинансов,исследователиобычноприменяютметод«выборки».Цельвыборочногоисследования—сделатьвыборкулюдей,котораябудетотображатьвсенаселение.
Очемстоитподуматьприопределениивыборки:
• Какуюгенеральнуюсовокупностьпредставляетвашавыборка?• Каквыбудетеделатьвыборку?• Насколькодемографическихгруппвыхотитеразбитьучастниковисследования?• Какаяточностьвамнужна?
Модуль3:Какпонятьданные 27
Отданныхкрепортажу:Думайкакдата-журналист
Наиболеечастовстречающиесяметодывыборки
СлучайнаяВыборкаСистематическаявыборкаСтратифицированнаявыборка
Существуетнесколькометодоввыборочныхисследованийсрединаселения.Например:
Случайнаявыборка Увсехэлементовспискаравныешансыбытьвключеннымиввыборку.
Систематическаявыборка
Выбираетсякаждыйn-ныйэлемент.
Стратифицированная/расслоенная/выборка
Совокупностьделитсянаподгруппы,которыевзаимноисключаютивзаимнодополняютдругдруга.Далееизкаждойгруппыделаетсяслучайнаявыборка.Например,еслиувасестьданныепочетыремстранам,товместотогочтобысмешиватьвседанныеиделатьслучайнуювыборку,делаетсяслучайнаявыборкапокаждойстране.
ДополнительнаяВыборка
Производитсядополнительнаявыборкаопределеннойгруппыдляпроведениядальнейшегоисследования.Например,вызаметилинеобычныепоказателипозаболеваемостиуопределеннойвозрастнойилигендернойгруппы,следовательно,выделаетедополнительныевыборкиизэтогодемографическогосегментадлядальнейшегоизученияэтойтенденции.
Модуль3:Какпонятьданные 28
Отданныхкрепортажу:Думайкакдата-журналист
Примерыплохойвыборки:ненаучныеопросы
● Веб-опросыилионлайн-опросы:участвуюттолькотелюди,укогоестьдоступкинтернетуикоторыезаходятнавашсайт.
● Опросыпотелевидениюилирадио:вашопросохватываеттолькопредставителейвашейаудитории,которыеужепринадлежаткопреденнойгруппепополитическимипредставлениям,итолькотех,укоторыхестьвремяижеланиеучаствовать.
● Опросынаулице:этослишкоммаленькаявыборка,котораянеможетбытьрепрезентативнойдлянаселения.
● Опросывтвиттере:опятьже,респондентамиявляютсятолькопользователитвиттера,итолькоте,которыеужеподписанынавасиливашеСМИ.
Чтотакоепределпогрешности14
14https://ru.wikipedia.org/wiki/Предел_погрешности
Модуль3:Какпонятьданные 29
Отданныхкрепортажу:Думайкакдата-журналист
Припроведенииопросов,какправило,работаютсвыборкойнаселения.Опроситькаждого—задачаневыполнимая,поэтомуисследователиработаютснебольшимислучайнымивыборками,которые должны быть репрезентативны. Предел погрешности показывает, насколько можнодоверятьрезультатамопроса.
Чембольшелюдейопрошено,темболеешансов,чтоэтавыборкабудетрепрезентативной.Есливопросеуказано,чтопределпогрешности—2,5%,этоозначает:еслипровеститакойопрос100раз,каждыйразопрашиваяразнуювыборкулюдей,тообщийпроцентлюдейответившихтакже,будетвпределах2,5%отпервоначальногорезультатакакминимумв95изэтих100опросов.
Пример:маленькийобъемвыборкииспорыовакцинеиаутизмеПрочтитестатью“Stickingwiththetruth”15
В1998годуЭндрюУэйкфилди12егоколлегопубликовалисериюисследованийвжурналеLancet,вкоторыхутверждалось,чтовакцинаоткори,краснухиипаротита(MMR)можетвызыватьу детей механизм регресса и первазивные нарушения развития. Несмотря на очень маленькуювыборку (n=12), непроверенный дизайн клинического исследования и спекулятивный характерзаключений,этапубликацияполучилаширокуюизвестность,ауровеньпрививаниявакцинойMMRсталснижаться,таккакродителиопасалисьразвитияаутизмапослевакцинации.
Как отмечается в статье, хотя дальнейшиенаучныеисследования полностьюопровергликакую-либосвязьмеждувакцинамииаутизмом,журналистыради«балансамнений»продолжалицитироватьпредставителейобеихсторон.«Неможетнерадовать,чтопочтиполовинарепортажейв США (41%) пытались в различной степени опровергнуть связь между вакциной и аутизмом.Однаковозникаетбольшойвопрос«объективности»восвещениипроблем, гдеоднаиз сторонспора права. В таких случаях «сбалансированное» освещение может быть безответственным,потомучтоонопредполагаетполемикутам,гдееенедолжнобыть».
Даженачальныхпознанийвстатистикедостаточно,чтобыпонять,чтообъемвыборкив12человекслишкоммалдлякаких-либозаключений.Предположенияосвязивакцинысаутизмомосновывалисьнаслучайныхсовпаденияхидругихошибкахвданномисследовании.
Пример:маленькиевыборкивнутрибольшихПрочтитестатью«Подводныекамнииспользованияданныхпоэтническимменьшинствамвбольшихисследованиях»16.
Вэтомслучае,объемвыборкиБританскогоисследованиярынкарабочейсилы(BritishLaborForce Survey) очень большойи составляет 100 000 человек.Однаконаписаннаяна основе этого
15Stickingwiththetruth.ColumbiaJournalismReview,May/June2013,http://www.cjr.org/feature/sticking_with_the_truth.php16Thehiddendangersofethnicminoritydatainbigsurveys.OnlineJournalism,July28,2015,https://onlinejournalismblog.com/2015/07/28/the-hidden-dangers-of-ethnic-minority-data-in-big-surveys/
Модуль3:Какпонятьданные 30
Отданныхкрепортажу:Думайкакдата-журналист
опроса статья «Мигранты „доят“ систему социальной помощи: у иностранцев намного большешансовполучитьвыплаты»17говориттолькоолюдяхизвозрастнойгруппы40-44года,родившихсявПакистанеилиБангладешеипретендующихнапособиенаоплатужилья.
Весьопросв100тысяччеловекохватилтолько27представителейэтойдемографическойподгруппы. Таким образом, хотя выборка всего исследования большая, меньшинства остаютсянедостаточно представленными. Это создает особую трудность для журналистов, которыепытаютсяпривлечьобщественныйинтересктакимгруппамнаселения.Передтемкакиспользоватькрупные ислледования, которые содержат данные о меньшинствах, постарайтесь найти другиеисследования,целевойгруппойкоторыхявляютсянепосредственноэтигруппы.
Пример:какнедатьввестисебявзаблуждениедокладомозанятости
В статье “How Not to Be Misled by the Jobs Report”18 объясняется, что даже при оченьбольшомобъемевыборки,полученныеданныеявляютсяпофактунеточными,ичто закаждойцифройможетстоятьцелыйдиапазонданных,описывающихростзанятости.
Прочтитестатьюиответьтенаследующиевопросы:
● Каковобъемвыборкизакаждыймесяц?
● Сколькорабочихместнасамомделесуществуетвэкономике?
● Чтоозначаютдвижущиесяколонки?
● Почемувсезаголовкипотенциальномогутбытьверными?
17Migrants'milking'benefitssystem:Foreignersmorelikelytoclaimhandouts.Express,July21,2015,http://www.express.co.uk/news/uk/592541/Migrants-milking-benefits-system-Foreigners-more-likely-to-claim-handouts18HowNottoBeMisledbytheJobsReport.TheUpshot,May1,2014,https://www.nytimes.com/2014/05/02/upshot/how-not-to-be-misled-by-the-jobs-report.html?_r=1
Модуль3:Какпонятьданные 31
Отданныхкрепортажу:Думайкакдата-журналист
Упражнение:пределпогрешности
Передвамизаголовок:«Общенациональныйопрос:кандидатАопередилкандидатаВещенадвапунктававгустеидостиг56%голосов»
Пределпогрешностисоставляет2,5%.
Наосновеэтогозаголовкаипределапогрешности,ответьтенаследующиевопросы:
● КакаяприблизительнодолянаселенияпланируетголосоватьзакандидатаАвавгусте?
● КакаяприблизительнодолянаселенияпланировалаголосоватьзакандидатаАвиюле?
● Пересекаютсялиэтипоказатели?
● Чтоозначаетэтопересечение?
● Какойзаголовокбылбыболееточным?
Модуль3:Какпонятьданные 32
Отданныхкрепортажу:Думайкакдата-журналист
Оценкадостоверностиданных(1/3)
Вспышкиинфекционныхзаболеванийпоштатам(2014)
Вэтомпримере,мыбудемоценивать,насколькодостоверныданные,представленныев
видевизуализации.
В2014годуправительствоИндиираспространилоинформациюовспышкахэпидемическихзаболеваний в различных штатах страны. Эти данные касались таких заболеваний как диарея,холераималярия.
Вотграфиканаосновеэтихданных19.Давайтедляначалапопытаемсяразобратьсявней.
Вопросы:● Вкакомштатебылосамоебольшоеколичествовспышекзаболеваний?● Вкакомштатесамаявысокаядоля20вспышекзаболеваний?● Вкакомштатевспышекзаболеванийменьшевсего,анаселение—большевсего?● Вчемразницамеждуколичествомвспышекзаболеваний,количествомслучаев
заболеванийиколичествомсмертейотзаболевания?
19LiesandStatistics:HowIndia’sMost-PopulousStateFudgesCrimeData.IndiaSpend,March132015,http://www.indiaspend.com/cover-story/lies-and-statistics-how-indias-most-populous-state-fudges-crime-data-1109120Доляпредставляетсобойколичествовспышекзаболеваний,разделенныхнаколичествонаселения
Модуль3:Какпонятьданные 33
Отданныхкрепортажу:Думайкакдата-журналист
Оценкадостоверностиданных(2/3) Младенческаясмертность,предполагаемаяпродолжительностьжизниприрождениии
материнскаясмертность(2010-2012)
Изучив первую инфографику, мы можем сказать: «Штат Уттар-Прадеш стоит на первом
местепоколичествунаселения,новтожевремятамменьшевсеговспышекзаболеваний».
Чтобы дать оценку этому утверждению, давайте посмотрим на другую визуализациюпоказателейсостоянияздоровьянаселениявИндии.
Вопросы:
● Вкакомштатесамыйвысокийуровеньдетскойсмертности?● Вкакомштатесамыевысокиепоказателипредполагаемойпродолжительности
жизни?Авкакомсамыенизкие?● Вкакомштатесамыйвысокийуровеньматеринскойсмертности?● Меняютлиэтиданныенашедовериекданнымовспышкахзаболеванийвштате
Уттар-Прадеш?
Модуль3:Какпонятьданные 34
Отданныхкрепортажу:Думайкакдата-журналист
Оценкадостоверностиданных(3/3)
Зарегистрированныеслучаиубийствиизнасилований(2013)
Давайте теперь сравним данные о преступности в некоторых штатах Северной Индии.
Обратите внимание, что штат, вызвавший наше пристальное внимание в двух предыдущихвизуализациях–Уттар-Прадеш—такжеприсутствуетвэтойграфике.
Вопросы:
● Вкакомштатерегистрируетсябольшеубийств,чемизнасилований?● Чтосложнеескрытьилинезарегистрировать—убийствоилиизнасилование?● ВспомнитенашивыводыоштатеУттар-Прадешизпредыдущихвизуализаций.Верители
вы,что,согласноэтойинфографике,женщинывУттар-ПрадешнаходятсявбольшейбезопасностипосравнениюсдругимиштатамиСевернойИндии?
● Наосновеэтойинформации,вданнымкакогоштатанамстоитсомневаться?
Модуль3:Какпонятьданные 35
Отданныхкрепортажу:Думайкакдата-журналист
Упражнение:оценкадостоверностиданных
Статистикатранспортныхаварийвкрупныхгородах(2013)
На основе пройденного материала, давайте оценим следующую инфографику. Здесь
сравниваютсяданныеобаварияхвкрупнейшихгородахИндии.Ответьтенаследующиевопросы,чтобыоценитьдостоверностьприведенныхданных.
Вопросы:
● Вкакомгородерегистрируетсябольшевсегоаварий?● ВМумбаеиДелипроживаетпримерносхожееколичествонаселения,13и11миллионов
соответственно.ВДелинамногобольшетранспортныхсредств,однаковМумбаерегистрируетсявтриразабольшеаварий.Означаетлиэто,чтоводителивМумбаевтриразаменееосторожны?
● ВМумбаенакаждые50аварийприходитсяодинсмертельныйслучай,втовремякаквДелиодинсмертельныйслучайприходитсянакаждые4аварии.Означаетлиэто,чтоавариивДелисамипосебеболееопасны?
● Какиепоказателилегчезанизить:аварииилисмертельныеслучаивавариях?
Модуль3:Какпонятьданные 36
Отданныхкрепортажу:Думайкакдата-журналист
Урок5:Оценкаинтерпретацииданных
● Подменаиндикатораприответенавопрос
● Корреляциянеозначаетпричинно-следственнойсвязи
● Сравнение
несравнимого
● Экстраполяцияиобобщенияизслишкоммаленькогонабораданных
● Вывод
закономерностиизсовпадения
● Совокупностьотдельныхслучаевнеявляетсянаборомданных
Данные — восхитительный ресурс для создания материалов, способных влиять нагосударственную политику. Однако важно понимать, какие ограничения есть у набора данных,какиевыводыможноделатьнаегооснове,ираспознаватьутверждения,которыенеподкрепленыимеющимися данными. Вся дата-журналистика основывается на интерпретации, даже в самыхнедвусмысленныхзаголовках:
● «Уровеньпреступностипадает»● «Человечествоявляетсяпричинойизмененияклимата»● «Встранахсбольшимколичествоморужияунаселенияпроисходитбольшесмертейот
огнестрельногооружия»
Вэтомуроке,мынаучимсяоцениватьутвержденияиздата-репортажейнадостоверность.Ошибки можно разделить на несколько основных категорий, на которые мы будем обращатьвниманиеприоценкеанализаданных.
Модуль3:Какпонятьданные 37
Отданныхкрепортажу:Думайкакдата-журналист
Подменаиндикатора
Часто то, чтомыхотимизмеритьи то, чтомыможемизмерить—эторазныевещи.Этоприводит к выбору косвенного показателя. Он заменяет то, чтомы хотим измерить. Например,частовновостныхстатьяхтакиепоказатели,как«валовыйвнутреннийпродуктнадушунаселения»илиобщийуровеньдоходовстраны,используютсядляоценкиуровняжизнивэтойстране.Тоестьвместотого,чтобыизмерятькачествожизникаждойсемьипоключевымфакторамкачестважизни,оцениваетсякачествожизнипостраневцелом.
Вотещеодинпример21—обиспользованиипротивомоскитныхсетокдляборьбысмалярией.
Вопросы:● Являетсяликоличествосетокнаодногочеловекапоказателемтого,сколькочеловекспят
подмоскитнымисетками?● Чтонужноизмерить,чтобыпонять,укакойчастинаселенияестьмоскитныесетки?
21Preventingthebite.Internews,http://www.internewskenya.org/dataportal/assets/img/data_visualisations/Preventingthebite.pngLiberia:GovtWarnsAgainstMisuseofMosquitoNets.AllAfrica,June32015,http://allafrica.com/stories/201506031681.html
Модуль3:Какпонятьданные 38
Отданныхкрепортажу:Думайкакдата-журналист
Сравнениенесравнимого(1/2)
Частомынеможемполучитьнарукивседанные,нужныедлярепортажа—повсемгодам,
повсемрегионам,иливовсехдеталях.Приходитсярешать,сколькодостовернойинформациимыможемизвлечьизограниченногонабораданных.Давайтепредставим,чтомыполучилиданныеозарплатах учителей по всей стране. Интересно, конечно, сразу посмотреть, в каких регионахучителям платят меньше всего, однако надо принимать во внимание и другие факторы:прожиточныйминимум где-томожетбытьниже, требуемыйуровеньобразованиядляучителейможетотличатьсяпорегионам,поощрительнаяоплатаможетстимулироватьучителейпереезжатьвопределенныерегионырадиболеевысокихзарплат,аможет,действуетсистемаротации.
Представим такую ситуацию: у вас есть две карты, по которым надо понять, насколькоуспешноСуданборетсясВИЧиСПИДпосравнениюсдругимиафриканскимистранамивтечениепоследних10лет.
Модуль3:Какпонятьданные 39
Отданныхкрепортажу:Думайкакдата-журналист
● Накартекарте122даютсяпоказателизаболеваемостиВИЧза2008год,нотолькозаодингод
● Накарте223,данныеболееустаревшие,нозатомывидимпоказателизаболеваемостьюВИЧпотремгодам:1990,2001и2007.
Вопросы:● Вчемпреимуществопервойкарты?● Наосновепервойкарты,скакимистранаминамследуетсравниватьСудан?● Вкакихстранах15летназадбылиблизкиепоказателизаболеваемостиВИЧ?
22Wikipedia,2008,https://commons.wikimedia.org/wiki/File:Map-of-HIV-Prevalance-in-Africa.png23Africa&HIV.WorldBank,http://siteresources.worldbank.org/INTPROSPECTS/Images/334933-1271876733261/6992744-1328626949160/8422535-1328627766358/Africa_&_HIV.pdf
Модуль3:Какпонятьданные 40
Отданныхкрепортажу:Думайкакдата-журналист
Сравнениенесравнимого(2/2)
Теперь давайте рассмотрим другой пример – перед вами визуализация минимальной
заработнойплатывпост-советскихстранах24.
Вопросы:
● Показательнолисравнениепотакомупоказателю,какМРОТ?● Одинаковылиежемесячныерасходыгражданвэтихстранах?● Какиедругиепоказателиможнодобавить,чтобысравнениебылоболееуместным?● Скакимистранамиимеетсмыслсравниватьвашустрану?
24Радио Свобода.MinimumWageinPost-SovietCountries,http://www.rferl.org/a/28121003.html
Модуль3:Какпонятьданные 41
Отданныхкрепортажу:Думайкакдата-журналист
Выводзакономерностиизсовпадения(1/2)
Иногда наборы данных практически совпадают, отражая несуществующую тенденцию.
Например,существуетблизкоесходствомеждупоказателямивступлениявбраквштатеВермонтвАмерикеипоказателямипроизводствамеда25.Однако,скореевсего,этидвепеременныхникакнесвязанымеждусобой.
НайдитенасайтеSpuriousCorrelationsещеодностранноесовпадениеданных26.
Есливыподходитекданнымнепредвзято,вырискуетеобнаружитьсвязи,которыхнасамомделе нет. Если что-то кажется слишком очевидным, постарайтесь найти другой набор данных,которыйподтвердитилиопровергнетвашунаходку.
25http://www.tylervigen.com/page?page=126SpuriousCorrelations,http://tylervigen.com/discover
Модуль3:Какпонятьданные 42
Отданныхкрепортажу:Думайкакдата-журналист
Выводзакономерностиизсовпадения(2/2)
Вот еще один пример: количество нобелевских наград, полученных какой-либо страной(нормализованныхпонаселению)коррелируетсспотреблениемшоколаданадушунаселения.
Вопросы:
● Какоевзаимоотношениявозможнымеждуэтимидвумяпеременными?● Наскольковероятно,чтоэтидвепеременныевообщевзаимосвязаны?
Модуль3:Какпонятьданные 43
Отданныхкрепортажу:Думайкакдата-журналист
Корреляциянеозначаетпричинно-следственнойсвязи(1/3)
Наизображении:какпроисходиткорреляция:XвызываетY,YвызываетX,ZвызываетXиY,
скрытаяпеременнаявызываетXиY,случайноесовпадение
Корреляция—этостатистическаявзаимосвязьдвухилиболеевеличин.Инымисловами,корреляция — это когда значения одной величины сопутствуют систематическому изменениюзначенийдругойвеличины.
Сложностьскорреляциейсостоитвтом,чтобываетсложнопонять,какаявеличинавлияетнадругую,иестьливообщемеждунимивзаимосвязь27.
Когда будете работать над дата-репортажем, не спешите писать о взаимосвязи междудвумяпеременными—ееоченьсложнодоказать.
27Howcorrelationhappens,Source,https://source.opennews.org/media/img/uploads/article_images/correlation_1.png
Модуль3:Какпонятьданные 44
Отданныхкрепортажу:Думайкакдата-журналист
Корреляциянеозначаетпричинно-следственнойсвязи(2/3)
Давайтерассмотримэтонапримерестатьи“Thecorrelationbetweentestscoresandhomeprices”28.
На первый взгляд между ценами на жилье и результатамишкольных тестов существуеткорреляция.Нодействительнолиоднавеличинавлияетнадругую?
● Повышениеценнажильевмикрорайонемоглопривестиктому,чтотудапереехалибогатые,образованныелюдисдетьми,исоответственно,школьныеоценкивмикрорайонеповысились.
● Возможно,школысхорошимипоказателямипривлекаютболееобеспеченныесемьипереехатьвэтотмикрорайон,дажееслипроживаниетамстоитбольше.
● Можетиметьместоидругаяскрытаяпеременная.Например,большоеколичествозеленойтерриторииможетпривлекатьхорошихучителейиспособствоватьростуценнажилье.
● Возможно,естьфактор,окотороммынезнаем,либовсеэтотолькосовпадение.
28Thecorrelationbetweentestscoresandhomeprices.TheWashingtonPost,July22,2015,https://www.washingtonpost.com/blogs/all-opinions-are-local/wp/2015/07/22/the-correlation-between-test-scores-and-home-prices/
Модуль3:Какпонятьданные 45
Отданныхкрепортажу:Думайкакдата-журналист
Корреляциянеозначаетпричинно-следственнойсвязи(3/3)
Упражнение:изучитеэтитриграфика.
Они показывают, как членство в профсоюзе коррелирует с тремя различнымипеременными – доходом (график A29), долей рабочего класса (график B30) и долей креативногокласса(графикC31)—вразличныхштатахСША.
Вопросы:● Какаявозможнаявзаимосвязьсуществуетмеждуразвитиемпрофсоюзногодвиженияи
болеевысокимдоходом?● Какиевозможныевзаимосвязисуществуютмеждурабочимклассомиобъединениемв
профсоюзы?● Амеждуобъединениемвпрофсоюзыикреативнымклассом?● Какбывыопределили,чтоначтовлияет?
29http://www.creativeclass.com/creative_class/_wordpress/wp-content/uploads/2011/03/union4.png30http://www.creativeclass.com/creative_class/_wordpress/wp-content/uploads/2011/03/union5.jpg31http://www.creativeclass.com/creative_class/_wordpress/wp-content/uploads/2011/03/union6.jpg
Модуль3:Какпонятьданные 46
Отданныхкрепортажу:Думайкакдата-журналист
Экстраполяцияиобобщенияизслишкоммаленькогонабораданных
Шуточныйпример
Настоящийпример
Чембольшеобъемвыборки,чембольшеданныхсобрано,чембольшийпериодвременионипокрывают,тембольшешанс,чтовысможетесделатьверныевыводы.
В этом шуточном примере32 у героя есть только один элемент данных: за один день уженщиныпоявилсяодинмуж.Поэтомуонэкстраполирует,чтонавторойденьунеебудетдвамужа,натретийдень—три,итакдалее.Этосмешнойпример,ноивреальнойжизнилюдичастоделаютвыводынаосновеслишкоммаленькогообъемаданных.
Давайте рассмотрим реальный пример из жизни, где человек на собственном примере«доказал»,чтоводителиавтомобилейпроезжаютближеквелосипедистам,еслитевшлемах.Вэтом примере, британский исследователь собрал данные о том, насколько близко к немупроезжали автомобили в зависимости от того, был ли на немшлем или нет33. Он проехал 320километровиувидел,чтокогдананембылшлем,автомобилипроезжалина8,5смближе.
Вэтомисследованииестьнесколькопроблем.Во-первых,внемнедостаточноданных.Надобылобысобратьданныесомногихлюдей,изразличныхдемографическихгрупп,которыеездятвразноевремясутокивразличныхместах,чтобывыявитькакие-либотенденцииотносительнотого,
32Explainxkcd,http://www.explainxkcd.com/wiki/index.php/File:extrapolating.png33StopForcingPeopletoWearBikeHelmets.VOX,16May2014,http://www.vox.com/2014/5/16/5720762/stop-forcing-people-to-wear-bike-helmets
Модуль3:Какпонятьданные 47
Отданныхкрепортажу:Думайкакдата-журналист
какавтомобиливедутсебяпоотношениюквелосипедистам.Чтоеще,по-вашему,нужноучестьприсбореданных,чтобысделатьдостоверныевыводы?
Давайтепосмотримнадругойпример,касающийсяпреступностивСоединенныхШтатах34.
• Где,согласнозаголовку,происходитвсплескпреступности?• Вкакихгородахизстатьиимелместовсплескпреступности?• Сравниваютсяливстатьепоказателипреступностизанескольколет?• Какиеданныевыбыиспользовали,чтобыустановить,имеллиместовсплескпреступности
национальногомасштаба?
34NationwideCrimeSpikeHasLawEnforcementRetoolingItsApproach.NPR,July1,2015,http://www.npr.org/2015/07/01/418555852/nationwide-crime-spike-has-law-enforcement-retooling-their-approach
Модуль3:Какпонятьданные 48
Отданныхкрепортажу:Думайкакдата-журналист
Совокупностьотдельныхслучаевнеявляетсянаборомданных
Иногда, при отсутствии официальных данных, журналисты и негосударственные
организации пытаются собрать воедино данные из неофициальных источников. Например,журналистысобираютсообщениявСМИомигрантах,пропавшихприпересеченииСредиземногоморя, чтобы попытаться оценить общее количество пропавших мигрантов. Однако иногда этотподход не срабатывает из-за таких ошибок, как двойной счет или отсутствие сообщений поопределенномурегионуилидемографическойгруппе.
Давайте рассмотрим конкретный пример. После похищения девочек-школьницрадикальной организацией «Боко Харам» в обществе началась кампания «Верните нашихдевочек». При этом СМИ часто использовали данные одной НПО, которая собирала цифры изрепортажейопохищениях.
Прочтитестатью“GDELTandtheProblemofDecontextualizedData.HowFiveThirtyEightGot theNigerianKidnappingsAnalysisWrong”35,иответьтенаследующиевопросы:
• Чтопыталсяпоказатьавтор,приводяагрегированныеданныеопохищенияхвНигерии?• Почемуиспользованныеданныенеотображаютреальногоколичествапохищений?• Гдеещеавтормогбыполучитьэтиданные?• Почемуважнопоказать,какменялоськоличествопохищенийстечениемвремени?
35GDELTandtheProblemofDecontextualizedData.HowFiveThirtyEightGottheNigerianKidnappingsAnalysisWrong.Source,May14,2014,https://source.opennews.org/en-US/articles/gdelt-decontextualized-data/
Модуль3:Какпонятьданные 49
Отданныхкрепортажу:Думайкакдата-журналист
Урок6:Персональныеданные
Наизображении:моиданные–открытыеправительственныеданны–открытыеданные
Несмотрянаактивноедвижениеоткрытыхданных,конфиденциальностьигосударственнаяслежка — основные причины для беспокойства, когда правительства и компании публикуютданные в открытом доступе. Иногда при помощи алгоритмов можно обратить процессанонимизации данных. В других случаях, публикация данных может иметь неожиданныепоследствия.
Открытыеданные
«Открытыеданныемогутбытьсвободноиспользованы,измененыираспространеныкемугодноислюбойцелью»
Моиданные
Ктовладеетинформациейобомне,ктоконтролируетее,иктоимееткнейдоступ?Могулия получить копию данных о себе в такомформате, чтобы использовать или распространять этиданные,могулияизвлечьизэтихданныхпользудлясебя?Еслиязахочуоткрытоопубликоватьнекоторыеданныеосебе,могулиявпринципеэтосделать?
Модуль3:Какпонятьданные 50
Отданныхкрепортажу:Думайкакдата-журналист
Пересечениеоткрытыхданныхимоихданных
Мои данные становятся открытыми данными (путем трансформации)36: важные наборы
данных, которые являются (или могли бы быть) открытыми, создаются из «моих данных»посредствомагрегирования,анонимизацииит.д.Значительнаячастьстатистическойинформации— это опросы отдельных людей, где конечные результаты агрегированы (например, данныепереписи).
Моиданныестановятсяоткрытымиданными(помоемусобственномужеланию):бывает,чтолюди,хотятподелитьсясвоимиличнымиданнымирадиблагадругих.Пациент,страдающийонкологическимзаболеванием,можетподелитьсяисториейболезни,еслиэтопоможетвпоискеметодовлеченияемуилидругимлюдямсэтимжедиагнозом.
Право выбора: если это мои данные, я должен иметь право на доступ, использование,распространениеираскрытиеэтоинформации.Еслиоткрытыеданныеоткрытыдлявсех,томоиперсональныеданныедолжныбытьоткрытыдляменя.
Такимобразом,персональныеданные—важныйисточник,однаковажно,чтобыактивистыоткрытых данных осознавали риски, когда анонимизация и агрегирование данных не даетдостаточной конфиденциальности. Еще более важно, чтобы «открытое правительство»определило,какприниматьрешенияоперсональныхданныхикакиересурсыпонадобятсятем,ктобудет публиковать эти данные. Важно четко понимать, где проходит черта междунеприкосновенностью частной жизни и использованием открытых данных для общественногоблага.37
36LauraJames,OpenData&MyData.OpenKnowledgeInternationalBlog,February22,2013,http://blog.okfn.org/2013/02/22/open-data-my-data/#sthash.zo14wGXL.dpuf37ChristopherWilson,WhatDoesPrivacyHavetoDowithOpenGovernment?TechPresident,April42014,http://techpresident.com/news/wegov/24895/what-does-privacy-have-do-open-government
Модуль3:Какпонятьданные 51
Отданныхкрепортажу:Думайкакдата-журналист
Пример:Персональныеданные
Поданнымбританскойполиции,какминимум850человекизВеликобританииездиливСириюиИрак,чтобыподдержатьджихадистскиеорганизациииливоеватьнаихстороне.ОколополовиныпозднеевернулисьВеликобританию.Предполагается,чтобольшинствоизпобывавшихвзонеконфликтавступиливтакназываемое«Исламскоегосударство»–запрещеннуювРоссиитеррористическуюорганизацию.
ЭтабазаданныхBBCNews38подробноописываетисторииболее200человек,которыепогибли,былиосужденызапреступления,связанныессирийскимконфликтом,иливсеещенаходятсявэтомрегионе.ИнформациябыласобранаизоткрытыхисточниковисобственныхрасследованийжурналистовBBC.
Вопросы:
• Вчемсостоитновостнаяценностьпубликацииперсональныхданных?• Какиепреимуществаприобрелэтотматериалблагодаряналичиювнемперсональных
данных?
38WhoareBritain’sjihadists?BBCNews,10October2016,http://www.bbc.com/news/uk-32026985
Модуль3:Какпонятьданные 52
Отданныхкрепортажу:Думайкакдата-журналист
• Чтопотерялбыэтотматериал,еслибыизнегоудалилиперсональныеданные?• Какоевлияниенаупомянутыхвматериалелюдейможетоказатьраспространениеих
персональныхданных?
Передвами—ещеодинпримерматериала,использующегоперсональныеданные.
БеларусскоеизданиеTUT.BYвыпустилорепортажоминскомполумарафоне,используяданныеучастников39.Несомненно,данныедаютинтереснуюкартину.Однакохочетликаждыйизучастниковмарафонабытьнавсеобщемобозрениипослетого,какпересекфинишнуючерту?
39Кто,откудаизасколькопробежал?ВсеоМинскомполумарафоне—воднойинфографике.TUT.BY,13сентября2016года,http://news.tut.by/society/511827.html
Модуль3:Какпонятьданные 53
Отданныхкрепортажу:Думайкакдата-журналист
Упражнение:Конфиденциальностьданных Назовитекакминимумодинаргументзаиодинаргументпротивобнародованияперсональныхданныхвследующихситуациях:
• Данныеопреступностиврайоне;• Списоклюдей,инфицированныхвирусомЭболасуказаниемулиц,накоторыхониживут;• Списоксемей,получающихфинансовуюпомощьотгосударства;• Больницыитюрьмыссамымвысокимкоэффициентомсмертности.
Модуль3:Какпонятьданные 54
Отданныхкрепортажу:Думайкакдата-журналист
ОтказвпредоставленииданныхпопричинамконфиденциальностиКакизбежатьотказавпредоставленииданных:
• Конкретизируйтесвойзапросданных• ЗапрашивайтеданныевфайлахCSVилиExcel• Попросите,чтобывампоказалидокументацию,устанавливающуюоплатузадоступк
информации• Будьтенастойчивы• Непроситепредоставитьвамличныеданные,аеслиониесть,топустьихисключат
Чтобы избежать отговорок, максимально конкретизируйте свой запрос, включая географию,
временной период и организацию, у которой вы запрашиваете данные. Также запрашивайтеданные в файлах CSV или Excel, которые могут быть отправлены вам электронной почтой илископированы на флешку. Если с вас хотят взять за это деньги, попросите, чтобы вам показалидокументы,устанавливающиеоплатузадоступкинформации.Будьтенастойчивымивзапросах,звонитеиприходитедотехпор,покаорганизациинестанетпрощеудовлетворитьвашзапрос,чемпродолжатьиметьсвамидело.Непроситепредоставитьвамличныеданные,включаятелефонныеномера,адресаилиномерапаспортовдругихлюдей.Есливамнедаютданныенаоснованиитого,чтотамсодержитсяперсональнаяинформация,попроситеанонимизироватьданные.
Вопросы
• Какиеданныесчитаютсяввашейстранеконфиденциальнымиикакиеестьаргументызаипротивихобнародования?
• Комувыгодно,чтобыэтиданныеоставалиськонфиденциальными,акомувыгодно,чтобыонибылиобнародованы?