Хакатон по открытым данным: анализ паспортов ВАК и...
TRANSCRIPT
![Page 1: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/1.jpg)
Хакатон исследование использования ОД
в науке на примере
Анализ паспортов специальностей ВАКа и объектов
защиты в диссертациях
Сергей Салтыковк.т.н., с.н.с. ИПУ РАН и ИПРАН РАН,
экс-доцент НИУ ВШЭ
![Page 2: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/2.jpg)
Цели исследования по ОД • Проанализировать, насколько
немашиночитаемые текстовые индексируемые ОД по науке полезны и интерпретируемы
• Продемонстрировать, что полезным переходным шагом к машиночитаемым ОД от плохоиндексируемых (.doc, .pdf) являются индексируемые (.html) ОД.
• Показать, что в структуре гражданского общества, работающего с ОД, минимум два этажа: владеющие программированием и использующие поисковики.
![Page 3: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/3.jpg)
Для кого результаты исследования
• РАН• МинОбр• ФАНО• Гражданское общество
![Page 4: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/4.jpg)
Конечный продукт исследования
• Выложенные индексируемые ОД по науке для использования гражданским обществом
• Единая открытая информационная система с распределенным хранилищем, создаваемая РАН, МинОбром, ФАНО.
![Page 5: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/5.jpg)
Типология открытых данных • Открытые данные с .doc и .pdf• Открытые данные, хорошо
индексируемые поисковиками («Гуглочитаемые» данные)
• Машиночитаемые открытые данные
![Page 6: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/6.jpg)
Участие общества в работе с ОД
• Работа с машиночитаемыми ОД ИТ-специалистами
• Работа с ОД, индексируемыми поисковиками, без участия ИТ-специалистов
![Page 7: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/7.jpg)
Преимущества «гуглочитаемого подхода» к Открытым данным
• Не нужны навыки программирования – сможет любой член гражданского общества
• Решает часть проблем компьютерной лингвистики – формы слова, разные части речи, близость ключевых слов друг к другу и, соответственно, ранжирование по этим признакам.
• Соответственно, такой гибкий подход годится и для случаев, когда ключевое слово одна на сотни тысяч страниц, и когда у нас десятки тысяч различных вхождений.
• Позволяет с минимальными затратами создать прототип ИС управления наукой.
![Page 8: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/8.jpg)
Как ловить псевдонауку в паспортах ВАКа. В стыковке с Википедией
ru.wikipedia.org/wiki/псевдонаука
Inurl:teacode.ru/online/vak
![Page 9: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/9.jpg)
Как ловить псевдонауку в паспортах ВАКа. В стыковке с Википедией
![Page 10: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/10.jpg)
Как ловить псевдонауку в паспортах ВАКа
![Page 11: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/11.jpg)
Как ловить псевдонауку в паспортах ВАКа.
![Page 12: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/12.jpg)
Как ловить псевдонауку в диссертациях
![Page 13: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/13.jpg)
Что такое синергетика?
![Page 14: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/14.jpg)
Что такое кибернетика?
![Page 15: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/15.jpg)
Дальнейшие горизонты развития ИС
• Если есть «лаборатория синергетики» и/или «лаборатория кибернетики» – это сигнальчик.
• Если в целом институте слишком много «лабораторий синергетики» – это сигнальчик.
• Если НЕ проводятся конференции по синергетике / кибернетике / исследованию операций и т.д. – это тоже сигнальчик. Значит «взаимоопыления» будет мало.
![Page 16: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков](https://reader035.vdocuments.site/reader035/viewer/2022070602/5873b4a01a28aba3548b85b9/html5/thumbnails/16.jpg)
Выводы• Экспликация видов ОД полезна.• «Гуглочитаемые» данные – это важно. Надо
продумать, какие данные выкладывать текстом, что использовать большие возможности поисковиков. Чтобы информационные системы не дублировали уже имеющийся функционал поисковиков.
• Надо по широковещательным каналам рассказывать о том, как важно обществу без навыков программирования даже наблюдать за ОД и делать выводы.
• Нужна ИС анализа индексируемых ОД по науке, не дублирующая функции поисковиков