Лисица А.В. Обработка данных об использовании научных...
TRANSCRIPT
![Page 1: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/1.jpg)
БиоКнол
![Page 2: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/2.jpg)
БиоКнол
![Page 3: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/3.jpg)
БиоКнол
![Page 4: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/4.jpg)
статистика09 сентября 2011 –
14 октября 2013
![Page 5: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/5.jpg)
обращений ~ 500 тыс.
0
50000
100000
150000
200000
250000
300000
350000
400000
450000
500000
весь мир
Россия
количество обращений
за месяц
за все время Россия ~ 200 тыс.всего ~ 550 тыс.
![Page 6: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/6.jpg)
где люди читают?
45%
13%
5%2%2%
2%
2%
1%
1%
1%
26%
Москва
Сакт-Петербург
Новосибирск
Томск
Екатиренбург
Нижний Новгород
Казань
Саратов
Пермь
Черноголовка
Другие города
![Page 7: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/7.jpg)
когда люди читают?
0
20000
40000
60000
80000
100000
120000
140000
00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23
пользователи количество статей
* указано московское время без корректировки часового пояса; только российские пользователи
![Page 8: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/8.jpg)
популярные издательства
21%
10%
10%
9%8%6%3%
3%2%
2%2%2%
22%
Science Direct
Springer
Wiley
IEEE
ACS
JSTOR
Nature
APS
RSC
AIP
Taylor & Francis
SIAM
Другие
![Page 9: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/9.jpg)
анализ массива
извлечение идентификаторов DOI для каждого
запроса
в настоящий момент выполняется «на лету»
до попадания запроса в массив
извлечение идентификаторов
PubMed для каждого DOI
в настоящее время работает для
небольшого процента DOI, но это поправимо
извлечение тематики(MESH-терминов) для
каждого PubMed ID
массив данных
![Page 10: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/10.jpg)
анализ массива
есть DOI90,2%
DOIPubMed
23,3%
всего записей
2 061 270
записей с DOI
1 859 880
записей с DOI иPubMed ID
480 493
![Page 11: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/11.jpg)
популярные тематики
частота встречаемости терминов в базе Pubmed (для скачанных статей)
0
20000
40000
60000
80000
100000
120000
140000
![Page 12: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/12.jpg)
популярные статьи
* популярность статей в данном массиве отследить сложно, так как повторные обращения в основном не учитывались
зеленым выделено количество обращений, белым – количество статейтак, например, 29 раз читали всего одну статью(учитывались только обращения в разные дни)
* статьи идентифицированы по DOI
1 2 3 4 5 6 7 8 9 10 11
1244415 69740 9970 2592 893 312 152 84 52 21 23
12 13 14 15 16 17 18 23 25 28 29
12 12 5 4 3 1 3 1 1 1 1
![Page 13: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/13.jpg)
популярные статьи - PubMed
количество повторных обращенийпо оси X – количество обращений статьи (N),
по Y – количество статей, читаемых N раз (логарифм)просмотров | статей
1 288753
2 44486
3 11492
4 3924
5 1701
6 826
7 416
8 244
9 153
10 113
11 69
12 55
13 35
14 25
15 20
16 14
17 10
18 5
19 5
20 1
21 4
23 2
24 3
27 1
29 1
31 1
44 1
46 1
0
1
2
3
4
5
6
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 23 24 27 29 31 44 46
![Page 14: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/14.jpg)
рейтинг статей - общий
10.1016/j.cell.2012.05.044 2012 г.A whole-cell computational model predicts phenotype from genotypeцитирований 214 просмотрена 29 раз
10.1006/meth.2001.1262 2001 г.Analysis of Relative Gene Expression Data Using Real-Time Quantitative PCR and the 2− ΔΔCT Methodцитирований 36737 просмотрена 25 раз
10.1016/0003-2697(87)90021-2 1987 г.Single-step method of RNA isolation by acid guanidinium thiocyanate-phenol-chloroform extractionцитирований 63734 просмотрена 25 раз
1
2
3
! возможно ли предсказать количество будущих цитирований?
![Page 15: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/15.jpg)
рейтинг статей - PubMed
PMID 19997069 [10.1038/nrg2626] 2010 г.Sequencing technologies — the next generationцитирований 2458 просмотрена 46 раз
PMID 22522955 [10.1038/nbt.2198] 2012 г.Performance comparison of benchtop high-throughput sequencing platformsцитирований 270 просмотрена 44 раза
PMID 22817898 [10.1016/j.cell.2012.05.044] 2012 г.A Whole-Cell Computational Model Predicts Phenotype from Genotypeцитирований 221 просмотрена 31 раз
PMID 22986420 [10.1038/nbt.2198] 2013 г.Effect of high-dose preoperative methylprednisolone on recovery after total hip arthroplasty: a randomized, double-blind, placebo-controlled trialцитирований 6 просмотрена 29 раз
1
2
3
4
![Page 16: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/16.jpg)
формат данных
‘/;’
файл формата CSV ~ 2 млн. строк содержит данные:
время, город, сайт, ссылка, сессия, DOI размер файла 319 мб.
пакетроссийские данные
бонусы: база crossref база pubmed обновления
![Page 17: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/17.jpg)
направления работы
добиться 100% определения
PubMed ID
поиск интересных статистических
закономерностей в массиве
в том числе для целей бизнеса и коммерции
там, где это возможно
фиксирование всех обращений к статьям
в том числе повторных
идентификация пользователей
для определения цепочек
![Page 18: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/18.jpg)
Анализ данных
‘/;’
схема кодирования:
обращение к статьеинтервал м/у обращениями
количество точек =
логарифм ( длина интервала в секундах--------------------------------------------------------длина минимального интервала в серии )
![Page 19: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/19.jpg)
‘/;’
Анализ данных
пример обращений к статьям
14:28:50 10.1016/j.foodchem.2013.11.00814:28:51 10.1016/j.aca.2014.02.03814:28:52 10.1016/j.chroma.2013.07.08414:28:53 10.1016/j.jchromb.2012.12.03214:28:55 10.1016/j.foodcont.2009.09.00614:28:56 10.1016/j.chroma.2007.12.033
21:46:22 10.1016/j.aca.2014.02.03821:46:23 10.1016/j.foodchem.2013.11.00821:46:23 10.1016/j.chroma.2013.07.08421:46:24 10.1016/j.jchromb.2012.12.03221:46:26 10.1016/j.foodcont.2009.09.00621:46:30 10.1016/j.chroma.2007.12.03321:46:35 10.1016/j.aca.2006.09.02521:46:35 10.1016/S0378-4347(97)00644-021:46:36 10.1016/S0731-7085(98)00268-421:46:37 10.1039/AN995200176321:46:48 10.1016/S0003-2670(00)80731-X
![Page 20: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/20.jpg)
Анализ данных
‘/;’
~ 15 000 строк
период взаимодействия
– не менее 45 дней
не менее 10
обращений
фильтрация
наличие не менее N
обращений подряд
![Page 21: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/21.jpg)
Анализ данных
0
50
100
150
200
250
300
350
400
1 4 7
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
10
0
10
3
10
6
10
9
11
2
11
5
11
8
12
1
12
4
зависимость медианы от N
![Page 22: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/22.jpg)
Анализ данных
![Page 23: Лисица А.В. Обработка данных об использовании научных публикаций в области биологии и медицины](https://reader030.vdocuments.site/reader030/viewer/2022032616/55a763741a28ab3a058b4681/html5/thumbnails/23.jpg)
Анализ данных