Transcript
Page 1: Yandex Academic programs 2010

Академические инициативыАкадемические инициативы Яндексад

Павел БраславскийПавел Браславский

CSEdays, 12 ноября 2010 года

Page 2: Yandex Academic programs 2010

Академические инициативыАкадемические инициативы

• Школа Анализа Данных

• Семинары ЯндексаСеминары Яндекса

• Интернет‐математика

• РОМИП

• Школа по информационному поискеШкола по информационному поиске (RuSSIR)

• Книга «Введение в информационный поиск»

2Павел Браславский ‐ Анализ запросов

Page 3: Yandex Academic programs 2010

Yandex School of Data Analysis

two‐year master program, http://shad.yandex.ru3Павел Браславский ‐ Анализ запросов

Page 4: Yandex Academic programs 2010

Teachers

4Павел Браславский ‐ Анализ запросов

Page 5: Yandex Academic programs 2010

Scientific seminarsScientific seminarsMonthly seminars on Data analysis &Monthly seminars on Data analysis & information retrieval

Organized by Microsoft Research +Microsoft Research + Яндекс

5

http://company.yandex.ru/public/seminars/schedule/Павел Браславский ‐ Анализ запросов

Page 6: Yandex Academic programs 2010

IMAT 2009IMAT 2009

L i k• Learning to rank • 245 features for query‐document pairs• Graded relevance judgments (0..4)• Pure numeric data (i.e. no original queries, documents 

f )or feature semantics)• Learning set: 97 290 feature vectors (9 124 queries)• Test set: 115 643 vectors (21 103 – public evaluation; 94 540 – final evaluation)

• Evaluation measure: DCG• http://imat2009.yandex.ru

6Павел Браславский ‐ Анализ запросов

Page 7: Yandex Academic programs 2010

Павел Браславский ‐ Анализ запросов 7

Page 8: Yandex Academic programs 2010

IMAT 2010IMAT 2010

ffi i di i• Traffic congestion prediction• (Rough) data:( g )

– Modified graph of Moscow streets – Observed traffic speed 4‐10 pm (4‐min intervals)Observed traffic speed 4 10 pm (4 min intervals) for 30 subsequent days + 4‐6 pm on the 31st day

• Task: predict traffic speed 6‐10 pm of the 31stTask: predict traffic speed 6‐10 pm of the 31day

bli /fi l l ti• public/final evaluation• http://imat2010.yandex.ru

8Павел Браславский ‐ Анализ запросов

Page 9: Yandex Academic programs 2010

Modified graph of streetsModified graph of streets

9Павел Браславский ‐ Анализ запросов

Page 10: Yandex Academic programs 2010

IMAT 2010 DataIMAT 2010 Data

G h ti (139 241/33 029) d d (206• Graph: vertices (139 241/33 029) and edges (206 260/86 249)– <id vertex> <id group>_ _g p– <id_edge> <id_edge_group> <start_vert> <end_vert>– <id_edge_group> <length> <avg_speed>

• Observations (learning set 29 226 208 lines)• Observations (learning set, 29 226 208 lines)– <id_edge_group> <day> <time> <speed>

• Task (691 641 lines)( )– <id_edge_group> <day> <time> ??

• Evaluation

10Павел Браславский ‐ Анализ запросов

Page 11: Yandex Academic programs 2010

11Павел Браславский ‐ Анализ запросов

Page 12: Yandex Academic programs 2010

ROMIPROMIP• TREC‐like Russian initiative

• Started 2002 

• Several text and image collectionsg

• 10‐15 participants per year (total 50+)• Academia and industry, students support

• ~3 000 man‐hours of evaluation (2009)

• Remote participation + live meetingRemote participation + live meeting

• Collections are freely available

• Popular testbed for IR research in Russia

21.09.2010 12ROMIP

Page 13: Yandex Academic programs 2010

ROMIP largest text collectionsROMIP largest text collections

Collection Documents Size(compressed) Topics

Evaluated within ad‐hoc search 

tracktrack

Legal ~300 000 2 Gb 14 794 220

ByWeb 1 524 676 8 Gb ~ 60 000 1 500+By.Web 1 524 676 8 Gb  60 000 1 500+

KM.RU 3 010 455 13 Gb ~ 60 000 ~250

21.09.2010 13ROMIP

Page 14: Yandex Academic programs 2010

Image collectionsImage collectionsPhoto collection: 20 000 images from FlickrPhoto collection: 20 000 images from Flickr

Dups collection: 15 hrs video  37 800 frames

1421.09.2010 14ROMIP

Page 15: Yandex Academic programs 2010

RuSSIRRuSSIR• Yekaterinburg 5‐12 September 2007Yekaterinburg,  5 12 September 2007

http://romip.ru/russir2007

• Taganrog, 1‐5 September 2008http://romip.ru/russir2008/

• Petrozavodsk, 11‐16 September 2009http://romip.ru/russir2009/http://romip.ru/russir2009/

• Voronezh, 13‐18 September 2010http://romip.ru/russir2010/

S i t P t b A t 2011• Saint Petersburg, August 201115Павел Браславский ‐ Анализ запросов

Page 16: Yandex Academic programs 2010

RuSSIRRuSSIR

• Put RuSSIR pic here 

• Annual eventAnnual event 

• 100+ participants

• 4th RuSSIR: Voronezh 13‐18 September

• http://romip ru/russir2010/http://romip.ru/russir2010/

21.09.2010 16ROMIP

Page 17: Yandex Academic programs 2010

Информационный поиск по русскиИнформационный поиск по‐русски

Павел Браславский ‐ Анализ запросов 17

Оригинальная английская версия: http://informationretrieval.org

Page 18: Yandex Academic programs 2010

Павел БраславскийПавел Браславскийpb@yandex‐team.ru

18Павел Браславский ‐ Анализ запросов


Top Related