Владимир Батыгин "Автоматический сбор данных по...

Post on 02-Jul-2015

927 Views

Category:

Technology

4 Downloads

Preview:

Click to see full reader

DESCRIPTION

Владимир Батыгин "Автоматический сбор данных по примерам" Первый Я.Субботник в Санкт-Петербурге О докладе: В настоящее время в интернете можно найти огромное количество полезной информации. Повсеместно встает проблема сбора этой информации в автоматическом режиме. Однако полностью автоматические методы извлечения информации далеко не всегда могут обеспечить необходимую полноту и точность результата. В докладе представлен новый инструмент для управляемого извлечения структурированных данных. Пользователь указывает примеры интересующей его информации на нескольких страницах сайта. Система автоматически строит шаблоны специального вида для поиска такой же информации на всех страницах сайта. Повествуем об используемых алгоритмах и проблемах, с которыми пришлось столкнуться при их реализации. Также даем обзор нерешённых задач и перспектив их развития.

TRANSCRIPT

Автоматический сбор данных по примерамВладимир БатыгинРазработчик

Я.Субботник, Санкт-Петербург, 26 февраля 2011

План

● Введение● Singlepage● Алгоритм● Итоги

2

Глава 1.Введение

3

5

6

Вёрстка

7

Вёрстка

Разнообразна

8

Вёрстка

Разнообразна Часто изменяется

9

Специализированные парсеры

На каждый сайт – свой

10

Нужна армия

11

Общие алгоритмы

Предполагают наличие на странице регулярной структуры

12

13

MDR

Требования

14

Требования

15

● Простая настройка● Простая поддержка

Требования

● Простая настройка● Простая поддержка● Высокие показатели полноты и точности

16

Глава 2.SinglePage

17

Управляемая экстракция1. Пользователь задает примеры

2. Система автоматически извлекает данные со всего сайта

18

Преимущества

● Быстрая настройка

● Не требуется разбираться в структуре страницы

● Структурированное извлечение нужной информации

● Устойчивость к изменениям вёрстки

19

Ограничения● Отдельная страница на каждый объект● Группа страниц с однотипной вёрсткой

20

Глава 3.Алгоритм

21

Взгляд внутрь1. По примерам строим шаблоны (один атрибут – один шаблон)

2. Применяем шаблоны к остальным (подходящим) страницам

22

23

Интерфейс

24

Построение шаблона

25

Построение шаблона

Для каждого атрибута строится отдельный шаблон

26

27

28

//ul/li[3]/span

29

30

//ul/li[3]/span

31

//ul/li[3]/span Size=20 quad laser...

TreePattern

32

TreePattern

Homeworld: Size: Weapon:

Corellia 26, 7 meters long quad laser cannons ...

33

Построение TreePattern

34

Построение TreePattern

35

Построение TreePattern

36

Построение TreePattern

37

38

Проблема

39

Проблема

Необязательный узел

<h1>

<span>

Driod Control Ship

?

[Target]

40

Поиск вхождений

41

Множественные вхождения

4 комбинации

Выбираем лучшую

42

Применение шаблона к сайту

43

Кластеризация

44

Применяем шаблоны

Не применяем шаблоны

Все страницы

Глава 4.Итоги

45

Статистика

Время создания < 20 мин

Полнота: 88% Точность: 92%

46

Happy End?

47

Нерешенные задачи

● Динамический контент

● Плагин для браузера

48

ЗаключениеПолуавтоматические методы:

● По качеству данных и универсальности сравнимы со сбором «в ручную»

● Сложность и время настройки минимальны

49

50

P.S. Экономьте Ваше время!

50

Вопросы

51

Батыгин ВладимирРазработчик

111033, Россия, Санкт-Петербург,Свердловская наб., д. 44.

vbatygin@yandex-team.ru

top related