2 01-trofimenko
TRANSCRIPT
Текстовые факторы ранжирования: от анализа до
разработки сайта
Трофименко Евгений Александрович[email protected]
(495) 232-05-91Корпорация РБС/ BDBD.ru
http://www.bdbd.ruначальник отдела продвижения
Длина запросов
• Много информации в рунете
• Средняя длина запроса – 2.5—3 слова
• Масса длинных запросов велика
• Контекстные ограничения при поиске
• Чувствительность длинных запросов к текстовой (контентной) оптимизации
• …текстовые факторы рулят! (в своей области…)
Банальщина и не только
Неиндексируемые зоны документа
• <head> (кроме <meta>)• <script>• <frames>• <noindex> (Яндекс и
Рамблер)• Поля форм (кроме
<textarea>)
Ограничение индексации документов:
• robots.txt• 4ХХ и 5ХХ HTTP-
заголовки• 304 Not Modified
Бан сайта по текстовым факторам – обычные критерии
• Невидимый или слабовидимый для посетителя текст на странице
• Клоакинг (cloaking) – выдача разного контента для поисковика и посетителя
• Мгновенные перенаправления посетителя на другую страницу (редирект)
• Наличие на сайте входных страниц (дорвеев), не несущих пользователю искомой информации
• Сгенерированный текст на страницах
Бан сайта – нововведения и частые ошибки модераторов
• Размещение текстов в невидимых слоях документа• Излишнее использование тегов выделения (Hx)• Сайт состоит из «плохого, нетематического,
немодерируемого» каталога ссылок• Подмена страницы поисковика после захода на нее
посетителя с помощью javascript• Контент сайта, состоящий на большую долю из
рекламы (Бегун, фиды PPC) или партнерских программ (Мамба, интернет-магазины)
• «отсутствие добавленной ценности или сервиса»
Факторы влияния на ранжирование
• Нахождение слов запроса в особо важных зонах документа:
title, h1-h4, b, strong, I, em…..
• Естественность текста (… варианты)
• Общая релевантность сайта и его структуры
• … и соответствие контекстным ограничениям
Особенности Яндекса
• Небольшие документы
• Быстроробот для обновления информации
• Большее влияние ссылочных факторов
• …ограничения контекста
Особенности Рамблера
• Большие документы
• Большее влияние числа найденных слов
• Общая релевантность сайта (найденные страницы+внутренние ссылки)
• …ограничения контекста
Ограничения контекста при поиске
Переформулирование поискового запроса:
• Яндекс: «колдунщик»
• Рамблер: «клей»
Реально отрабатывается запрос, отличный от введенного, с добавлением расстояний и весов
Примеры контекстных ограничений (Яндекс)
Был запрос:пластиковые окна в москве
Стало:(пластиковые::21485 & окна::5689 &
в::0 &/(-1 3) москве::895)//6
(веса, расстояния, мягкость, изменения)
Примеры контекстных ограничений (Яндекс)
Поиск в пределах документа &&В пределах нескольких предложений &&/(-3 3)В пределах предложения &В пределах нескольких слов &/(-1 3)
Разделители предложений для Яндекса
Если слова запроса «ищутся» в пределах предложения или ближе:
Разделителями являются:• Теги TABLE, TD, BR, P, H1-H6, DIV…• Точка, знаки (!?...) и двоеточие перед Текстом
Как это выяснить?
Найти модельный документ и использовать «подсветку»
Особенности обработки поискового запроса (Яндекс)
1. Переформулирование запроса 2. Выбор пассажей по огр. контекста3. Выбор «найденных» пассажей по сумме весов слов
(вес^0.38)4. Расчет контрастности слов по позициям в
найденных пассажах с перенормировкой по (размеру документа, частотным словам и др.)
5. Позиции взвешиваются по сходству окружения слова с запросом
6. Веса найденных словопозиций суммируются7. Дополнительный учет форматирования
Частоты, слова или все вместе?
1. Исходно – частоты (tf=n/N)2. Перенормировка по размеру
документа (/N), например3. Суммирование по позициям (*n)=>есть зависимость и от tf и от n
Большие документы – ближе к частотеМаленькие – ближе к числу слов
Частоты в Яндексе-1• Поиск по цитате из романа «Война и Мир» - одно вхождение:
размер документа в выдаче
…есть ли нормировка по размеру документа (в словах)?
Размер документа (КБ)
0
100
200
300
400
500
600
700
800
900
1 2 3 4 5 6 7 8 9 10
Место в выдаче
Частоты в Яндексе-2
• Запрос $anchor(сайт) – поиск похож на чисто текстовый (отличается от поиска по запросу сайт) – большие документы и т.п.
Число слов "сайт*" в найденных документах
0
100
200
300
400
500
600
0 50 100 150 200 250 300
Место в выдаче
Частоты Яндекса-2• Число найденных слов vs. число слов в документе
…есть ли зависимость (т.е., «частота»)?
всего слов в документе
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
0 100 200 300 400 500 600
Число найденных слов
Частоты в Яндексе-2• Частоты vs. позиция в выдаче $anchor(сайт)
% в тексте (доля)
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
1 13 25 37 49 61 73 85 97 109 121 133 145 157 169 181 193 205 217 229 241 253
Место в выдаче
Частоты в Яндексе-2• Первые 300 результатов из 17.000• Частота vs. число найденных слов
% (доля) слова в тексте
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0 100 200 300 400 500 600
Число найденных слов
Практическое применение
• На этапе создания семант-ядра
• На этапе распределения слов по страницам
• Не попасть впросак с точными формулировками
…учет контекстных ограничений при оптимизации и продвижении сайта
Учет контекстных ограничений при
оптимизации и продвижении сайта
Запрос Переколдованный запрос
ноутбук Fujitsu-Siemens Lifebook P1510
(ноутбук::8544 && Fujitsu::60128 &/(1 1) Siemens::6150 & Lifebook::1971845 && P1510::1819103916)//6
ноутбук Fujitsu Siemens Lifebook P1510
(ноутбук::8544 && Fujitsu::60128 & Siemens::6150 & Lifebook::1971845 && P1510::1819103916)//6
ноутбук Fujitsu-Siemens (ноутбук::8544 &&/(-3 3) Fujitsu::60128 &/(1 1) Siemens::6150)//6
Вот, собственно, и всё.
Текстовые факторы ранжирования: от анализа до разработки сайта
Трофименко Евгений Александрович[email protected]
(495) 232-05-91Корпорация РБС/ BDBD.ru
http://www.bdbd.ruначальник отдела продвижения