mejora de la relevancia semántica por seo

Mejora de la relevancia semán1ca por SEO www.crawlerzone.com Junio de 2015

RESUMEN 1.   Datos brutos 2.   El concepto de contenido ú1l 3.   El concepto de relevancia semán1ca 4.   Recapitulamos 5.   Conclusiones 6.   Anexos

Datos brutos/ problemas concretos

4

Conocer toda la red es diMcil •  La red mundial con/ene más de 60 trillones de páginas… y se expande unos 11

millones de páginas adicionales todos los días •  Si se quisiera ver cada página una vez por día, habría que rastrear 1.902.587 de

páginas por segundo •  Cada año 912.500.000.000.000.000.000 octetos de información son publicados

en el mundo. Es decir, 912,5 exaoctetos por año (es/mación hecha en 2012 por IBM)

-‐  Casi el 30% de la red mundial es contenido duplicado

Fuente: h"ps://www.google.com/intl/fr/search/about/insidesearch/howsearchworks/thestory/

5

Comunicar con palabras es ambiguo -‐  93.077 palabras (lemas) en el diccionario de la RAE -‐  Algunas palabras son omnipresentes : El + de = 13,11% de las palabras del Corpus de Referencia

del Español Actual (57.697 entradas) -‐  15,17% de palabras está en desuso (aparecen en el diccionario 14.128 acepciones en desuso

repar/das en 11.327 entradas) -‐  72,06% de las palabras no aparece casi nunca en la lista de frecuencias del Corpus -‐  10.000 palabras forman el 98,63% del Corpus -‐  En la vigésima tercera edición del diccionario hay 1.337 nuevos lemas (variación leve de +1,44%) -‐  Los cinco lemas más largos del diccionario son contencioso-‐administra1vo,

electroencefalografista, in pár1bus infidélium, esternocleidomastoideo y electroencefalográfico.

Fuente: h"p://www.rae.es/ y h"p://dirae.es/

6

Clasificar es costoso -‐  Google invir/ó en 2013, 1.600 millones de dólares en solo 3 meses para centros

de datos -‐  Hoy un centro de datos consume 50 MW al año (una ciudad de 50.000 personas).

En 2011, había 40 centros de datos. Serían 2.000 MW, es decir 2 centrales nucleares o 1.500 turbinas eólicas

-‐  El tráfico de los centros de datos de Google representa el 7% del tráfico de la red mundial

Fuente: h"p://www.theguardian.com/business/2013/aug/23/spending-‐on-‐data-‐centres-‐reaches-‐150-‐billion-‐dollars h"p://www.lemondeinformaAque.fr/actualites/lire-‐datacenters-‐les-‐nouveaux-‐pollueurs-‐58428.html

7

Responder rápidamente es fundamental -‐  En 2011, Kyle Rush, de la campaña presidencial de Barack Obama, enseñaba que

una bajada de 3 segundos del 1empo de carga (5 a 2 segundos) aumentaba el volumen de donaciones en un 14%

-‐  Amazon calculó que tenía una pérdida anual de 1.600 millones de dólares por cada segundo adicional en el /empo de carga

-‐  Google trata entre 30.000 y 40.000 búsquedas por segundo y /ene un promedio de respuesta de 1/8 de segundo (0,125 segundos). Empeorando su 1empo en 0,4 segundos pierde 8 millones de búsquedas por día

Fuente: h"p://velocityconf.com/velocity2013/public/schedule/detail/28316 h"p://www.cisco.com/c/en/us/soluAons/collateral/service-‐provider/visual-‐networking-‐index-‐vni/VNI_HyperconnecAvity_WP.html

0

10

20

30

40

50

2014 2015 2016 2017 2018 2019

Previsiones banda ancha (en Megaoctetos/segundo)

Fuente: Cisco, 2015 Asia Pacific

La/n America

North America

Western Europe

Central and Eastern Europe

8

Consecuencias

Buscadores

• Obligación de trabajar en paralelo • No se debe mirar la misma página varias veces • Hay que evitar duplicidades

Webs

• Responder rápidamente • Tener autoridad • Presentar contenido ú/l • Excelente nivel de redacción • Contenido correctamente clasificado • Enlazar documentos similares

El concepto de contenido ú1l

10

Necesidad informacional Necesidad informacional/ búsqueda

Resultados

Un documento es relevante si responde a la necesidad informacional del usuario. Por otro lado: -‐  85% de los usuarios solo

consultan la primera página de Google

-‐  75% de las búsquedas no son reformuladas

11

¿Quién se posiciona mejor en España?

Fuente: h"p://suite.searchmetrics.com/es/research/visibility-‐charts/organic/visibility?cc=ES&acc=142889&p=0

12

¿Entonces es fácil hacerse rico?

Fuente: h"p://ms-‐managementsoluAons.es/

-‐  Generar millones de páginas de todas las temá/cas y expresiones de búsqueda posibles (resultados de búsqueda, textos generados con soiwares de spinning o feed automa/zado)

-‐  Incluir millones de enlaces op/mizados dentro de las páginas

-‐  Subir sitemaps para dar a conocer las páginas

-‐  Incluir publicidad para mone/zar

13

La era post-‐panda/ penguin

Fuente: h"p://www.sistrix.es/blog/indexwatch-‐2014-‐los-‐dominios-‐perdedores-‐de-‐2014/

Generar contenido masivamente en 2015 no es suficiente. Hay que generar contenido relevante.

14

Criterios fundamentales

www

Contenido textos relevantes

únicos Enlaces propiedades de los caminos

Autoridad índice de confianza

y volumen de citaciones Semán1ca posicionamiento temá/co

por cluster

15

A evitar

www

Contenido textos duplicados

Enlaces descontrolados, redundantes

Autoridad varios dominios y subdominios, nombres largos con guiones, extensiones pocas usadas

Semán1ca intentar estar en todas las

temá/cas

La relevancia semán1ca

17

¿Qué es la op1mización semán1ca?/ on page

URL: h"p://www.elconfidencial.com/elecciones-‐municipales-‐y-‐autonomicas/2015-‐06-‐01/ada-‐colau-‐plantea-‐desobedecer-‐leyes-‐injustas-‐y-‐poner-‐limites-‐al-‐turismo-‐en-‐barcelona_865549/

E1quetas SEO

Estructuración Hn

Enlaces contextuales

18

Resultados en Google España

Top2 en No/cias

Top1 en Web

19

¿Es relevante contar las ocurrencias?

Fuente: h"p://www.seoquake.com/

Si contamos las repe/ciones de 1 palabra o de expresiones con varias palabras, solo salen contenidos irrelevantes

20

El concepto de relevancia semán1ca

La relevancia es un concepto semán/co dikcil de definir. Dentro de paginas web, nos gustaría ser capaces de encontrar contenidos similares a la búsqueda del usuario. Para esto, nos gustaría ir a cada página y luego comprobar todas las demás para hacer un matching y una valoración. La capacidad del sistema para ordenar los resultados de una búsqueda, basado en el grado de similaridad entre cada documento de la colección y la consulta, se llama relevancia parcial. La ponderación de los términos en los documentos, no limitándose a señalar la presencia o ausencia de los mismos, permite asignar a cada término en cada documento un número que refleje su importancia en el documento. La ponderación de los términos en la consulta, asigna pesos a cada palabra de la consulta que reflejen su importancia en relación a la necesidad informa1va.

21

Hashing

Usando una función matemá/ca de Hashing, conver/mos el contenido texto de una página en una serie única de números. Comparando varios hash de una web, se pueden detectar duplicidades muy fácilmente.

Fuente: Screaming frog h"p://www.screamingfrog.co.uk/seo-‐spider/

Problema No tenemos información semán/ca, por lo que no sabemos de qué habla el texto

22

Jornadas de y

Open Data

de datos -‐

Wikipedia , la

enciclopedia libre

Bolsa de palabras

Comparamos 2 series de palabras para sacar las que son iguales en las 2 series. Ejemplo comparamos las 2 e/quetas TITLES del Top1 y Top2 en Google España por la búsqueda “Periodismo de datos”: -‐  Jornadas de Periodismo y Open Data -‐  Periodismo de datos -‐ Wikipedia, la enciclopedia libre

Perio-‐dismo

Problemas -‐  Falta una ponderación (q/

idf, coseno de Salton, …) -‐  Falta la definición de

stopwords para quitar el ruido alrededor del contenido editorial (arrculos, preposiciones)

-‐  Falta descartar los footers, headers, …

23

Shingles

El problema con la "bolsa de palabras" es que no /ene en cuenta el contexto de las palabras. En par/cular, las palabras que rodean las otras palabras de la página. Por tanto, en lugar de simplemente tratar cada página de una web como una bolsa de palabras, vamos a considerarla como un conjunto de expresiones de varias palabras imbricadas. Este método (en base a un calculo algorítmico) se conoce como “Shingles” porque cada frase se superpone a sus vecinas, al igual que las tejas de un tejado.

URL: SMP/ h"p://www.elconfidencial.com/elecciones-‐municipales-‐y-‐autonomicas/2015-‐06-‐01/ada-‐colau-‐plantea-‐desobedecer-‐leyes-‐injustas-‐y-‐poner-‐limites-‐al-‐turismo-‐en-‐barcelona_865549/

24

Shingles vs literatura

Visualización de los shingles de 1984 de Georges Orwell (96.365 palabras)

URL: SMP/ h"p://ocw.uca.es/pluginfile.php/1485/mod_resource/content/1/1984.pdf

25

Shingles vs teatro

En el ejemplo del análisis semán/co de La gaviota de Antón Chejov (18.208 palabras) vemos que podemos analizar tanto un corpus entero como partes relevantes de la estructura por separado (los actos por ejemplo)

Acto 1

Acto 4

URL:SMP/ h"p://www.edu.mec.gub.uy/biblioteca_digital/libros/c/Chejov,%20Anton%20-‐%20La%20gaviota.pdf

26

N-‐grams de Google

Google ha puesto en marcha en 2010, una herramienta de análisis por N-‐grams (equivalentes a Shingles) para visualizar datos estadís/cos en base a su corpus de libros de Google Books (la base de datos se puede descargar en 23 idiomas diferentes y cubre los años 1800 a 2008).

Fuente: h"ps://books.google.com/ngrams

27

Con wildcard (*)

Fuente: h"ps://books.google.com/ngrams

28

A evitar

irrelevancia

Incluir palabras que ocultan la

temá1ca

Redactar sin conocer la temá1ca

Usar un lenguaje ambiguo

Omi1r palabras singulares de la

temá1ca

Pedir la redacción de

textos a personas que no son

na1vos del país

Recapitulamos

30

Análisis de contenido on page

Fuente: SMP/ h"p://periodismodatos.okfn.es/ -‐ 99.681 palabras incluyendo código fuente

31

Análisis de e1quetas SEO

Fuente: SMP/ h"p://periodismodatos.okfn.es/ -‐ solo eAquetas SEO

32

Análisis de textos de enlaces

Fuente: SMP/ h"p://periodismodatos.okfn.es/ -‐ solo textos de enlaces

33

Análisis de pagina de inicio/ MD Cospedal

Fuente: h"ps://presidentacospedal.com/

34

Análisis de pagina de inicio/ Pedro Sánchez

Fuente: h"p://sanchezcastejon.es/

35

Shingles/ Web de María Dolores de Cospedal

Fuente: SMP/ h"ps://presidentacospedal.com/

Mis ideas

Realidades

Pagina de inicio

36

Shingles/ web de Pedro Sánchez

Fuente: SMP/ h"p://sanchezcastejon.es/

Pagina de inicio

Herramientas

38

Herramientas gra1s/ extensiones (ejemplos)

Crawl Xenu Site orbiter

Análisis on page Web developer Firebug SEO quake

Análisis de los SERPs SEO quake

Performance Pagespeed Yslow Webpage test

39

Herramientas de pago (lista no exhaus/va)

Shingles SMP

Creación de textos op1mizados Master spin

Crawl/ análisis de logs Advanced SEO toolbox (ATB) Bo/fy Harobaz Screaming frog (sin logs)

Análisis de los SERPs Advanced SEO toolbox (ATB)

Conclusiones

41

Sugerencias

Siempre pensar en términos de con1nuidad semán1ca

Rodear las páginas existentes de contenidos con una relación estrecha, y ampliar

progresivamente

Contextualizar con la técnica del comunicado de prensa (Quién, qué, dónde,

cómo, por qué)

Adquirir o desarrollar una herramienta de

cálculo de similaridad para evitar malas sorpresas

Siempre monitorizar los resultados en los buscadores en base a un corpus de calidad para

sacar conclusiones

Anexos

43

Shingles/ periódicos españoles

Fuente: SMP/ Paginas de inicio de periodicos y radio el 03/06/2015

Pagina de inicio/ Elconfidencial.com

Pagina de inicio/ Eldiario.es

Pagina de inicio/ Elmundo.es

Pagina de inicio/ Elpais.com

Pagina de inicio/ Marca.com

44

Shingles/ radios españolas


Pagina de inicio/ Cadenaser.com

Pagina de inicio/ RTVE.es

45

Shingles/ New York Times


Pagina de inicio/ Ny/mes.com

Pagina Opinions

Gracias a Guillaume Peyronnet Sara Delgado Manso Hafid Mermouri

www.crawlerzone.com

mejora de la relevancia semántica por seo

Data & Analytics