mejora de la relevancia semántica por seo

46
Mejora de la relevancia semán1ca por SEO www.crawlerzone.com Junio de 2015

Upload: arnaud-valadie

Post on 22-Jan-2018

316 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Mejora  de  la  relevancia  semán1ca  por  SEO    www.crawlerzone.com    Junio  de  2015  

RESUMEN    1.   Datos  brutos  2.   El  concepto  de  contenido  ú1l  3.   El  concepto  de  relevancia  semán1ca  4.   Recapitulamos  5.   Conclusiones    6.   Anexos  

Datos  brutos/    problemas  concretos    

4  

Conocer  toda  la  red  es  diMcil  •  La  red  mundial  con/ene  más  de  60  trillones  de  páginas…  y  se  expande  unos  11  

millones  de  páginas  adicionales  todos  los  días  •  Si  se  quisiera  ver  cada  página  una  vez  por  día,  habría  que  rastrear  1.902.587  de  

páginas  por  segundo  •  Cada  año  912.500.000.000.000.000.000  octetos  de  información  son  publicados  

en  el  mundo.  Es  decir,  912,5  exaoctetos  por  año  (es/mación  hecha  en  2012  por  IBM)    

-­‐  Casi  el  30%  de  la  red  mundial  es  contenido  duplicado    

Fuente:  h"ps://www.google.com/intl/fr/search/about/insidesearch/howsearchworks/thestory/  

5  

Comunicar  con  palabras  es  ambiguo  -­‐  93.077  palabras  (lemas)  en  el  diccionario  de  la  RAE  -­‐  Algunas  palabras  son  omnipresentes  :  El  +  de  =  13,11%  de  las  palabras  del  Corpus  de  Referencia  

del  Español  Actual  (57.697  entradas)  -­‐  15,17%  de  palabras  está  en  desuso  (aparecen  en  el  diccionario  14.128  acepciones  en  desuso  

repar/das  en  11.327  entradas)  -­‐  72,06%  de  las  palabras  no  aparece  casi  nunca  en  la  lista  de  frecuencias  del  Corpus  -­‐  10.000  palabras  forman  el  98,63%  del  Corpus  -­‐  En  la  vigésima  tercera  edición  del  diccionario  hay  1.337  nuevos  lemas  (variación  leve  de  +1,44%)  -­‐  Los  cinco  lemas  más  largos  del  diccionario  son  contencioso-­‐administra1vo,  

electroencefalografista,  in  pár1bus  infidélium,  esternocleidomastoideo  y  electroencefalográfico.  

 

Fuente:  h"p://www.rae.es/  y  h"p://dirae.es/  

6  

Clasificar  es  costoso  -­‐  Google  invir/ó  en  2013,  1.600  millones  de  dólares  en  solo  3  meses  para  centros  

de  datos  -­‐  Hoy  un  centro  de  datos  consume  50  MW  al  año  (una  ciudad  de  50.000  personas).  

En  2011,  había  40  centros  de  datos.  Serían  2.000  MW,  es  decir  2  centrales  nucleares  o  1.500  turbinas  eólicas  

-­‐  El  tráfico  de  los  centros  de  datos  de  Google  representa  el  7%  del  tráfico  de  la  red  mundial  

Fuente:  h"p://www.theguardian.com/business/2013/aug/23/spending-­‐on-­‐data-­‐centres-­‐reaches-­‐150-­‐billion-­‐dollars  h"p://www.lemondeinformaAque.fr/actualites/lire-­‐datacenters-­‐les-­‐nouveaux-­‐pollueurs-­‐58428.html  

7  

Responder  rápidamente  es  fundamental      -­‐  En  2011,  Kyle  Rush,  de  la  campaña  presidencial  de  Barack  Obama,  enseñaba  que  

una  bajada  de  3  segundos  del  1empo  de  carga  (5  a  2  segundos)  aumentaba  el  volumen  de  donaciones  en  un  14%  

-­‐  Amazon  calculó  que  tenía  una  pérdida  anual  de  1.600  millones  de  dólares  por  cada  segundo  adicional  en  el  /empo  de  carga    

-­‐  Google  trata  entre  30.000  y  40.000  búsquedas  por  segundo  y  /ene  un  promedio  de  respuesta  de  1/8  de  segundo  (0,125  segundos).  Empeorando  su  1empo  en  0,4  segundos  pierde  8  millones  de  búsquedas  por  día  

Fuente:  h"p://velocityconf.com/velocity2013/public/schedule/detail/28316    h"p://www.cisco.com/c/en/us/soluAons/collateral/service-­‐provider/visual-­‐networking-­‐index-­‐vni/VNI_HyperconnecAvity_WP.html  

0  

10  

20  

30  

40  

50  

2014   2015   2016   2017   2018   2019  

Previsiones  banda  ancha    (en  Megaoctetos/segundo)  

Fuente:  Cisco,  2015     Asia  Pacific  

La/n  America  

North  America  

Western  Europe  

Central  and  Eastern  Europe  

8  

Consecuencias    

Buscadores  

• Obligación  de  trabajar  en  paralelo  • No  se  debe  mirar  la  misma  página  varias  veces  • Hay  que  evitar  duplicidades  

Webs  

• Responder  rápidamente  • Tener  autoridad  • Presentar  contenido  ú/l  • Excelente  nivel  de  redacción  • Contenido  correctamente  clasificado  • Enlazar  documentos  similares  

El  concepto    de  contenido  ú1l  

10  

Necesidad  informacional  Necesidad  informacional/  búsqueda  

Resultados  

Un  documento  es  relevante  si  responde  a  la  necesidad  informacional  del  usuario.    Por  otro  lado:  -­‐  85%  de  los  usuarios  solo  

consultan  la  primera  página  de  Google  

-­‐  75%  de  las  búsquedas  no  son  reformuladas  

11  

¿Quién  se  posiciona  mejor  en  España?    

Fuente:  h"p://suite.searchmetrics.com/es/research/visibility-­‐charts/organic/visibility?cc=ES&acc=142889&p=0  

12  

¿Entonces  es  fácil  hacerse  rico?  

Fuente:  h"p://ms-­‐managementsoluAons.es/  

-­‐  Generar  millones  de  páginas  de  todas  las  temá/cas  y  expresiones  de  búsqueda  posibles  (resultados  de  búsqueda,  textos  generados  con  soiwares  de  spinning  o  feed  automa/zado)  

-­‐  Incluir  millones  de  enlaces  op/mizados  dentro  de  las  páginas  

-­‐  Subir  sitemaps  para  dar  a  conocer  las  páginas  

-­‐  Incluir  publicidad  para  mone/zar  

13  

La  era  post-­‐panda/  penguin  

Fuente:  h"p://www.sistrix.es/blog/indexwatch-­‐2014-­‐los-­‐dominios-­‐perdedores-­‐de-­‐2014/  

Generar  contenido  masivamente  en  2015  no  es  suficiente.  Hay  que  generar  contenido  relevante.  

14  

Criterios  fundamentales    

www  

Contenido    textos  relevantes  

únicos   Enlaces    propiedades  de  los  caminos  

Autoridad    índice  de  confianza    

y  volumen  de  citaciones  Semán1ca  posicionamiento  temá/co    

por  cluster  

15  

A  evitar  

www  

Contenido    textos  duplicados  

Enlaces    descontrolados,  redundantes  

Autoridad    varios  dominios  y  subdominios,  nombres  largos  con  guiones,  extensiones  pocas  usadas  

Semán1ca  intentar  estar  en  todas  las  

temá/cas  

La  relevancia  semán1ca  

17  

¿Qué  es  la  op1mización  semán1ca?/  on  page  

URL:  h"p://www.elconfidencial.com/elecciones-­‐municipales-­‐y-­‐autonomicas/2015-­‐06-­‐01/ada-­‐colau-­‐plantea-­‐desobedecer-­‐leyes-­‐injustas-­‐y-­‐poner-­‐limites-­‐al-­‐turismo-­‐en-­‐barcelona_865549/  

E1quetas  SEO  

Estructuración  Hn  

Enlaces  contextuales  

18  

Resultados  en  Google  España  

Top2  en  No/cias  

Top1  en  Web  

19  

¿Es  relevante  contar  las  ocurrencias?  

Fuente:  h"p://www.seoquake.com/  

Si  contamos  las  repe/ciones  de  1  palabra  o  de  expresiones  con  varias  palabras,  solo  salen  contenidos  irrelevantes  

20  

El  concepto  de  relevancia  semán1ca  

La  relevancia  es  un  concepto  semán/co  dikcil  de  definir.      Dentro  de  paginas  web,  nos  gustaría  ser  capaces  de  encontrar  contenidos  similares  a  la  búsqueda  del  usuario.  Para  esto,  nos  gustaría  ir  a  cada  página  y  luego  comprobar  todas  las  demás  para  hacer  un  matching  y  una  valoración.    La  capacidad  del  sistema  para  ordenar  los  resultados  de  una  búsqueda,  basado  en  el  grado  de  similaridad  entre  cada  documento  de  la  colección  y  la  consulta,  se  llama  relevancia  parcial.    La  ponderación  de  los  términos  en  los  documentos,  no  limitándose  a  señalar  la  presencia  o  ausencia  de  los  mismos,  permite  asignar  a  cada  término  en  cada  documento  un  número  que  refleje  su  importancia  en  el  documento.    La  ponderación  de  los  términos  en  la  consulta,  asigna  pesos  a  cada  palabra  de  la  consulta  que  reflejen  su  importancia  en  relación  a  la  necesidad  informa1va.      

21  

Hashing  

Usando  una  función  matemá/ca  de  Hashing,  conver/mos  el  contenido  texto  de  una  página  en  una  serie  única  de  números.  Comparando  varios  hash  de  una  web,  se  pueden  detectar  duplicidades  muy  fácilmente.    

Fuente:  Screaming  frog  h"p://www.screamingfrog.co.uk/seo-­‐spider/  

Problema  No  tenemos  información  semán/ca,  por  lo  que  no  sabemos  de  qué  habla  el  texto  

22  

Jornadas  de    y    

Open    Data  

de    datos    -­‐    

Wikipedia  ,    la    

enciclopedia  libre  

Bolsa  de  palabras  

Comparamos  2  series  de  palabras  para  sacar  las  que  son  iguales  en  las  2  series.  Ejemplo  comparamos  las  2  e/quetas  TITLES  del  Top1  y  Top2  en  Google  España  por  la  búsqueda  “Periodismo  de  datos”:    -­‐  Jornadas  de  Periodismo  y  Open  Data  -­‐  Periodismo  de  datos  -­‐  Wikipedia,  la  enciclopedia  libre  

Perio-­‐dismo    

Problemas  -­‐  Falta  una  ponderación  (q/  

idf,  coseno  de  Salton,  …)  -­‐  Falta  la  definición  de  

stopwords  para  quitar  el  ruido  alrededor  del  contenido  editorial  (arrculos,  preposiciones)  

-­‐  Falta  descartar  los  footers,  headers,  …  

23  

Shingles  

El  problema  con  la  "bolsa  de  palabras"  es  que  no  /ene  en  cuenta  el  contexto  de  las  palabras.  En  par/cular,  las  palabras  que  rodean  las  otras  palabras  de  la  página.    Por  tanto,  en  lugar  de  simplemente  tratar  cada  página  de  una  web  como  una  bolsa  de  palabras,  vamos  a  considerarla  como  un  conjunto  de  expresiones  de  varias  palabras  imbricadas.  Este  método  (en  base  a  un  calculo  algorítmico)  se  conoce  como  “Shingles”  porque  cada  frase  se  superpone  a  sus  vecinas,  al  igual  que  las  tejas  de  un  tejado.  

URL:  SMP/  h"p://www.elconfidencial.com/elecciones-­‐municipales-­‐y-­‐autonomicas/2015-­‐06-­‐01/ada-­‐colau-­‐plantea-­‐desobedecer-­‐leyes-­‐injustas-­‐y-­‐poner-­‐limites-­‐al-­‐turismo-­‐en-­‐barcelona_865549/  

24  

Shingles  vs  literatura  

Visualización  de  los  shingles  de  1984  de  Georges  Orwell  (96.365  palabras)  

URL:  SMP/  h"p://ocw.uca.es/pluginfile.php/1485/mod_resource/content/1/1984.pdf  

25  

Shingles  vs  teatro  

En  el  ejemplo  del  análisis  semán/co  de  La  gaviota  de  Antón  Chejov  (18.208  palabras)  vemos  que  podemos  analizar  tanto  un  corpus  entero  como  partes  relevantes  de  la  estructura  por  separado  (los  actos  por  ejemplo)  

Acto  1  

Acto  4  

URL:SMP/    h"p://www.edu.mec.gub.uy/biblioteca_digital/libros/c/Chejov,%20Anton%20-­‐%20La%20gaviota.pdf  

26  

N-­‐grams  de  Google  

Google  ha  puesto  en  marcha  en  2010,  una  herramienta  de  análisis  por  N-­‐grams  (equivalentes  a  Shingles)  para  visualizar  datos  estadís/cos  en  base  a  su  corpus  de  libros  de  Google  Books  (la  base  de  datos  se  puede  descargar  en  23  idiomas  diferentes  y  cubre  los  años  1800  a  2008).    

Fuente:  h"ps://books.google.com/ngrams  

27  

Con  wildcard  (*)  

Fuente:  h"ps://books.google.com/ngrams  

28  

A  evitar    

irrelevancia  

Incluir  palabras  que  ocultan  la  

temá1ca  

Redactar  sin  conocer  la  temá1ca  

Usar  un  lenguaje  ambiguo  

Omi1r  palabras  singulares  de  la  

temá1ca    

Pedir  la  redacción  de  

textos  a  personas  que  no  son  

na1vos  del  país  

Recapitulamos  

30  

Análisis  de  contenido  on  page  

Fuente:  SMP/  h"p://periodismodatos.okfn.es/  -­‐  99.681  palabras  incluyendo  código  fuente  

31  

Análisis  de  e1quetas  SEO  

Fuente:  SMP/  h"p://periodismodatos.okfn.es/  -­‐  solo  eAquetas  SEO  

32  

Análisis  de  textos  de  enlaces  

Fuente:  SMP/  h"p://periodismodatos.okfn.es/  -­‐  solo  textos  de  enlaces  

33  

Análisis  de  pagina  de  inicio/  MD  Cospedal  

Fuente:  h"ps://presidentacospedal.com/  

34  

Análisis  de  pagina  de  inicio/  Pedro  Sánchez  

Fuente:  h"p://sanchezcastejon.es/  

35  

Shingles/  Web  de  María  Dolores  de  Cospedal  

Fuente:  SMP/  h"ps://presidentacospedal.com/  

Mis  ideas  

Realidades  

Pagina  de  inicio  

36  

Shingles/  web  de  Pedro  Sánchez  

Fuente:  SMP/  h"p://sanchezcastejon.es/  

Pagina  de  inicio  

Herramientas  

38  

Herramientas  gra1s/  extensiones  (ejemplos)  

Crawl  Xenu  Site  orbiter    

Análisis  on  page  Web  developer  Firebug  SEO  quake    

Análisis  de  los  SERPs    SEO  quake    

Performance  Pagespeed  Yslow  Webpage  test  

 

39  

Herramientas  de  pago  (lista  no  exhaus/va)  

Shingles  SMP  

 Creación  de  textos  op1mizados  Master  spin  

 Crawl/  análisis  de  logs  Advanced  SEO  toolbox  (ATB)  Bo/fy  Harobaz  Screaming  frog  (sin  logs)    

Análisis  de  los  SERPs    Advanced  SEO  toolbox  (ATB)  

Conclusiones  

41  

Sugerencias  

Siempre  pensar  en  términos  de  con1nuidad  semán1ca  

Rodear  las  páginas  existentes  de  contenidos  con  una  relación  estrecha,  y  ampliar  

progresivamente  

Contextualizar  con  la  técnica  del  comunicado  de  prensa  (Quién,  qué,  dónde,  

cómo,  por  qué)  

Adquirir  o  desarrollar  una  herramienta  de  

cálculo  de  similaridad  para  evitar  malas  sorpresas  

Siempre  monitorizar  los  resultados  en  los  buscadores  en  base  a  un  corpus  de  calidad  para  

sacar  conclusiones  

Anexos  

43  

Shingles/  periódicos  españoles  

Fuente:  SMP/  Paginas  de  inicio  de  periodicos  y  radio  el  03/06/2015  

Pagina  de  inicio/  Elconfidencial.com  

Pagina  de  inicio/  Eldiario.es  

Pagina  de  inicio/  Elmundo.es  

Pagina  de  inicio/  Elpais.com  

Pagina  de  inicio/  Marca.com  

44  

Shingles/  radios  españolas  

Fuente:  SMP/  Paginas  de  inicio  de  periodicos  y  radio  el  03/06/2015  

Pagina  de  inicio/  Cadenaser.com  

Pagina  de  inicio/  RTVE.es  

45  

Shingles/  New  York  Times  

Fuente:  SMP/  Paginas  de  inicio  de  periodicos  y  radio  el  03/06/2015  

Pagina  de  inicio/  Ny/mes.com  

Pagina  Opinions  

Gracias  a  Guillaume  Peyronnet  Sara  Delgado  Manso  Hafid  Mermouri      

www.crawlerzone.com