recuperação de informação: atribuindo valores,...
TRANSCRIPT
![Page 1: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/1.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Recuperacao de Informacao: Atribuindo valores,
avaliando termos e o modelo de espaco vetorial
Marcelo Keese Albertini
Faculdade de Computacao - UFU
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 1 / 29
![Page 2: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/2.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Indice
1 Porque recuperacao ordenada?
2 Frequencia de termos
3 Peso tf-idf
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 2 / 29
![Page 3: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/3.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Veremos hoje
Ordenando resultados de busca: importancia (ao inves deapresentar um set desordenado de resultados)
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 3 / 29
![Page 4: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/4.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Veremos hoje
Ordenando resultados de busca: importancia (ao inves deapresentar um set desordenado de resultados)
Frequencia de termos: base da ordenacao de resultados(ranking)
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 3 / 29
![Page 5: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/5.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Veremos hoje
Ordenando resultados de busca: importancia (ao inves deapresentar um set desordenado de resultados)
Frequencia de termos: base da ordenacao de resultados(ranking)
Tf-idf ranking: esquema tradicional de ordenacao
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 3 / 29
![Page 6: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/6.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Outline
1 Porque recuperacao ordenada?
2 Frequencia de termos
3 Peso tf-idf
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 4 / 29
![Page 7: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/7.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Recuperacao ordenada
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 5 / 29
![Page 8: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/8.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Recuperacao ordenada
Ate agora, consultas foram booleanas.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 5 / 29
![Page 9: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/9.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Recuperacao ordenada
Ate agora, consultas foram booleanas.
Documentos sao adequados ou nao para uma consulta
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 5 / 29
![Page 10: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/10.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Recuperacao ordenada
Ate agora, consultas foram booleanas.
Documentos sao adequados ou nao para uma consulta
Bom para usuarios especialistas com conhecimento avancadosobre a colecao
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 5 / 29
![Page 11: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/11.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Recuperacao ordenada
Ate agora, consultas foram booleanas.
Documentos sao adequados ou nao para uma consulta
Bom para usuarios especialistas com conhecimento avancadosobre a colecao
Bom para programas: programas podem processar milhares deresultados
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 5 / 29
![Page 12: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/12.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Recuperacao ordenada
Ate agora, consultas foram booleanas.
Documentos sao adequados ou nao para uma consulta
Bom para usuarios especialistas com conhecimento avancadosobre a colecao
Bom para programas: programas podem processar milhares deresultados
Nao tao bom para usuarios comuns
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 5 / 29
![Page 13: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/13.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Recuperacao ordenada
Ate agora, consultas foram booleanas.
Documentos sao adequados ou nao para uma consulta
Bom para usuarios especialistas com conhecimento avancadosobre a colecao
Bom para programas: programas podem processar milhares deresultados
Nao tao bom para usuarios comuns
Consultas booleanas sao de difıcil escrita (ou muito trabalho)
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 5 / 29
![Page 14: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/14.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Recuperacao ordenada
Ate agora, consultas foram booleanas.
Documentos sao adequados ou nao para uma consulta
Bom para usuarios especialistas com conhecimento avancadosobre a colecao
Bom para programas: programas podem processar milhares deresultados
Nao tao bom para usuarios comuns
Consultas booleanas sao de difıcil escrita (ou muito trabalho)
usuarios nao olham centenas de resultados
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 5 / 29
![Page 15: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/15.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Problemas com busca booleana: tudo ou nada
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 6 / 29
![Page 16: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/16.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Problemas com busca booleana: tudo ou nada
http://www.acervobiblioteca.ufu.br:8000/cgi-bin/gw/chameleon
Muito pouco ou resultados demais
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 6 / 29
![Page 17: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/17.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Problemas com busca booleana: tudo ou nada
http://www.acervobiblioteca.ufu.br:8000/cgi-bin/gw/chameleon
Muito pouco ou resultados demais
Exemplo consulta 1 (conjuncao booleana): [recuperacao ANDinformacao]
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 6 / 29
![Page 18: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/18.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Problemas com busca booleana: tudo ou nada
http://www.acervobiblioteca.ufu.br:8000/cgi-bin/gw/chameleon
Muito pouco ou resultados demais
Exemplo consulta 1 (conjuncao booleana): [recuperacao ANDinformacao]
→ centenas de resultados – demais
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 6 / 29
![Page 19: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/19.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Problemas com busca booleana: tudo ou nada
http://www.acervobiblioteca.ufu.br:8000/cgi-bin/gw/chameleon
Muito pouco ou resultados demais
Exemplo consulta 1 (conjuncao booleana): [recuperacao ANDinformacao]
→ centenas de resultados – demais
Exemplo 2 (conjuncao booleana): [recuperacao ANDinformacao AND aplicacao]
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 6 / 29
![Page 20: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/20.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Problemas com busca booleana: tudo ou nada
http://www.acervobiblioteca.ufu.br:8000/cgi-bin/gw/chameleon
Muito pouco ou resultados demais
Exemplo consulta 1 (conjuncao booleana): [recuperacao ANDinformacao]
→ centenas de resultados – demais
Exemplo 2 (conjuncao booleana): [recuperacao ANDinformacao AND aplicacao]
→ 2 resultados – quase nada
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 6 / 29
![Page 21: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/21.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Problemas com busca booleana: tudo ou nada
http://www.acervobiblioteca.ufu.br:8000/cgi-bin/gw/chameleon
Muito pouco ou resultados demais
Exemplo consulta 1 (conjuncao booleana): [recuperacao ANDinformacao]
→ centenas de resultados – demais
Exemplo 2 (conjuncao booleana): [recuperacao ANDinformacao AND aplicacao]
→ 2 resultados – quase nada
difıcil encontrar boa consulta para obter entre tudo ou nada
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 6 / 29
![Page 22: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/22.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Tudo ou nada: nao e problema com recuperacao ordenada
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 7 / 29
![Page 23: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/23.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Tudo ou nada: nao e problema com recuperacao ordenada
Com ordenacao, numero de resultados e problema
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 7 / 29
![Page 24: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/24.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Tudo ou nada: nao e problema com recuperacao ordenada
Com ordenacao, numero de resultados e problema
Mostra 10 mais relevantes
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 7 / 29
![Page 25: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/25.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Tudo ou nada: nao e problema com recuperacao ordenada
Com ordenacao, numero de resultados e problema
Mostra 10 mais relevantes
Nao sobrecarrega usuario
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 7 / 29
![Page 26: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/26.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Tudo ou nada: nao e problema com recuperacao ordenada
Com ordenacao, numero de resultados e problema
Mostra 10 mais relevantes
Nao sobrecarrega usuario
Premissa: Algoritmo de ranking funciona
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 7 / 29
![Page 27: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/27.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Avaliacao como base de recuperacao ordenada
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 8 / 29
![Page 28: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/28.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Avaliacao como base de recuperacao ordenada
Pontuar mais os documentos mais relevantes a consulta
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 8 / 29
![Page 29: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/29.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Avaliacao como base de recuperacao ordenada
Pontuar mais os documentos mais relevantes a consulta
Atribuir pontuacao em [0, 1] para cada parconsulta-documento
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 8 / 29
![Page 30: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/30.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Avaliacao como base de recuperacao ordenada
Pontuar mais os documentos mais relevantes a consulta
Atribuir pontuacao em [0, 1] para cada parconsulta-documento
Medida que o quao bem um documento e uma consultacombinam
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 8 / 29
![Page 31: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/31.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Pontuando consultas-documentos
Como nos pontuamos um par consulta-documento?
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 9 / 29
![Page 32: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/32.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Pontuando consultas-documentos
Como nos pontuamos um par consulta-documento?
Comecamos com um consulta de um so termo
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 9 / 29
![Page 33: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/33.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Pontuando consultas-documentos
Como nos pontuamos um par consulta-documento?
Comecamos com um consulta de um so termo
Se termo nao ocorre no documento, pontuacao 0
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 9 / 29
![Page 34: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/34.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Pontuando consultas-documentos
Como nos pontuamos um par consulta-documento?
Comecamos com um consulta de um so termo
Se termo nao ocorre no documento, pontuacao 0
Quanto mais frequente o termo no documento, maiorpontuacao
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 9 / 29
![Page 35: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/35.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Pontuando consultas-documentos
Como nos pontuamos um par consulta-documento?
Comecamos com um consulta de um so termo
Se termo nao ocorre no documento, pontuacao 0
Quanto mais frequente o termo no documento, maiorpontuacao
Veremos alternativas
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 9 / 29
![Page 36: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/36.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Alternativa 1: coeficiente de Jaccard
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 10 / 29
![Page 37: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/37.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Alternativa 1: coeficiente de Jaccard
Mede sobreposicao de 2 conjuntos: A e B
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 10 / 29
![Page 38: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/38.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Alternativa 1: coeficiente de Jaccard
Mede sobreposicao de 2 conjuntos: A e B
Coeficiente de Jaccard:
jaccard(A,B) =|A ∩ B |
|A ∪ B |
(A 6= ∅ ou B 6= ∅)
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 10 / 29
![Page 39: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/39.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Alternativa 1: coeficiente de Jaccard
Mede sobreposicao de 2 conjuntos: A e B
Coeficiente de Jaccard:
jaccard(A,B) =|A ∩ B |
|A ∪ B |
(A 6= ∅ ou B 6= ∅)
jaccard(A,A) = 1
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 10 / 29
![Page 40: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/40.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Alternativa 1: coeficiente de Jaccard
Mede sobreposicao de 2 conjuntos: A e B
Coeficiente de Jaccard:
jaccard(A,B) =|A ∩ B |
|A ∪ B |
(A 6= ∅ ou B 6= ∅)
jaccard(A,A) = 1
jaccard(A,B) = 0 se A ∩ B = 0
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 10 / 29
![Page 41: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/41.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Alternativa 1: coeficiente de Jaccard
Mede sobreposicao de 2 conjuntos: A e B
Coeficiente de Jaccard:
jaccard(A,B) =|A ∩ B |
|A ∪ B |
(A 6= ∅ ou B 6= ∅)
jaccard(A,A) = 1
jaccard(A,B) = 0 se A ∩ B = 0
A e B nao tem que ser do mesmo tamanho
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 10 / 29
![Page 42: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/42.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Alternativa 1: coeficiente de Jaccard
Mede sobreposicao de 2 conjuntos: A e B
Coeficiente de Jaccard:
jaccard(A,B) =|A ∩ B |
|A ∪ B |
(A 6= ∅ ou B 6= ∅)
jaccard(A,A) = 1
jaccard(A,B) = 0 se A ∩ B = 0
A e B nao tem que ser do mesmo tamanho
Sempre obtem numero entre 0 e 1
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 10 / 29
![Page 43: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/43.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Exemplo: coeficiente de Jaccard
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 11 / 29
![Page 44: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/44.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Exemplo: coeficiente de Jaccard
Qual e a pontuacao pelo coeficiente de Jaccard para:
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 11 / 29
![Page 45: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/45.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Exemplo: coeficiente de Jaccard
Qual e a pontuacao pelo coeficiente de Jaccard para:
Consulta: “aguas de marco”
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 11 / 29
![Page 46: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/46.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Exemplo: coeficiente de Jaccard
Qual e a pontuacao pelo coeficiente de Jaccard para:
Consulta: “aguas de marco”Documento “Pedro Alvares Cabral chegou nas aguas brasileirasem marco”
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 11 / 29
![Page 47: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/47.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Exemplo: coeficiente de Jaccard
Qual e a pontuacao pelo coeficiente de Jaccard para:
Consulta: “aguas de marco”Documento “Pedro Alvares Cabral chegou nas aguas brasileirasem marco”jaccard(q, d) = 2/10
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 11 / 29
![Page 48: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/48.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Onde Jaccard falha?
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 12 / 29
![Page 49: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/49.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Onde Jaccard falha?
Nao considera frequencia dos termos
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 12 / 29
![Page 50: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/50.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Onde Jaccard falha?
Nao considera frequencia dos termos
Termos raros sao mais informativo que os frequentes
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 12 / 29
![Page 51: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/51.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Onde Jaccard falha?
Nao considera frequencia dos termos
Termos raros sao mais informativo que os frequentes
Jaccard nao usa essa informacao
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 12 / 29
![Page 52: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/52.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Onde Jaccard falha?
Nao considera frequencia dos termos
Termos raros sao mais informativo que os frequentes
Jaccard nao usa essa informacao
Precisamos de modos mais sofisticas de normalizar pelotamanho do documento
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 12 / 29
![Page 53: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/53.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Outline
1 Porque recuperacao ordenada?
2 Frequencia de termos
3 Peso tf-idf
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 13 / 29
![Page 54: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/54.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Matriz de incidencia binaria
Marco Julio A Hamlet Otelo Macbeth . . .Antonio Cesar Tempestade
Antonio 1 1 0 0 0 1Brutus 1 1 0 1 0 0Cesar 1 1 0 1 1 1Calpurnia 0 1 0 0 0 0Cleopatra 1 0 0 0 0 0. . .
Cada documento e representado como um vetor binario ∈ {0, 1}|V |.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 14 / 29
![Page 55: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/55.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Matriz de incidencia binaria
Marco Julio A Hamlet Otelo Macbeth . . .Antonio Cesar Tempestade
Antonio 1 1 0 0 0 1Brutus 1 1 0 1 0 0Cesar 1 1 0 1 1 1Calpurnia 0 1 0 0 0 0Cleopatra 1 0 0 0 0 0. . .
Cada documento e representado como um vetor binario ∈ {0, 1}|V |.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 14 / 29
![Page 56: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/56.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Matriz de contagem
Marco Julio A Hamlet Otelo Macbeth . . .Antonio Cesar Tempestade
Antonio 157 73 0 0 0 1Brutus 4 157 0 2 0 0Cesar 232 227 0 2 1 0Calpurnia 0 10 0 0 0 0Cleopatra 57 0 0 0 0 0. . .
Cada documento e representado como vetor de contagem ∈ N|V |.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 15 / 29
![Page 57: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/57.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Matriz de contagem
Marco Julio A Hamlet Otelo Macbeth . . .Antonio Cesar Tempestade
Antonio 157 73 0 0 0 1Brutus 4 157 0 2 0 0Cesar 232 227 0 2 1 0Calpurnia 0 10 0 0 0 0Cleopatra 57 0 0 0 0 0. . .
Cada documento e representado como vetor de contagem ∈ N|V |.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 15 / 29
![Page 58: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/58.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Modelo Bag of words / colecao de palavras
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 16 / 29
![Page 59: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/59.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Modelo Bag of words / colecao de palavras
Desconsidera ordem dos termos em um documento.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 16 / 29
![Page 60: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/60.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Modelo Bag of words / colecao de palavras
Desconsidera ordem dos termos em um documento.
Joao e mais rapido que Jose tem mesma representacao queJose e mais rapido que Joao
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 16 / 29
![Page 61: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/61.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Modelo Bag of words / colecao de palavras
Desconsidera ordem dos termos em um documento.
Joao e mais rapido que Jose tem mesma representacao queJose e mais rapido que Joao
Isso e chamado de modelo bag of words.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 16 / 29
![Page 62: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/62.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Modelo Bag of words / colecao de palavras
Desconsidera ordem dos termos em um documento.
Joao e mais rapido que Jose tem mesma representacao queJose e mais rapido que Joao
Isso e chamado de modelo bag of words.
Seguiremos com mais detalhes do modelo bag of words.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 16 / 29
![Page 63: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/63.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia de termo tf
A frequencia de termo tft,d do termo t no documento d edefinido como numero de vezes que t ocorre em d .
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 17 / 29
![Page 64: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/64.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia de termo tf
A frequencia de termo tft,d do termo t no documento d edefinido como numero de vezes que t ocorre em d .
Queremos usar tf para pontuar combinacaoconsulta-documento.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 17 / 29
![Page 65: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/65.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia de termo tf
A frequencia de termo tft,d do termo t no documento d edefinido como numero de vezes que t ocorre em d .
Queremos usar tf para pontuar combinacaoconsulta-documento.
Como?
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 17 / 29
![Page 66: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/66.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia de termo tf
A frequencia de termo tft,d do termo t no documento d edefinido como numero de vezes que t ocorre em d .
Queremos usar tf para pontuar combinacaoconsulta-documento.
Como?
Somente frequencia nao e bom porque:
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 17 / 29
![Page 67: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/67.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia de termo tf
A frequencia de termo tft,d do termo t no documento d edefinido como numero de vezes que t ocorre em d .
Queremos usar tf para pontuar combinacaoconsulta-documento.
Como?
Somente frequencia nao e bom porque:
Um documento com tf = 10 ocorrencias de um termo e maisrelevante que um documento com apenas uma ocorrenciatf = 1.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 17 / 29
![Page 68: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/68.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia de termo tf
A frequencia de termo tft,d do termo t no documento d edefinido como numero de vezes que t ocorre em d .
Queremos usar tf para pontuar combinacaoconsulta-documento.
Como?
Somente frequencia nao e bom porque:
Um documento com tf = 10 ocorrencias de um termo e maisrelevante que um documento com apenas uma ocorrenciatf = 1.
Mas nao 10 vezes mais relevante
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 17 / 29
![Page 69: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/69.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia de termo tf
A frequencia de termo tft,d do termo t no documento d edefinido como numero de vezes que t ocorre em d .
Queremos usar tf para pontuar combinacaoconsulta-documento.
Como?
Somente frequencia nao e bom porque:
Um documento com tf = 10 ocorrencias de um termo e maisrelevante que um documento com apenas uma ocorrenciatf = 1.
Mas nao 10 vezes mais relevante
Relevancia nao aumenta proporcionalmente com a frequenciado termo.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 17 / 29
![Page 70: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/70.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia de termo tf
A frequencia de termo tft,d do termo t no documento d edefinido como numero de vezes que t ocorre em d .
Queremos usar tf para pontuar combinacaoconsulta-documento.
Como?
Somente frequencia nao e bom porque:
Um documento com tf = 10 ocorrencias de um termo e maisrelevante que um documento com apenas uma ocorrenciatf = 1.
Mas nao 10 vezes mais relevante
Relevancia nao aumenta proporcionalmente com a frequenciado termo.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 17 / 29
![Page 71: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/71.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Em vez de frequencia: log da frequencia
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 18 / 29
![Page 72: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/72.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Em vez de frequencia: log da frequencia
O log da frequencia do termo t em d e definido:
wt,d =
{
1 + log10 tft,d if tft,d > 00 caso contrario
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 18 / 29
![Page 73: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/73.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Em vez de frequencia: log da frequencia
O log da frequencia do termo t em d e definido:
wt,d =
{
1 + log10 tft,d if tft,d > 00 caso contrario
tft,d → wt,d :0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4 etc.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 18 / 29
![Page 74: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/74.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Em vez de frequencia: log da frequencia
O log da frequencia do termo t em d e definido:
wt,d =
{
1 + log10 tft,d if tft,d > 00 caso contrario
tft,d → wt,d :0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4 etc.
Pontuacao para um par consulta documento: soma emrelacao a termos t em q e d :pontuacao-tf(q, d) =
∑
t∈q∩d(1 + log tft,d)
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 18 / 29
![Page 75: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/75.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Em vez de frequencia: log da frequencia
O log da frequencia do termo t em d e definido:
wt,d =
{
1 + log10 tft,d if tft,d > 00 caso contrario
tft,d → wt,d :0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4 etc.
Pontuacao para um par consulta documento: soma emrelacao a termos t em q e d :pontuacao-tf(q, d) =
∑
t∈q∩d(1 + log tft,d)
A pontuacao e 0 se nenhum dos termos esta presente nodocumento.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 18 / 29
![Page 76: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/76.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Exercıcio
Calcular a pontuacao de Jaccard e pontuacao de tf para ospares consulta-documento:
q: [informacao sobre carros] d: “tudo o que voce sempre quissaber sobre carros”
q: [informacao sobre carros] d: “informacao sobre caminhoes,informacao sobre avioes, informacao sobre trens”
q: [carros verdes e caminhoes verdes] d: “a polıcia paracarros verdes mais frequentemente”
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 19 / 29
![Page 77: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/77.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Outline
1 Porque recuperacao ordenada?
2 Frequencia de termos
3 Peso tf-idf
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 20 / 29
![Page 78: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/78.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia no documento vs. frequencia na colecao
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 21 / 29
![Page 79: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/79.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia no documento vs. frequencia na colecao
frequencia de termo no documento
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 21 / 29
![Page 80: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/80.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia no documento vs. frequencia na colecao
frequencia de termo no documento
frequencia na colecao
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 21 / 29
![Page 81: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/81.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso desejado para termos raros
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 22 / 29
![Page 82: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/82.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso desejado para termos raros
Termos raros sao mais informativos
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 22 / 29
![Page 83: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/83.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso desejado para termos raros
Termos raros sao mais informativos
Considere um termo em uma consulta que e raro na colecao,e.g. estoicismo
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 22 / 29
![Page 84: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/84.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso desejado para termos raros
Termos raros sao mais informativos
Considere um termo em uma consulta que e raro na colecao,e.g. estoicismo
Um documento com esse termo e muito provavelmenterelevante
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 22 / 29
![Page 85: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/85.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso desejado para termos raros
Termos raros sao mais informativos
Considere um termo em uma consulta que e raro na colecao,e.g. estoicismo
Um documento com esse termo e muito provavelmenterelevante
→ Nos queremos pesos altos para termos raros
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 22 / 29
![Page 86: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/86.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso desejado para termos raros
Termos raros sao mais informativos
Considere um termo em uma consulta que e raro na colecao,e.g. estoicismo
Um documento com esse termo e muito provavelmenterelevante
→ Nos queremos pesos altos para termos raros
→ Nos queremos pesos baixos para termos frequentes
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 22 / 29
![Page 87: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/87.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso idf
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 23 / 29
![Page 88: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/88.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso idf
dft e a frequencia no documento, o numero de documentosem que t aparece
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 23 / 29
![Page 89: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/89.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso idf
dft e a frequencia no documento, o numero de documentosem que t aparece
dft e uma medida inversa da informacao do termo t
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 23 / 29
![Page 90: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/90.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso idf
dft e a frequencia no documento, o numero de documentosem que t aparece
dft e uma medida inversa da informacao do termo t
Define-se peso idf do termo t como segue:
idft = log10N
dft
(N e o numero de documentos na colecao.)
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 23 / 29
![Page 91: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/91.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso idf
dft e a frequencia no documento, o numero de documentosem que t aparece
dft e uma medida inversa da informacao do termo t
Define-se peso idf do termo t como segue:
idft = log10N
dft
(N e o numero de documentos na colecao.)
idft e a medida de de informacao do termo
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 23 / 29
![Page 92: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/92.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso idf
dft e a frequencia no documento, o numero de documentosem que t aparece
dft e uma medida inversa da informacao do termo t
Define-se peso idf do termo t como segue:
idft = log10N
dft
(N e o numero de documentos na colecao.)
idft e a medida de de informacao do termo
[logN/dft ] em vez de [N/dft ] para amenizar o efeito de idf
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 23 / 29
![Page 93: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/93.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso idf
dft e a frequencia no documento, o numero de documentosem que t aparece
dft e uma medida inversa da informacao do termo t
Define-se peso idf do termo t como segue:
idft = log10N
dft
(N e o numero de documentos na colecao.)
idft e a medida de de informacao do termo
[logN/dft ] em vez de [N/dft ] para amenizar o efeito de idf
note que usa-se log para ambos termos de frequencia determos e de documentos
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 23 / 29
![Page 94: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/94.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Examplos de idf
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 24 / 29
![Page 95: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/95.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Examplos de idf
Calcular idft usando a formula: idft = log101,000,000
dft
termo dft idftcalpurnia 1animal 100domingo 1000voar 10,000sobre 100,000o 1,000,000
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 24 / 29
![Page 96: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/96.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Examplos de idf
Calcular idft usando a formula: idft = log101,000,000
dft
termo dft idftcalpurnia 1animal 100domingo 1000voar 10,000sobre 100,000o 1,000,000
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 24 / 29
![Page 97: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/97.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Examplos de idf
Calcular idft usando a formula: idft = log101,000,000
dft
termo dft idftcalpurnia 1 6animal 100 4domingo 1000 3voar 10,000 2sobre 100,000 1o 1,000,000 0
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 24 / 29
![Page 98: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/98.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Efeito de idf no ranking
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 25 / 29
![Page 99: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/99.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Efeito de idf no ranking
idf influencia quando ha pelo menos 2 termos
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 25 / 29
![Page 100: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/100.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Efeito de idf no ranking
idf influencia quando ha pelo menos 2 termos
Por exemplo, na consulta “estoicismo antigo”, peso idfaumenta o peso relativo de estoicismo e reduz peso relativode antigo.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 25 / 29
![Page 101: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/101.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Efeito de idf no ranking
idf influencia quando ha pelo menos 2 termos
Por exemplo, na consulta “estoicismo antigo”, peso idfaumenta o peso relativo de estoicismo e reduz peso relativode antigo.
idf tem pouco efeito em consultas com um termo.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 25 / 29
![Page 102: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/102.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia na colecao vs. frequencia no documento
termo frequencia na colecao frequencia no documento
seguro 10440 3997tentar 10422 8760
Frequencia na colecao de t: numero de t na colecao
Frequencia no documento de t: numero de documentos emque t ocorre
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 26 / 29
![Page 103: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/103.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia na colecao vs. frequencia no documento
termo frequencia na colecao frequencia no documento
seguro 10440 3997tentar 10422 8760
Frequencia na colecao de t: numero de t na colecao
Frequencia no documento de t: numero de documentos emque t ocorre
Qual termo e melhor como termo de busca (e deve ter pesomaior?)
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 26 / 29
![Page 104: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/104.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Frequencia na colecao vs. frequencia no documento
termo frequencia na colecao frequencia no documento
seguro 10440 3997tentar 10422 8760
Frequencia na colecao de t: numero de t na colecao
Frequencia no documento de t: numero de documentos emque t ocorre
Qual termo e melhor como termo de busca (e deve ter pesomaior?)
Este exemplo sugere que df (e idf) e melhor como peso que cf(e “icf”)
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 26 / 29
![Page 105: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/105.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso tf-idf
O peso tf-idf de um termo e o produto de peso tf e seu pesoidf.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 27 / 29
![Page 106: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/106.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso tf-idf
O peso tf-idf de um termo e o produto de peso tf e seu pesoidf.
wt,d = (1 + log tft,d) · logN
dft
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 27 / 29
![Page 107: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/107.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso tf-idf
O peso tf-idf de um termo e o produto de peso tf e seu pesoidf.
wt,d = (1 + log tft,d) · logN
dft
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 27 / 29
![Page 108: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/108.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso tf-idf
O peso tf-idf de um termo e o produto de peso tf e seu pesoidf.
wt,d = (1 + log tft,d) · logN
dft
peso tf
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 27 / 29
![Page 109: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/109.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso tf-idf
O peso tf-idf de um termo e o produto de peso tf e seu pesoidf.
wt,d = (1 + log tft,d) · logN
dft
peso idf
Esquema bastante conhecido em RI.
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 27 / 29
![Page 110: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/110.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Peso tf-idf
O peso tf-idf de um termo e o produto de peso tf e seu pesoidf.
wt,d = (1 + log tft,d) · logN
dft
Esquema bastante conhecido em RI.
Outros nomes: tf.idf, tf x idf
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 27 / 29
![Page 111: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/111.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Resumo: tf-idf
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 28 / 29
![Page 112: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/112.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Resumo: tf-idf
Atribuir peso tf-idf para cada termo t em cada documento d :wt,d = (1 + log tft,d) · log
N
dft
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 28 / 29
![Page 113: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/113.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Resumo: tf-idf
Atribuir peso tf-idf para cada termo t em cada documento d :wt,d = (1 + log tft,d) · log
N
dftO peso tf-idf . . .
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 28 / 29
![Page 114: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/114.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Resumo: tf-idf
Atribuir peso tf-idf para cada termo t em cada documento d :wt,d = (1 + log tft,d) · log
N
dftO peso tf-idf . . .
. . . aumenta com o numero de ocorrencia em um documento.(frequencia do termo)
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 28 / 29
![Page 115: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/115.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Resumo: tf-idf
Atribuir peso tf-idf para cada termo t em cada documento d :wt,d = (1 + log tft,d) · log
N
dftO peso tf-idf . . .
. . . aumenta com o numero de ocorrencia em um documento.(frequencia do termo). . . aumenta com a raridade do termo na colecao. (frequenciaem document inversa)
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 28 / 29
![Page 116: Recuperação de Informação: Atribuindo valores, …albertini/1sem2013/ori/slides/06score...Atribuindo valores, avaliando termos e o modelo de espa¸co vetorial 6 / 29 Porque recupera¸c˜ao](https://reader030.vdocuments.site/reader030/viewer/2022040618/5f285e8f6dae825dd2768984/html5/thumbnails/116.jpg)
Porque recuperacao ordenada? Frequencia de termos Peso tf-idf
Exercıcio: frequencia de termo, colecao and documento
Quantidade Sımbolo Definicao
frequencia de termo tft,d numero de ocorrencia de t emd
frequencia de documentos dft numero de documentos nacolecao em que t ocorre
frequencia de colecao cft numero total de ocorrencias det na colecao occurrences of t inthe collection
Relacao entre df e cf?
Relacao entre tf e cf?
Relacao entre tf e df?
Atribuindo valores, avaliando termos e o modelo de espaco vetorial 29 / 29