willian_w4a_presentation

35
FACILITA: READING ASSISTANCE FOR THE FUNCTIONALLY ILLITERATE ADAPTING WEB CONTENT FOR LOW- LITERACY READERS BY USING LEXICAL ELABORATION AND NAMED ENTITIES LABELLING Willian Massami Watanabe, Arnaldo Candido Jr., Marcelo A. Amâncio, Matheus de Oliveira, Thiago A. S. Pardo, Renata P . M. Fortes and Sandra M. Aluísio 1 W4A 2010 - Raleigh - North Carolina

Upload: universidade-de-sao-paulo

Post on 28-Nov-2014

482 views

Category:

Education


0 download

DESCRIPTION

Presentation of both works: Facilita: reading assistance for the functionally illiterate and Adapting Web Content by Using Lexical Elaboration and Named Entities Labeling. Presented on W4A 2010 by Willian Massami Watanabe.

TRANSCRIPT

Page 1: Willian_W4A_presentation

FACILITA: READING ASSISTANCE FOR THE FUNCTIONALLY ILLITERATE

ADAPTING WEB CONTENT FOR LOW-LITERACY READERS BY USING LEXICAL ELABORATION AND NAMED ENTITIES

LABELLING

Willian Massami Watanabe, Arnaldo Candido Jr.,Marcelo A. Amâncio, Matheus de Oliveira,Thiago A. S. Pardo, Renata P. M. Fortes and

Sandra M. Aluísio

1

W4A 2010 - Raleigh - North Carolina

Page 2: Willian_W4A_presentation

ACKNOWLEDGEMENTS

CAPES, FAPESP, Microsoft Research (MSR), Google and the PorSimples project team

2

Page 3: Willian_W4A_presentation

AGENDA

•Brazilian Context

•PorSimples project

•Facilita

•Educational Facilita

•Future Works3

Page 4: Willian_W4A_presentation

BRAZILIAN CONTEXT

4

Page 5: Willian_W4A_presentation

BRAZILIAN CONTEXT

10% illiterate (IBGE, 2009)

90%

10%

Illiterate Literate

2008

5

Page 6: Willian_W4A_presentation

BRAZILIAN CONTEXT

21% functionally illiterate (IBGE, 2009)

79%

21%

Functionally Illiterate Literate

2008

6

Page 7: Willian_W4A_presentation

WEB ACCESSIBILITY

Difficulties in reading

Users

7

Page 8: Willian_W4A_presentation

WEB ACCESSIBILITY

Difficulties in reading

Users

Accessibility barriers to the functionally

illiterate8

Page 9: Willian_W4A_presentation

PORSIMPLES PROJECT

9

Page 10: Willian_W4A_presentation

PORSIMPLES PROJECT

User Web contentAssistive technologies

Automatic textual content adaptation

10

NLP

Page 11: Willian_W4A_presentation

PORSIMPLES PROJECT

Automatic textual content adaptation

11

• Automatic Summarization

• Syntactic Simplification

• Lexical Elaboration

• Named Entities Recognition and pos-classification

NLP

Page 12: Willian_W4A_presentation

PORSIMPLES PROJECT

Automatic textual content adaptation

12

NLP

FacilitaEducational

Facilita

Page 13: Willian_W4A_presentation

FACILITA

13

http://vinho.intermidia.icmc.usp.br :3001

Page 14: Willian_W4A_presentation

Automatic textual content adaptation

14

• Automatic Summarization

• Syntactic Simplification

• Lexical Elaboration

• Named Entities Recognition and pos-classification

NLP

FACILITA

Page 15: Willian_W4A_presentation

15

FACILITA

O começo deste verão é o mais abrasador dos últimos 11 anos no Rio Grande do Sul. As médias de temperatura máxima oscilam entre 28°C e 34°C nas diferentes regiões do Estado, chegando a alcançar três graus acima dos padrões históricos. A escassez de chuva - as precipitações passageiras registradas esta semana não foram suficientes para resfriar a atmosfera por muito tempo-, o fenômeno El Niño e o processo de aquecimento global ajudam a explicar o calorão gaúcho. Embora temperaturas próximas a 40°C sejam comuns no verão rio-grandense, a temporada 2006/2007 conquistou um lugar na História. Conforme mapas climatológicos do Centro de Previsão de Tempo e Estudos Climáticos (Cptec), ligado ao Instituto Nacional de Pesquisas Espaciais (Inpe), desde 1995 a média dos picos diários de calor não era tão elevada em dezembro. Esse padrão se manteve no início de janeiro, tornando tórridos os primeiros dias do ano. Dia 17, por exemplo, Campo Bom registrou 40,8°C - apenas 1,8 abaixo do recorde gaúcho. Uma das razões apontadas para o Sul arder com as altas temperaturas é a falta de chuvas intensas e freqüentes. As frentes frias passam pelo Estado, provocam chuvas passageiras e acabam concentrando a precipitação na Região Sudeste. - Esse é um padrão para esta época, mas este ano está mais intenso. Como chove mais no Sudeste, falta umidade aqui. Isso faz com que sopre mais vento quente do Norte e aumente ainda mais a temperatura - avalia Flávio Varone, do 8o Distrito de Meteorologia. O meteorologista do Cptec Lincoln Alves afirma que ventos na alta atmosfera estão soprando com menor intensidade do Pacífico Sul rumo ao Brasil, o que estaria contribuindo para as frentes frias passarem rapidamente. - Ou elas passam de forma muito rápida ou se deslocam por sobre o Atlântico - explica. A ocorrência atual de um fenômeno El Niño (aquecimento das águas do Pacífico) de intensidade moderada também estaria favorecendo a elevação dos termômetros. - O verão deve ser mais quente devido ao El Niño. O curioso é que ele deveria aumentar a chuva no Sul, o que amenizaria o calor, mas isso não está ocorrendo. Em 2004, aconteceu a mesma coisa, não sabemos por quê - diz o pesquisador do Inpe Carlos Nobre, especialista em mudanças climáticas e meteorologia tropical. Para Flávio Varone, a explicação pode estar no fato de que os efeitos do El Niño são mais marcantes na primavera do que no verão. A inconsistência climática abre espaço para conjecturas sobre o papel do aquecimento global na atmosfera gaúcha. Segundo o pesquisador Carlos Nobre, o gradual aumento do calor não pode ser responsabilizado por mudanças bruscas no clima, como variações de um ano para outro, por se tratar de um processo lento e gradual. Nos últimos 50 anos, a temperatura média aumentou 0,7 grau no Brasil. A mudança progressiva pode influenciar indiretamente uma maior incidência de fenômenos como ondas de calor, tempestades e secas. - Não podemos eliminar a possibilidade de que o aumento da variabilidade climática seja um primeiro sintoma do aquecimento global. Isso significa secas mais freqüentes, como as que vêm ocorrendo no Rio Grande do Sul, e ondas de calor ou de frio fora do normal - diz Nobre.

O começo deste verão é o mais abrasador dos últimos 11 anos no Rio Grande do Sul . As médias de temperatura máxima oscilam entre 28 ° C e 34 ° C nas diferentes regiões do Estado , chegando a alcançar três graus acima dos padrões históricos . Embora temperaturas próximas a 40 ° C sejam comuns no verão rio-grandense , a temporada 2006 /2007 conquistou um lugar na História .Conforme mapas climatológicos do Centro de Previsão de Tempo e Estudos Climáticos ( Cptec ) , ligado ao Instituto Nacional de Pesquisas Espaciais( Inpe ) , desde 1995 a média dos picos diários de calor não era tão elevada em dezembro . Dia 17 , por exemplo , Campo Bom registrou 40,8 ° C- apenas 1,8 abaixo do recorde gaúcho . As frentes frias passam pelo Estado , provocam chuvas passageiras e acabam concentrando a precipitação na Região Sudeste . - O verão deve ser mais quente devido ao El Ni ño .

Automatic Summarization

Page 16: Willian_W4A_presentation

16

FACILITA

Automatic Summarization

• EPC-R (Keyword Extraction by Stem Frequency)

•Precision rates

•Not time consuming

Page 17: Willian_W4A_presentation

17

FACILITA

Syntactic Simplification

Queiroz became crazy as he was very exalted.

Queiroz was very exalted. Thus, Queiroz became crazy.

Page 18: Willian_W4A_presentation

18

FACILITA

Syntactic Simplification

Queiroz became crazy as he was very exalted.

Queiroz was very exalted. Thus, Queiroz became crazy.

Effect

Effect

Cause

Cause

Page 19: Willian_W4A_presentation

19

FACILITA

Syntactic Simplification

• Sentence splitting• Change of discourse markers• Change for the active voice• Inversion of clause order• Subject-Verb-Object order• Topicalization and de-topicalization

Page 20: Willian_W4A_presentation

20

FACILITA

Page 21: Willian_W4A_presentation

21

FACILITA

Page 22: Willian_W4A_presentation

22

FACILITA

Page 23: Willian_W4A_presentation

23

FACILITA

Page 24: Willian_W4A_presentation

EDUCATIONAL FACILITA

24

http://vinho.intermidia.icmc.usp.br/watinha/Educational-Facilita

Page 25: Willian_W4A_presentation

Automatic textual content adaptation

25

• Automatic Summarization

• Syntactic Simplification

• Lexical Elaboration

• Named Entities Recognition and pos-classification

NLP

EDUCATIONAL FACILITA

Page 26: Willian_W4A_presentation

26

EDUCATIONAL FACILITALexical Elaboration

Text Complex words markup

Synonyms presentation

• Tagger• Lemma extraction• Simple words dictionary

• BP Thesaurus Search

Page 27: Willian_W4A_presentation

27

EDUCATIONAL FACILITANamed Entities Recognition and Pos-classification

Page 28: Willian_W4A_presentation

28

EDUCATIONAL FACILITA

Page 29: Willian_W4A_presentation

29

EDUCATIONAL FACILITA

Page 30: Willian_W4A_presentation

30

EDUCATIONAL FACILITA

Page 31: Willian_W4A_presentation

31

EDUCATIONAL FACILITA

Page 32: Willian_W4A_presentation

32

FUTURE WORKS

Page 33: Willian_W4A_presentation

33

FUTURE WORKS

• Educational Facilita development

• Performance issues

• Evaluation of Facilita and Educational Facilita

Page 34: Willian_W4A_presentation

34

REFERENCES

• A. P. Freire, C. M. Russo e R. P. De Mattos Fortes. Perception of accessibility in web development by academy, industry and goverment: a survey of the brazilian scenario. New Review of Hypermedia and Multimedia, 14(2):149-175, December 2008

• W3C. Web content accessibility guidelines (wcag) 2.0. W3C Recommendation, December 2008. Available at: http://www.w3.org/tr/wcag20.

• I. P. Montenegro and A. Educativa. INAF Brasil - Indicador de Analfabetismo Funcional, 2009. Available at: http://www.ibope.com.br/ipm/relatorios/relatorio_inaf_2009.pdf.

• IBGE - Instituto Brasileiro de Geografia. Síntese dos Indicadores Sociais - Uma Análise das Condições de Vida. 2009. Available at: http://www.ibge.gov.br/home/estatistica/populacao/condicaodevida/indicadoresminimos/sinteseindicsociais2009/indic_sociais2009.pdf.

Page 35: Willian_W4A_presentation

35

QUESTIONS ?

W4A 2010 - Raleigh - North Carolina