estatística e modelos probabilísticos - coe241

39
Rosa Leão - 2016 Estatística e Modelos Estatística e Modelos Probabilísticos - Probabilísticos - COE241 COE241 Rosa M. M. Leão Segundo semestre de 2016 UFRJ - COPPE Programa de Engenharia de Sistemas e Computação

Upload: doankien

Post on 07-Jan-2017

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Estatística e Modelos Estatística e Modelos Probabilísticos - Probabilísticos - COE241COE241

Rosa M. M. Leão

Segundo semestre de 2016

UFRJ - COPPEPrograma de Engenharia de Sistemas

e Computação

Page 2: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

O que é probabilidade e O que é probabilidade e estatística ?estatística ?

Por que é importante ?Por que é importante ?

Page 3: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Definição:

É o estudo das regras matemáticas que governam os eventos aleatórios

O que é aleatoriedade ?

Informalmente, um evento aleatório é um evento que não sabemos o resultado sem observá-lo

A probabilidade nos fornece informações sobre estes eventos

O que é probabilidade ?O que é probabilidade ?

Page 4: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Definição:

Estatística é a aplicação da probabilidade para coleta e análise de dados aleatórios

Estatística é usada para:

Projetar experimentos

Explorar/analisar dados complexos

Tirar conclusões a partir de análise de dados

O que é estatística ?O que é estatística ?

Page 5: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Aplicações de probabilidade e Aplicações de probabilidade e estatística ?estatística ?

Page 6: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Aplicações de probabilidade e Aplicações de probabilidade e estatística ?estatística ?

Page 7: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

O que é big data analytics ?O que é big data analytics ?

Big data analytics is the process of examining large data sets to uncover hidden patterns, unknown correlations, market trends, customer preferences, etc.

The primary goal of big data analytics is to help companies make more informed decisions by enabling data scientists, predictive modelers to analyze large volumes of data.

It includes Web server logs and Internet data, social media content and social network activity reports, text from customer emails and survey responses, mobile-phone call detail records and machine data captured by sensors connected to the Internet of Things.

Page 8: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Page 9: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Mo Zhou was snapped up by I.B.M. last summer, as a freshly minted Yale M.B.A., to join the technology company’s fast-growing ranks of data consultants. They help businesses make sense of an explosion of data.

To exploit the data flood, America will need many more like her. A report last year by the McKinsey Global Institute, the research arm of the consulting firm, projected that the United States needs 140,000 to 190,000 more workers with “deep analytical” expertise.

Page 10: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

At the World Economic Forum last month in Davos, Switzerland, Big Data was a marquee topic. A report by the forum, “Big Data, Big Impact,” declared data a new class of economic asset, like currency or gold.

The wealth of new data accelerates advances in computing — a virtuous circle of Big Data. Machine-learning algorithms, for example, learn on data, and the more data, the more the machines learn.

Take Siri, the talking, question-answering application in iPhones, which Apple introduced last fall. Now, with people supplying millions of questions, Siri is becoming an increasingly adept personal assistant, offering reminders, weather reports, restaurant suggestions and answers to an expanding universe of questions.

Page 11: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Page 12: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Agências de todo o mundo, inclusive do Brasil, reorganizam-se para processar terabytes de dados em tempo real na busca pelo consumidor certo, na hora certa.

Pouco tempo atrás, agências dependiam de intermediários na indústria de internet (sobretudo a Google) para explorar essas informações. A mudança de agora é que firmas de publicidade estão se transformando em verdadeiras start-ups, contratando cientistas e desenvolvendo softwares.

Page 13: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

A segunda maior agência em operação no Brasil, a Ogilvy, emprega 20 profissionais na criação de modelos matemáticos para orientar suas estratégias. Em vez de publicitários, muitos são estatísticos e matemáticos. Cabe a eles analisar informações como a audiência de sites, o desempenho de propagandas já veiculadas na internet, comentários em redes sociais etc.

A tendência dá à luz empresas exclusivamente dedicadas à analise de dados para o setor de marketing. Um exemplo é a R18, cujos softwares monitoram redes sociais para saber o que vem sendo dito sobre clientes e qual o potencial de um conceito publicitário junto ao público.

Page 14: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Yet data is merely the raw material of knowledge. “We’re rapidly entering a world where everything can be monitored and measured,” said Erik Brynjolfsson, an economist and director of the Massachusetts Institute of Technology’s Center for Digital Business. “But the big problem is going to be the ability of humans to use, analyze and make sense of the data.”

Page 15: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Statisticians also caution that strong correlations of data do not necessarily prove a cause-and-effect link.

For example, in the late 1940s, before there was a polio vaccine, public health experts in America noted that polio cases increased in step with the consumption of ice cream and soft drinks, according to David Alan Grier, a historian and statistician at George Washington University. Eliminating such treats was even recommended as part of an anti-polio diet. It turned out that polio outbreaks were most common in the hot months of summer, when people naturally ate more ice cream, showing only an association, Mr. Grier said.

Page 16: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Page 17: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Germany had a 35 percent chance of victory, according to our model. But the 7-1 scoreline was truly shocking.

The Soccer Power Index (SPI) match-predictor gave Germany only a 0.022 percent probability (about one chance in 4,500) of scoring seven or more goals.

Statistical models can fail at the extreme tails of a probability distribution. There often isn’t enough historical data to distinguish a 1-in-400 from a 1-in-4,000 from a 1-in-40,000 probability.

We can, however, at least confirm that the match was an extreme outlier from the standpoint of past World Cup matches. There have been 833 matches played since the World Cup began in 1930.

Page 18: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

There are still plenty of questions to ask about the match, and the model.

To state the obvious, the loss of Neymar and Silva may have had a much larger impact than we accounted for.

Not only do those players have enormous individual talent, they serve as the tactical anchors of Brazil’s offense and defense, respectively.

Brazil’s defense appeared disorganized — then stunned, then demoralized.

Page 19: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Page 20: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Page 21: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Explosion ofdigital data

network measures

Sophisticated mathematicalmodels

Meaningful patternsInsights Performance evaluationReliabilityRecommendation

sensor signals, user behaviour

surveillance tapes

social network datapublic records

MotivaçãoMotivação

Page 22: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

A quantidade de dados armazenados na Web é um enorme banco de dados que permite que novas descobertas/análises sejam feitas de maneira automatizada

Novas tecnologias permitem fácil coleta de diferentes tipos de dados (sensores, webcam, log de ações do usuário)

Os dados na Web são um enorme recurso para observar como milhares de pessoas interagem, suas preferências, seu comportamento, suas necessidades

Aplicações podem ser desenvolvidas de acordo com as preferências, as necessidades e o comportamento do usuário

Dados coletados de sistemas permitem melhor planejamento, desempenho e análise da confiabilidade

MotivaçãoMotivação

Page 23: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Exemplos de AplicaçãoExemplos de Aplicação

Sistemas de recomendação

Planejamento darede

Sugestão de produtos,filmes, músicas, amigos

Sugestão de tópicos a serem estudados, exercícios,

outras aulas

Demanda dosusuários

Dados coletados

Capacidade instalada

Page 24: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Exemplos de AplicaçãoExemplos de Aplicação

Sistemas de inferência

Planejamento dosistema de

computadores debordo de um avião

População com maior probabilidade de ter um certo

tipo de doença

Tipo de medicamento que surtemais efeito em uma dada

população

Requisitos:Probabilidadede falha do

Sistema < 10-12

HW/SW do Sistema

Arquitetura do Sistema

Dados clínicos dos

pacientes

Medicamentosusados

Page 25: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Objetivo do CursoObjetivo do Curso

Aprender conhecimentos básicos de estatística e probabilidade e como a teoria pode ser usada no estudo e avaliação de sistemas/fenômenos aleatórios

Como?Como?Como?Como?

Construir modelo probabilístico e calcular estatísticas de um sistema/população para analisar/estudar/prever seu desempenho

Page 26: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Por que usar probabilidade ?Por que usar probabilidade ?

A maioria dos eventos que ocorrem nos sistemas/vida real são aleatórios

Exemplo:

Tempo de busca no Google

Perda de um pacote em um roteador da Internet

Tempo até que ocorra uma falha em um computador

Tempo de acesso ao Skype

Tempo de espera na fila de um banco

Page 27: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Por que usar estatística ?Por que usar estatística ? Permite a caracterização de uma população

ou de um sistema a partir de um conjunto de amostras Exemplo:

Qual a variável que mais influencia no tempo de resposta de um sistema ?

Qual o erro que é cometido quando considera-se um conjunto de amostras de tamanho N ?

Se existem dois sistemas A e B que realizam a mesma função, qual o que fornece a menor variabilidade no tempo de resposta ?

Page 28: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Algumas áreas onde a teoria é Algumas áreas onde a teoria é usadausada

Estatística e Probabilidade

Processos Estocásticos

Simulação Medições

Teoria de Filas

Redes Bayesianas

Inferência

Page 29: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

ImportânciaImportância Prever desempenho de um sistema

Identificar gargalos de um sistema

Avaliar mudanças no sistema

Inferir o comportamento de um sistema a partir de uma pequena amostra de dados coletada

Adequar o sistema às necessidades dos clientes

Modelagem é fundamental para muitos sistemas

Google, BitTorrent, NASA, Sprint (ISP), Empresas fabricantes de aviões, etc.

Page 30: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Exemplo de estudo (1)Exemplo de estudo (1) Tempo de resposta de um sistema deve estar abaixo de

um limite com uma certa probabilidade e sua média não deve ser superior a um certo valor

Cálculo da

frequência

(histograma)

Cálculo da média: 5*0.08 + 10*0.03 + 20*0.01 + 30*0.08 + 40*0.09 + 50*0.06 + 60*0.12 + 70*0.11 + 80*0.22 + 90*0.14 + 100*0.06 = 61

Page 31: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Outline do CursoOutline do Curso

Motivação

Definições Básicas de Probabilidade

Variáveis Aleatórias Discretas e Contínuas

Variáveis Aleatórias Conjuntas

Média, Variância, Correlação

Distribuição e Esperança Condicional

Distribuição amostral

Inferência Estatística

Page 32: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Professora:Professora:

Rosa M. M. Leão - [email protected]

Sala H-318A (COPPE/PESC)

Page 33: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Website

http://www.land.ufrj.br/~classes/est-prob-2016

notas de aula (slides)

listas de exercícios

datas de provas, dicas, etc.

InformaçõesInformações

Lista de email do curso (ver website)

Fórum para anúncios gerais

Page 34: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Altamente recomendada

Será passada lista de presença

PresençaPresença

Horário de Atendimento

1 hora por semana (horário marcado por email)

Page 35: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Duas provas e uma prova final (se necessário)

1 trabalho

AvaliaçãoAvaliação

Listas valem um percentual da nota

Provas serão baseadas nas listas

Cálculo das médias

Media = Media_Provas*0.60 + 0.25*Trabalho

+ 0.15*Listas_de_Exercício

Page 36: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Segunda ChamadaSegunda Chamada

Somente com atestado médio

Ou boa justificativa comunicada

antes de perder a prova

Prova com toda a matéria, aplicada

depois da prova final

Page 37: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Livros e ReferênciasLivros e Referências Notas de aula (ver website)

“Probability & Statistics with Reliability, Queuing and Computer

Science Applications”, por K.S. Trivedi. Willey, 2001

A Modern Introduction to Probability and Statistics - Understanding

Why and How, Springer Texts in Statistics, Dekking, F.M., Kraaikamp,

C., Lopuhaä, H.P., Meester, L.E., 2005.

Probabilidade e Estatística – Quantificando a incerteza, João Pinheiro,

Santiago Carvajal, Sonia Baptista da Cunha, Gastão Gomes, Elsevier,

2012.

Livro de Simulação: Simulation, Sheldon M. Ross, Fourth Edition ou A

Course in Simulation, Sheldon M. Ross.

Page 38: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

Recomendação para SucessoRecomendação para Sucesso

Estudar a matéria da semana

Fazer listas de exercíciosprovas serão baseadas nas listas

Utilizem o horário de atendimentonão deixem dúvidas acumularem

Venham às aulas participem das discussões

Page 39: Estatística e Modelos Probabilísticos - COE241

Rosa Leão ­ 2016

DúvidasDúvidas

Perguntas ou comentários?