desarrollo de sistemas de información - ocw.unican.es · lo realmente interesante de las...
TRANSCRIPT
Tema8.IntroducciónalosAlmacenesdeDatos
DesarrollodeSistemasdeInformación
MartaElenaZorrillaPantaleónDPTO.DEMATEMÁTICAS,ESTADÍSTICAY
COMPUTACIÓN
EstetemasepublicabajoLicencia:CreaHveCommonsBY‐NC‐SA3.0
UC‐MartaZorrilla
TABLA DE CONTENIDO
SistemasdeInformación“BI”:
MoHvación,ObjeHvo,Herramientasytécnicas
Camposdeaplicación
EvolucióndelossistemasdegesHóndedatoshacialossistemasdesoportealadecisión
Almacenesdedatos
JusHficación,definición,arquitectura
Herramientasdeanálisis,consultasygeneracióndemodelos
DW2.0
2
UC‐MartaZorrilla
SITUACIÓN ACTUAL EN LAS ORGANIZACIONES
EntornocompeHHvoyglobalizado
OpHmizarprocesos
Reducircostes,rentabilidadfinanciera
AnHciparsealacompetencia,análisisdelmercado
Innovar,búsquedadenuevosproductosoestrategias
Ganaryfidelizaral“cliente”:Personalizar–simularquecadaclienteesúnico
LasempresasmanejacanHdadesingentesdeinformación:
Fuentesinternas(SistemascorporaHvospropios,aplicacionesdepartamentales,etc.)
Fuentesexternas(INE,INEM,colegiosprofesionales,encuestas,…hastaun20%)
Problemas
Saturacióndeinformación
Dihcildeacceder
NoselecHva
BusinessIntelligenceo
BusinessAnalyHcs
3
UC‐MartaZorrilla
¿QUÉ ES BUSINESS INTELLIGENCE?
“ConverHrdatoseninformación”
EslograrquelosgerentesydirecHvosdelasorganizaciones,yporextensióntodoslosusuariosdelainformación,tomenlasmejoresdecisionescadadíaaccediendodeformadirectaalainformación“clave”desunegociodemaneraágilysencilla.
BIsuministraelmarcopara: Definirymedirlosindicadoresrelevantesdelnegocio,yentendersucomportamiento Procesar,resumir,reportarydistribuirlainformaciónrelevanteaHempo GesHonarycomparHrelconocimientodelnegocioconlaorganización AnalizaryopHmizarlosprocesosqueactúansobrelosindicadores
Incluyeaplicacionessojware,tecnologíaymetodologíaspararealizarelanálisisdedatos: BasesdedatosrelacionalesymulHdimensionales ReporHngyquerying HerramientasOLAP Datamining,webmining,textmining,datastreaming HerramientasWhat‐ifanalysis Técnicasdevisualizacióndedatos HerramientasETL
DecisionSupportSystem(DSS)términoprevioaBI.AhoraAnalyHcseslamoda.
4
UC‐MartaZorrilla
BUSINESS INTELLIGENCE “FACT GAP”
GartnerGroup(2001)denominó“BusinessIntelligenceFactGap”aladiferenciaqueexisteentrelainformacióndisponibleenlaempresaylacapacidaddetomardecisionesbasándoseendichainformación.
Business Intelligence “Fact Gap”
Capacidad Business Intelligence
V o l u m e n
Tiempo
Número de Decisiones
Críticas
"IntheabsenceofBI,a'factgap'exists:acondiHonwhereusersmakedecisionsandassessriskandopportuniHesbaseduponanecdotal,incompleteoroutdatedinformaHon.Thisisn'tmuchbeperthanguessing,leavingmostbusinessesseriouslyexposed.“(GartnerGroup07/01)
ArecentresearchstudybytheBusinessWeekMarketAdvisoryBoard(07/2004)surveyed675execuHvesthroughoutNorthAmericaandEuropeandfoundthat43%indicatedtheydidnottrusttheirinternalsystems,andanamazing77%indicatedthattheywereawareofbaddecisionsthathadbeenmadewithintheirorganizaHonsbecauseofalackofaccurateinformaGon.
5
UC‐MartaZorrilla
CAMPOS DE APLICACIÓN
Science astronomy, bioinformatics, drug discovery, …
Business CRM (Customer Relationship management), fraud
detection, e-commerce, manufacturing, sports/entertainment, telecom, targeted marketing, health care, …
Web: search engines, advertising, web and text mining, …
Government surveillance, crime detection, profiling tax cheaters, …
6
UC‐MartaZorrilla
EVOLUCIÓN DE LAS TECNOLOGÍAS DE BASES DE DATOS
Hitohistórico PreguntadeNegocio
Tecnologíaqueloposibilita
Suministrador CaracterísGcaprincipal
DataCollecHon(1960s)
¿CuálesfueronmisingresosenlosúlHmos5años?
Ordenadores,cintas,discos,DBMSjerárquicos(IMS)yenred
IBM,CDC Datoshistóricos
DataAccess(1980s)
¿CuántasunidadesvendíelmespasadoenEspaña?
Basesdedatos
relacionales(RDBMS,SQL,
ODBC)
Oracle,Sybase,Informix,IBM,Microsoj
Datosdinámicosanivelderegistro(histórico)
DataWarehousing&DecisionSupport(1990s)
¿CuántasunidadesvendíelmespasadoenEspañaenrelaciónconEuropa?
On‐lineanalyHcprocessing(OLAP),gestoresmulHdimensionales
Cognos,BusinessObjects,Microstrategy,NCR,SPSS,Comshare,etc.
DatosdinámicosenmúlHplesnivelesojerarquías(histórico)
DataMining(2000s)
¿CuálesseránlasventasdelpróximomesenEuropa?
algoritmosavanzados(datastream,weblog,bio‐data…),RDBMS
SPSS/ClemenHne,Lockheed,IBM,SGI,SAS,NCR,Oracle,etc.
Datosdeprospección(análisisdemercado,deriesgos,…)
7
UC‐MartaZorrilla
¿POR QUÉ UN DATA WAREHOUSE O ALMACÉN DE DATOS?
Losdatosseencuentranendiferentessistemasdeinformación(udsdemedida,convencióndenombresyformatos,etc.)
Estosnoestánorientadasalatomadedecisiones(KPI),sinoaregistrartransacciones(BD3FN).
LaestructuradeBD3FNnoeslaadecuadapararesponderdeformaágilaconsultascomplejas,concálculodeagregadosyparaseranalizadasbajodiferentesperspecHvas.
Sistemadeinformaciónespecíficodirigidoporlasnecesidadesdelosusuariosdenegocio,alimentadodesdelasfuentesdedatosoperacionalesdelaorganizaciónyconstruidoypresentadodesdeunaperspecHvasencilla
8
UC‐MartaZorrilla
9 OLTP VS OLAP
Almacenadatosactuales Almacenadatoshistóricos
Almacenadatosdedetalle AlmacenadatosdedetalleydatosagregadosadisHntosniveles
Datosdinámicos DatosestáHcos
Integridaddedatos Desnormalización,redundancia
Dedicadoalprocesamientodedatos(transacciónsimple)
Dedicadoalanálisisdedatos(consultascomplejas)
Nºdetransaccioneselevado Nºdetransaccionesbajo
Soportadecisionesdiarias Soportadecisionesestratégicas
Orientadoalosprocesosdelaorganización(aplicación)
Orientadoalainformaciónrelevante(negocio)
Sirveamuchosusuarios Sirveatécnicosdedirección
TamañoBD:100Mb‐Gb TamañoBD:100Gb‐Tb
UC‐MartaZorrilla
10 ¿CUÁL ES EL PROCESO?
Medir InvesGgar
Actuar Simular
ANALISTASDENEGOCIO(ayudaalatomadedecisiones)
¿Cómoesminegocio?
¿Porquéesasí?
¿Quédebemoshacer?
¿Quéocurresihacemosesto?
ANÁLISIS
MODELIZACIÓN
INFORMES
PLAN
Fuentesdedatosinternas
RR/HH
Contabilidad
Compras
...
DATAWAREHOUSE
ComoresultadodeltrabajodiariolosempleadosregistranlaacGvidaddeloqueestápasando
Estosdatosseprocesan(agrupación,cálculos,etc.)ycarganeneldatawarehouse
LosdatossealmacenandeformaquepermitaverlosfácilmentebajodiferentesperspecGvas,asícomocruzarlosentreellos
Losdatosseexplotanmedianteaplicacionesespecíficasdeanálisisdeinformación
Fuentesdedatosexternas
INE,INEM,…
Weblog,..
2
1
3
4
UC‐MartaZorrilla
11 ANÁLISIS DEL NEGOCIO
Informes DataMining Simulación/OpGmización
¿Aquéresponden? ¿Quéestápasando? ¿Porquéestápasando? ¿Quépasaríasi....?¿Cuáleslamejoropciónpara...?
¿Quéhacen? Generaninformesyalarmasporperfilesdeusuario.
InformesestáHcospredefinidos
Informesdinámicosconfigurablesporelusuario:simples/complejos
Visualizaciónderesultados(Gráficos,herramientasGIS)
IdenHficanpatrones(tendencias,regularidades,correlaciones)existentesenlasBD
ModelodescripHvos(indirecto)a)Asociaciónb)Segmentación
ModelospredicHvos(directo)c)Clasificaciónd)EsHmación
Escenariosfuturosybúsquedadelamejorsolución.DiseñodelaestrategiaópHma
Simulación:dinámicadeSistemas(JayForrester–M.I.T.)
OpHmización:InvesHgaciónoperaHva
¿Cuáleselpapeldelosusuarios?
Elusuariointroduceunateoríasobreunaposiblerelaciónenlabasededatos,convirHéndolaenunaconsulta(query)
Elusuariononecesitaasumirnada,elmodeloseencargadeidenHficarpatrones.Losdatosconducen
Elusuariointroducehipótesissobrevaloresfuturosyelmodelodetectalasmejoressoluciones
¿CómoseobGenenlosresultados?
RazonamientodeducHvo RazonamientoinducHvo Análisisdeescenario+hipótesis
Ejemplo Informesconalarmasenfuncióndelaevolucióndedeterminadasmedidas
IdenHficarquéfactores(acHvidad,sector,región,época,etc.)influyenenlaevolucióndeesasmedidas
Determinarcómoevolucionaríaunadeterminadamedida(porejemploventas)siserealizaraunadeterminadaacción(p.ejemplounacampañapublicitariadelHpo2por1)
UC‐MartaZorrilla
INFORME OLAP
Losinformespermitenmostrarlainformacióncondiferentesnivelesdeagrupación.
• VistasdelamismainformaciónsegúncaracterísHcasdelainformación(dimensiones)
• NavegaciónmulH‐dimensionalparainvesHgarenlosdatos
12
UC‐MartaZorrilla
16 DATA MINING: CASO SEGMENTACIÓN
Ejemplo:evaluarquésegmentosdepoblacióncambiandeestablecimientodecomprahabitual
Cambio de establecimiento Cambio
N: 75.70% n=1514 S: 24.30% n= 486
Variable más discriminante
SIN ESTUDIOS N: 89.10% n=278 S: 10.90% n= 34
CON ESTUDIOS N: 73.22% n=1236 S: 26.78% n= 452
UNIFAMILIAR N: 93.10% n=54 S: 6.9% n= 4
PAREJA SIN HIJOS N: 75% n= 54 S: 25% n= 18
PAREJA CON HIJOS N: 93.41% n=170 S: 6.59% n= 12
Estudiosrealizados
Estructurafamiliar Estructurafamiliar
UNIFAMILIAR N: 58.44% n=90 S: 41.56% n= 64
PAREJAS N: 74.71% n=1146 S: 25.29% n= 388
BACHILLER
N: 73.33% n=66 S: 26.67% n= 24
UNIVERSITARIOS
N: 37.50% n=24 S: 62.50% n= 40
< 40
N: 73.40% n=936 S: 26.60% n= 340
> 40
N: 81.25% n=208 S: 18.75% n= 48
Estudiosrealizados Edad
Nodos Finales: Población Segmentada
Seg.1 Seg.2 Seg.3
Seg.4 Seg.5 Seg.6 Seg.7• 25%cambia• deloscuales,el71%correspondenalosseg.4,5y6
UC‐MartaZorrilla
¿QUÉ ES UN DATA WAREHOUSE?
RalphKimball:
Copiadelosdatostransaccionalesestructuradosespecíficamenteparasuconsultayanálisis.(2002)
Def.extendida:eslaplataformaparaelbusinessintelligence(DW/BI).(2006)
BillInmom:
UnDataWarehouseesunacoleccióndedatosorientadaalnegocio,integrada,varianteenelHempoynovoláHlparaelsoportedelprocesodetomadedecisionesdelagerencia.
17
UC‐MartaZorrilla
¿QUÉ ES UN DATA WAREHOUSE? (Y 2)
Esunsistemadeinformaciónque:
ConHenelainformaciónestratégicaparalatomadedecisiones
SeuHlizaparaanalizardatos,detectartendenciasydiseñarestrategias
Recogedatosqueprovienendediferentessistemasoperacionales(integración),consolidadosaunadeterminadafecha(varianteenelHempo)ycentradosenunadeterminadamateriadenegocio(ventas,consumos,usodelsiHoWeb...).
Suestructurasediseñaparadarrespuestaágilalasconsultasyfacilitarladistribucióndesusdatos,noparasoportarprocesosdegesHón.
Noseactualizansusdatos,sólosonincrementados(novoláHl).
18
UC‐MartaZorrilla
COMPONENTES DW/BI
Operational source systems
SCM
ERP
Sales
... ETL processes
Relational Database Engine (OLTP)
EIS
QueryingandReporGng
tool
Datamining
What–iftools
StagingArea
DataArea
Externaldatasources
StaGsGcsfiles,etc.
Weblog,..
Dataaccess toolsDataSources
ETL processes
OLAPDatabaseengine
ROLAP
Starschemas
DataStageArea
Aggregatedvalues
19
UC‐MartaZorrilla
20 HERRAMIENTAS OLAP
Estructuradealmacenamientoquepermiterealizardiferentescombinacionesdedatosparavisualizarlosresultadosdeunaorganización(indicadores)hastaundeterminadogradodedetalle,permiHendonavegarporsusdimensionesyanalizarsusdatosdesdedisHntospuntosdevista
LorealmenteinteresantedelasherramientasOLAPsonsusoperadoresderefinamientoomanipulacióndeconsultas.
• DRILL• ROLL• SLICE&DICE• PIVOT
UC‐MartaZorrilla
ANÁLISIS DE DATOS: OPERACIONES EN CUBOS OLAP
Rollup(drill‐up):resumirlosdatos
Subirenlajerarquíaoreducirlasdimensiones
Drilldown(rolldown):elcontrariodelanterior
bajarenlajerarquíaointroducirnuevasdimensiones
Sliceanddice:
Selecciónyproyección
Pivot(rotar):
Reorientarelcubo
Drill:
SeuHlizanlascoordenadasdimensionalesespecificadasporunusuarioparaunaceldaenuncuboparamoverseaotrocuboaverinformaciónrelacionada
drillacross:implicauHlizarmásdeunatabladehechos
drillthrough:Irdesdeelniveldemáximodetalledelcuboasustablasrelacionales(uHlizandoSQL)
21
UC‐MartaZorrilla
LearnerArgenHnaBelgiumCanadaFranceItaly
CourseProgramming
ForeignLanguage
OperaHngSystems
Databases
Arts
Q1‐05Q2‐05Q3‐05Q4‐05Q1‐06
200 150 70 300 25
100 20 250 25 80 75 100 50
Roll-up on Date
LearnerArgenHnaBelgiumCanadaFranceItaly
CourseProgramming
ForeignLanguage
OperaHngSystems
Databases
Arts
Sem1‐05Sem2‐05Sem1‐06
120 275 155 150
350 370 25
Drill-down on Learner Learner
BuenosAiresBrusselsTorontoParisGrenobleFlorenceRome
Q1‐05Q2‐05Q3‐05Q4‐05Q1‐06
200 150 70 300 25
100 20 250 25 80 75 75 20 25 30 100 75
100 75 70 300 25
Pivot Slice and Dice (learners from France or Italy in Q1 and Q2 of 2005 and course Programming or Databases)
CourseProgramming
Databases
LearnerFranceItaly
Q1‐05Q2‐05
Date
200 150
100 50
DateQ1‐05
Q2‐05
CourseDatabases
Programming
FranceItaly
Learner
100 200
50 150
Date
Date Date
22
UC‐MartaZorrilla
ALMACENAMIENTO DE LOS CUBOS
MOLAP
BaseDatosMulHdimensional
ROLAP
BaseDatosRelacional
Opcionesdealmacenamiento
Rendimiento
Capacidad
HOLAP
Sistemahíbrido
DOLAP
DesktopOLAP
LosdatosquesubyacenenloshipercubossonalmacenadosjuntoconlasagregacionesenunaestructuramulHdimensional
Losdatosquesubyacenenloshipercubossonalmacenadosjuntoconlasagregacionesenunaestructurarelacional
LosdatosquesubyacenenloshipercubossonalmacenadosenunaestructurarelacionalylasagregacionesenunaestructuramulHdimensional
InstalaciónMOLAPenunequipocliente
23
UC‐MartaZorrilla
24 HERRAMIENTAS DE ANÁLISIS Y CONSULTA
• UnEIS(Execu5veInforma5onSystem)esunsistemadeinformaciónempaquetado:
• ProporcionaalosdirecHvosaccesoalainformacióndeestadoysusacHvidadesdegesHón.
• Estáespecializadoenanalizarelestadodiariodelaorganización(medianteindicadoresclave)parainformarrápidamentesobrecambiosalosdirecHvos.
• Lainformaciónsolicitadasueleser,engranmedida,numérica(ventassemanales,niveldestocks,balancesparciales,etc.)yrepresentadadeformagráficaalesHlodelashojasdecálculo.
• Surgieronenlos80,ysonlosprogenitoresdelsojwareBIdelos90
• LasherramientasOLAP(On‐LineAnalyi5calProcessing)sonmásgenéricas:
• Funcionansobreunsistemadeinformación(relacionalodimensional)• Estructuradealmacenamientoquepermiterealizardiferentes
agregacionesycombinacionesdedatossegúndisHntasperspecHvasdeobservación.
¿CuálesladiferenciaentreEISyOLAP?
UC‐MartaZorrilla
25 HERRAMIENTAS DE ANÁLISIS Y CONSULTA
• Lossistemasdeinformesoconsultasavanzadas:• Estánbasados,generalmente,ensistemasrelacionalesuobjeto‐
relacionales,• UHlizanlosoperadoresclásicos:concatenación,proyección,
selección,agrupamiento,…(enSQLyextensiones).• Elresultadosepresentadeunamaneratabular.
• LasherramientasOLAP• Estánbasadas,generalmente,ensistemasointerfaces
mul5dimensionales,• UHlizandooperadoresespecíficos(ademásdelosclásicos):drill,roll,
pivot,slice&dice,…• Elresultadosepresentageneralmentedemaneramatricial.
¿Cuálesladiferenciaentre“informesavanzados”yOLAP?
UC‐MartaZorrilla
26 HERRAMIENTAS DE ANÁLISIS Y CONSULTA
• LasherramientasOLAP• proporcionanfacilidadespara“manejar”y“transformar”losdatos.• producenotros“datos”(másagregados,combinados).• ayudanaanalizarlosdatosporqueproducendiferentesvistasdelos
mismos.
• LasherramientasdeMineríadeDatos:• sonmuyvariadas:permiten“extraer”patrones,modelos,descubrir
relaciones,regularidades,tendencias,etc.• producen“reglas”o“patrones”(“conocimiento”).
¿CuálesladiferenciaentreOLAPymineríadedatos?
UC‐MartaZorrilla
27 HERRAMIENTAS DE ANÁLISIS Y CONSULTA
• LasherramientasWhat‐if• Simulanquéocurriríasi…permiHendoevaluarlosefectosen
funcióndedecisionesyvariables.• ComplementanalasherramientasOLAPatravésdela
combinacióndedatoshistóricosysuposiciones"cause‐and‐effect"sobreladecisiónfutura.
• Inspeccionanelcomportamientodeunsistemacomplejobajociertashipótesisdenominadosescenarios
• LasherramientasOLAP:• OfrecendatosagregadossegúndisHntasperspecHvas
¿CuálesladiferenciaentreWhat‐ifyOLAP?
UC‐MartaZorrilla
DW Y OLAP
LatecnologíaOLAPgeneralmenteseasociaalosalmacenesdedatos,aunquesepuedetenerDWsinOLAPyviceversa
28
UC‐MartaZorrilla
MINERÍA DE DATOS O EL PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO (KDD)
Piatetsky‐Shapiro
29
UC‐MartaZorrilla
DATA MINING: DEFINICIÓN
Knowledgediscovery:thenon‐trivialprocessofidenHfyingvalid,novel,potenHallyuseful,andulHmatelyunderstandablepapernsindata.(fromFayyad,U.M.,Piatetsky‐Shapiro,G.,Smyth,P.,&Uthurusamy,R.(Eds.)(1996).AdvancesinKnowledgeDiscoveryandDataMining.Boston,MA:AAAI/MITPress.)
“theprocessofexploraHonandanalysis,byautomaHcorsemi‐automaHcmeans,oflargequanHHesofdatainordertodiscovermeaningfulpapernsandresults.”(Berry&Linoff,1997,2000)
Datamining…someHmesreferstothewholeprocessofknowledgediscoveryandsomeHmestothespecificmachinelearningphase.
30
UC‐MartaZorrilla
QUÉ ES (Y NO) DATA MINING?
¿QuéesDM?
– conocerlosproductosquesecompranjuntos
– Agrupardocumentossimilaresretornadosporunmotordebúsquedadeacuerdoasucontexto
– conocerlaprobabilidaddequedevuelvauncrédito
¿QuénoesDM?
– buscarelproductomásvendido
– preguntaraunmotordebúsquedapor“estrellasdecine”
– conocerelestadodelascuentasdeuncliente
31
UC‐MartaZorrilla
ORIGEN DEL DM
Tomaideasdediversoscampos
Técnicastradicionalesnosonadecuadas
CanHdadenormededatos Altadimensionalidad Datosheterogéneosydistribuidos
StaHsHcs:• Centradoenelcontrastedehipótesis
Machinelearning• BasadoenheurísHcas,centradoenmejorarelrendimientodelmodelo,queensucomprensibilidad• AbordatemasdeHemporealyrobóHcaquenosonáreadelamineríadedatos
DataMiningandKnowledgeDiscovery• IntegrateoríayheurísHca• Secentraentodoelprocesodedescubrimientodeconocimiento(limpieza,integración,aprendizaje,visualizaciónderesultados)• DisGncionesdifusas
32
UC‐MartaZorrilla
¿POR QUÉ AHORA SE HABLA TANTO DE DM?
Lastécnicasqueseveránexis�anhaceañosperolaconvergenciadelossiguientesfactores:
CanHdaddedatosproducida
Losdatosestánintegrados(datawarehouse)
Lapotenciadelosordenadores
Fuertepresióndelacompetencia
SojwarededataminingespecíficoeintegracióndealgoritmosdeDMengestoresdeBD
33
UC‐MartaZorrilla
34
DW 2.0 BillInmon
Ventajas:• Datosenelniveldedetallemásbajo• DatossemanHenenhastasureHrodefiniHvo• Seintegrandatosestructuradosynoestructurados• SesoportandisHntosHposdeprocesamientosinsacrificarelHempoderespuestaysepreservalaintegridaddelosdatosennivelinteracHvo• SoportaelcambiodelosdatosenelHempo• Repositorioglobalparaelmetadata
Inconvenientes:• Marcaregistrada• Proveedoresaúnadaptandosusproductos
hjp://www.inmongif.com/
34
UC‐MartaZorrilla
DW 2.0
Necesidades
Integracióndatosnoestructurados
Opinionmining/socialmining
TextanalysHcs
SemanHctechniques
Almacenamientoyprocesamientodedatastreaming
Técnicasdecomprensión
Procesadoparalelo/engrid
ProveedoresHendenasolucionesenlaCloudCompuHngadoptandosolucionesSojware‐as‐a‐Service(SaaS)
35