inteligencia artificial, un enfoque moderno

5/11/2018 Inteligencia Artificial, Un Enfoque Moderno - CAP 2

1/30

Agentes inteligentes

Donde se discutird la naturaleza de los agentes ideales, sus diversos habitats y las[ormas de organizar los tipos de agentes existentes.

El Capitulo] identifica el concepto de agente racional com o central en la perspectivade Ia inteligencia artificial que presenta este libro. Esta nocion se concreta m as a 10 lar-go de este capitulo. Se m ostrara com o el concepto de racionalidad se puede aplicar a unaarnplia variedad de agentes que operan en cualquier medic imaginable. En el libro, laidea es utilizar eSic concepto para desarrollar un pequcrio conjunto de principios de di-sefio que sirvan para construir agcntes utiles, sistem as que se puedan llam ar razonablc-mente inteligentes.

Se com ienz a exam inando los agentes, los m edios en los que se desenvuelven, y lain te ra cc io n e ntre estes. La observaci6n de que algunos agentes se com portan m ejor queotros nos lleva natural m ente a la idea de agente racional, aqucl que se com port a tan biencomo puedc. La forma de actual' del agente depende de la naturale/a del mcdio; algu-nos habitats son m as cornplejos que otros. Se proporciona una categorizacion cruda delmcdio y se mucstra como las propiedadcs de un habitat influyen en el diserio de agen-tes adecuados para ese entorno. Se presenta un numero de esquernas. basicos para eldiserio de agentes, a los que se dara cuervo a 1 0 larg o d el Iib ro .

2.1 Agentes y su entornoM E D I O A M B I E N T E Un agente cs cualquier cos a capaz de percibir SL I medioambiente con la ayuda de sen-sores y actual' ell esc m cdio utilizando actuadores'. La Figura 2. I ilustra csta idea sim -

S c l is a c stc 101'1111110ar a indrcar cl clcrucuto qu e rcaccioua a lI ll \ :s lll 1lu lo r ea li'l .< ln Lio u na aCCi l) nI N. del R7}


2/30

38 [NTELIGENCIA AIUIFICIAL. UN ENFOQUE MODER NO

S E N S O R

A C T U A [ ) O R

P E R C E P C I O N

S EC U EN C IA D EP E R C E P T O R E S

F UN C IO N O E L A G EN TE

Percepciones

Acciones

Figura 2.1 Los agentes interactuan con el rnedioambiente mediante sensores y efectores.'-------------.------.--~---.----.-.----------_j

pie. Un agente humano tiene ojos, oidos y otros organos scnsoriales ademas demanos,piernas, boca y otras partes del cuerpo para actuar. Un agente robot recibe pulsacionesdel teclado, archives de informacion y paquetes vfa red a modo de entradas scnsorialesy aetna sobre el medio con mensajes en el monitor, escribiendo ficheros y enviando pa-quetes por la red. Sc trabajara con la hipotesis general de que cada agente puede perci-hir sus propias acciones (pero no siempre sus efec(os).

El terrnino percepcion sc utiliza en este contexto para indicar que el agente puedcrecihir entradas en cualquier instante. La secuencia de percepciones de un agentercfJcja cl historial complete de 10 que el agente ha recibido. En general, un agentetomard una decision en un momento dado dependiendo de fa secuencia completa de per-cepciones hasta esc instante. Si se puede especificar que decision tomara un agente paracada una de las posibles secuencias de percepciones, entonces se habra explicado maso menos todo 1 0 que se puede decir de un agente. En terrninos matematicos se puede de-cir que el cornportamiento del agente viene dado por la funcion del agente que proyectauna percepcion dada en una accion.

La funcion que describe el comportamierito de un agente se puede presentar enfor-ma de tabla: en la mayorfa de los casos esta tabla seria muy grande (infinita a menosque se limite el tarnafio de la secuencia de percepciones que se quiera considerar). Dadoun agente, con el que sc quiera experimentar, se puede, en principio, construir esta ta-bla tenicndo en cuenta todas las secuencias de percepcion y determinando que accionlleva a cabo el agente en rcspuesta/. La tabla es, por supuesto, una caracterizacion ex-terna del agcnte. Inicialmente, la Iuncion del agente para un agente artificial se imple

51 cl agcIlte se lec cio na la accion de mancra alcuroria, cntonccs scria ncccsano p rob ar ca d a sccuenci.i mchus vcccs para idcm ificar la probabilidad de cada accion. Se pucde pcnsar ljue actual" de m ancra alcaton.ies ridiculo. pew como sc vera postcriorrnente puede scr muy imcligcntc.


3/30

P R O G R A M IiD E LA G E N T E

AGENTES lNTELlGENTES 39mentara mediante el programs del agente. Es importante diferenciar estas dos ideas.La funcion del agente es una descripcion maternatica abstracta; el programa del agentecs una implementacion complera, que se ejecuta sobre la arquitectura del agente.

Para ilustrar esta idea se utilizara un ejemplo muy simple, el mundo de la aspirado-ra presentado en la Figura 2.2, Este mundo es tan simple que se puede describir todo 1 0que en el sucede; es un mundo hecho a medida, para el que se pueden invcntar otras va-riaciones. Este mundo en particular tienc solamente dos localizaciones: cuadricula A yB, La aspiradora puede percibir en que cuadrante se encuentra y si hay suciedad en el,Puede elegir si se mueve hacia la izquierda, derecha, aspirar la suciedad 0no hacer nada.Una funcion muy simple para el agente vendna dada por: si la cuadricula en la quese encuentra csta sucia, entonces aspirar, de otra forma cambial' de cuadncula, Unamuestra parcial de la funcion del agente representada en forma de tabla aparece en laFigura 2.3, Un programa de agente simple para esta funcion de agente se mostraraposteriormente en la Figura 2.8,

A~B

o0()00r... oO\...J

Figura 2.2 El mundo de la aspiradora con dos localizaciones solamente.'--------------------.-~- ..-~---~-----.--~-------,----- ......._----__----------------------,------'---------------,

Secuencia de percepciones Acdon1------~------------+___-- ...------ ..-----~ ..~-----_1

DcrechaAspirarlrquierdaAspirarDerechaAspirar

[A , Limpio[[A Suciol[B, Limpio][ B, S uc io ]lA , L im pio i, [A , L im pio ]lA, Limpioi, lA, Sucio]

lA, l.impio j, lA, Limpioi, [A, Limpio]lA, Limpioi, [A, l impioi ; fA Sucio]

DcrechaAspirar

Figura 2.3 Tabla parcial de una funcion de agente sencilla para el mundo de la aspiradora que semuestra en [a Figura 2.2.


4/30

40 INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO

2 . 2

Revisando la Figura 2.3, se aprccia qu e se p ue de n d efin ir varies agentes para el m un dode la aspiradora sim plernente rellenando la colum na de la derecha de forrnas distintas.La pregunta obvia, entonccs cs: i_,clIciles fa mejorjorma de rellenar una tabla? En otraspalabras, (.que hace qu e un agente sea bueno 0 malo , int ei ig ente 0 estiipido? Estas pre-guntas se respondcn en la siguiente seccion.

A ntes d e term in ar esta seccion, es neccsario rernarcar que la nocion de agente es su-puestarnente una herrarnienta para el analisis de sistem as, y no una caracterizacion ab -s olu ta q ue divida el mundo entre agcntes y no agentes. Se puede ver un a calculadora demano como un agente que elige la accion de m ostrar 4 en la pantalla, dada la secuenciade percepciones 2 + 2 . Pero este analisis dificilmente puede mcjorar nuestroconoeimiento acerca de las calculadoras.

Buen cornportarniento:el concepto de racionalidad

AGENTE RAC IONA l

M ED ID AS D ERENDIMIENTO

Un agente racional es aquel que haec 10 correcto; en terminos conceptuales, cada elernentode la tabla que define la funcion del agente se tendria que r el le na r correctamcntc. Obvia-m ente, hacer 10 correcto es m ejor que hacer algo incorrecto, pero (.que significa hacer Incorrecto? C om o prim era aproxim acion, se puede decir que 10 correcto cs aquello que per-m ite al agente obtener un rcsultado m ejor, Por tanto, se necesita determ inar una form a dernedir el exito. Ello, junto a la descripcion d el e nt or no y d e los sen sores y actu ad ores d elagente, proporcionara una especificacion com pleta de la tarea que desernpefia el agenlc.D ieho esto, ahora es posible definir de form a m as precisa que s ign if ic a l a rae ional ic lad .

Medidas de rendimientoLas medidas de rendimiento incluyen los criterios qu e determinan el exito en el COI11-portamiento del agente. C uando se sinia un agente en un medic; este gen era un a secucnciade aceiones cle acuerdo con las percepciones qu e recibe. Esta secuencia de acciones haecque su habitat pase por una secuencia de estados. Si la sccuencia cs la deseada. en tonces el agente habra actuado correctamente. Obviamente, no ha y una unica medidaadecuada para todos los agentes. Se puede preguntar al agente po r su opi nion subjct i\'~\acerca de su propia actuacion, pero m uchos agentes serfan incapaces de contestar y otrospodrian engafiarse a sf mismos '. Por tanto hay que insistir en la irnportancia cle uriliz.um edidas de rendirnienro objetivas, que norm al m ente deterrninara el diseriador encargu-do de la construccion d el a ge nt e.

Si retom am os el ejem plo de la aspiraclora de la seccion anterior, sc pucdc proponcruiilizar como mcdida de rcndirniento la canridad de suciedad limpiada en un penodo de

, 1 .0 \ a i2 l~ Il il 'S hum.uu, son conocido-. ell particular pur xu ac id cz . h ac cn crccr qu e 110quicrcn ; i l i - " ) dc"~PUl', de no hubcrlo po ci ic io c on sc guu. pOI ejcmplo. Ah hucno. de I lK l as 1 '0 00 I1 ]; 1SIW 'luella l'SC (slllpid" 1'1,'ini Nobel.


5/30

D E FIN IC IO N D EA G EN T E R A C IO N AL

ACJENTES INTEI.IClFNTES 41oeho horas. Con agcntes racionales, por supuesro, se obtiene 1 0 que se dcmanda. Un agen-te racional puede maxi m izar su mcdida de rendim iento lim piando la suciedad, tirandola basura al suelo, lim piandola de nuevo, y aS I s uc esiv am en te . U na m cd id a d e ren dim ie ntomas adecuada recompensana al agcnte p or te ne r el suelo limpio. POI' ejemplo, podria ga-nar un punto por cada cuadrfcula lim pia en cada periodo de tiernpo (quizas habrfa quein clu ir a lg un rip o d e p en aliz ac io n por la electricidad gastada y e l r ui do generado), Comoregla general. es mcjor diseiuir medidas de utilidadde acuerdo con 1 0 que Sf' quiere parael entorno. nuis que deacuerdo con como se cree que el agcnte debe comportarse.

La seleccion de la medida de rendim icnto no es siempre Iacil. Por ejemplo, la no-cion de suelo Iimpio. del parrafo anterior esta basada en un nivel de limpicza medio a10 largo del tiem po. A dernas, este nivel rnedio de Iim pieza se pucde alcanzar de dos for-m as diferentes, llevando a cabo una lim pieza m ediocre pero continua 0 lim pian do en p ro -fundidad, pcro realizando largos dcscansos. La forma m as adecuada de hacerlo puedevenir dada por Ia opinion de un encargado de la lirnpieza profesio nal, p cro en realidades una c ue stio n fi losofica p ro fu nd a c on fu erte s im plic ac io ne s. i.Que es mejor, una vidatem eraria con altos y bajos, () una existencia segura pero aburrida? { , Q u e cs m ejor, unaeconom ia en la que todo el munclo vive en un estado de moderada pobreza () u na en laque algunos viven en la abundancia y otros son rnuy pobres? Estas cucstiones se dejancom o ejercicio p ara lo s lectorcs d iligen tes.

RacionalidadLa racionalidad en un memento determ inado depende de cuatro Iactorcs:

La rnedida de rendim iento que define el criterio de exito. EI conocimiento del m cdio en eI q ue h ab ita a cu rn ulad o por cl agente. Las acciones que cl agente puede llevar a cabo. La secuencia de percepcioncs del agente hastaestc memento.

Esto nos lleva a la definicion de agente racional:En cada posibl sccuencia de pcrcepciones, un agente racional dcbcra cmprcnderaquc-1/(/accion que supucstament maxiniic su m ed id a d e re nd im irnto , b asdn do se ell la s evi-dencias of/orlodos {)or 10 \'e(,1I


6/30

42 INTELIGENCIA ARTIFICIAL. tit\' ENFOQUE MODEHNO

O M N I S C I E N C I A

derecha excepto en el caso de que ello pueda llcvar al agente fuera del recinto, eneste caso el agente permanece donde se encuentra.

Las iinicas acciones perrnitidas son lzquierda. Derecha, Aspirar y NoOp (no ha-cer nada) .

EI agcnte pcrcibe correctamente su localizaci6n y si csta localizacion contiene su-ciedad.Puede afirmarse que bajo estas circunstancias el agente es verdaderamente racional; elrcndimiento que sc espera de estc agente es por 1 0 menos tan alto como el de cualquierotro agente. EI Ejercicio 2.4 pide que se pruebe este hecho.

Facilmente se puede observar que el agente puede resultar irracional en circunstan-cias diferentes. Por ejemplo, cuando toda la suciedad se haya elirninado el agente osci-lara innecesariamente hacia delante y atras; si la medida de rendirniento incluye una pe-nalizacion de un punto por cada movimiento hacia la dereeha e izquierda, la respuestadel agente sera pobre. Un agente mas eficiente no hara nada si esta seguro de que todaslas cuadrfculas estan limpias. Si una cuadricula se ensucia de nuevo, el agente debe iden-tificarlo en una de sus revisiones ocasionales y limpiarla. Si no se conoee la geogtafiadel cntorno, el agente tendra que explorarla y no quedarse parade en las cuadriculas Ay B. EI Ejercicio 2.4 pide que se disefien agentes para estos cases.

Omnisciencia, aprendizaje y autonorniaEs necesario tener cuidado al distinguir entre racionalidad y omnisciencia. Un agenteomniscicntc conoce el rcsultado de su accion y acnia de acuerdo con el: sin embargo,en realidad la omnisciencia no es posible. Considerando el siguiente ejemplo: estoy pa-seando por los Campos Eliseos y yeo un amigo al otro lado de Ia calle. No hay traficoalrededor y notengo ningun compromise, entonces, actuando racionalmente, comenzarfaa cruzar la calle. Al mismo tiernpo, a 33.000 pies de altura, se desprcnde la puerta de unavion", y antes de que termine de cruzar al otro lado de la calle me encuentro aplastado.i,Fue irracional cruzar la calle? Serfa de extrafiar que en mi nota necrologica aparecieraUn idiota intcntando eruzar la calle.

Este ejemplo muestra que la racionalidad no es 1 0 rnismo que la perfecci6n. La rac io na li da d maxir ni za el r en dim ie nto e sp er ad o, mientras la perfecci6n m axim iza el resul-tado real. Alejarse de, la necesidad de la perfecci6n no es solo cuesti6n de hacer justiciacon los' agentes. EI asunto es que resulta imposible diseiiar un agente que siernpre llevea cabo, de forma sucesiva, las mejores acciones despues de un acontecimiento, a menosque se haya mejorado el rendimiento de las bolas de cristal 0 las maquinas de tiempo.

La definicion propuesta de racionalidad no requiere ornnisciencia, ya que la eleccionracional depende s610 de la secuencia de percepcion hasta fa [echa. Es nccesario asc-gurase de no habcr pcrmitido, por dcscuido, que el agcntc se dedique decididamente allev ar a cabo a cc io ne s p oc o i nte li ge nt es . Por ejern plo, s i el agente no m irasc a ambos la -dos de la callc antes de cruzar una calle muy concurrida, cntonccs su secuencia de per

., WI/se '~. Henderson, "New door latches urged for Boeing 747 jumbo jei-. (es urgcntc dotar de IlUCV:hccrraduras a las puertas de los Boeing jumbo 747), '0.~lshi!/f!,t(}11 Post, 24 de agosto de 1981J.


7/30

R E CO P I L A C I O N O EI N F O R M A C I O N

E X P L O R A C . I ( l N

A P R E N D l Z J l J E

A U T O N O M i A

AGENTES [NTELIGENTES 43

cepcion no Ie indicana que se esta acercando un gran carnien a gran velocidad, i,Ladefinicion de racionalidad nos esta indicando que esta bien cruzar la calle? [Todo 1 0 con-trario! Primero, no serta racional cruzar la calle solo teniendo esta secuencia de per-cepciones incompleta: el riesgo de accidentc al cruzarla sin mirar es dernasiado grande.Segundo, un agente racional debe elegir la accion de mirar antes de intentar cruzar Iacalle, ya que el mirar maximiza el rendimiento esperado. Llevar a cabo acciones con Laintencion de modificar percepciones futuras, en ocasiones proceso denominado reco-pilacion de informacion, es una parte importante de Ia racionalidad y se cementa enprofundidad en el Capitulo 16. Un segundo ejernplo de recopilacion de informacion 10proporciona la exploracion que debe Ilevar a cabo el agente aspiradora en un medio ini-cialmente desconocido.

La definicion propuesta implica que el agente racional no s610recopile informacion,sino que aprenda 1 0 maximo posible de 1 0 que esta percibiendo. La configuracion ini-cial del agente puede retlejar un conocimiento preliminar del entorno, pero a rnedida queel agente adquicre experiencia este puede rnodificarse y aumentar. Hay casos excepcio-nales en los que se conoce totalmente el entomo a priori. En cstos casos, el agente nonecesita percibir y aprender; simplemente aetna de forma correeta. Por supuesto, estosagentes son muy fragiles. Considcrese el caso del humilde escarabajo estercolero. Des-puts de cavar su nido y depositar en el su huevos, torno una bola de estiercol de una pilacercana para tapar su entrada. Si durante el trayecto se le quita la bola, el esearabajo con-tinuara su recorrido y hara como si estuviera tapando la entrada del nido, sin tener la bolay sin darse cuanta de clio. La evolucion incorporo una suposicion en la conducta decscarabajo, y cuando se viola, el resultado es un comportamiento insatisfactorio. La avis-pa cavadora es un poco mas inteligente. La avispa hernbra cavara una madriguera, saldrade ella, picara a una oruga y la llevara a su madriguera, se introducira en la madriguerapara cornprobar que todo esta bien, arrastrara la oruga hasta el fondo y pondra sushuevos, La oruga servira eomo fucnte de alimento cuando los hucvos se abran. Hastaahora todo bien, pero si un entomologo desplaza la oruga unos centimetres fuera cuan-do la avispa esta revisando la situacion, csta volvera a la etapa de arrastre que figuraen su plan, y continuara con el resto del plan sin modificacion alguna, incluso despuesde que se intervenga para desplazar la oruga. 14aavispa cavadora no es capaz de apren-der que su plan innato esta fallando, y por tanto no 1 0 cambiara.

Los agentcs con exito dividen las tareas de calcular la funcion del agente en [repenodos diferentes: cuando se esta diseiiando el agenre, y estan los discfiadores encar-gados de rcalizar algunos de estos calculus; cuando esta pensando en la siguiente operacion, el agente realiza mas calculos.y euando esta aprendiendo de la experiencia, el agentelIeva a cabo mas calculos para decidir como modificar su forma de comportarse.

Se dice que un agente carece de autonomia cuando se apoya mas en el conocimientoinieial que le proporciona su disefiador que en sus propias percepciones, Un agente racional debe ser autonorno, debe saber aprender a dcterrninar como tiene que cornpensarel eonocimiento incompleto 0 parcial inicial. Por ejemplo, el agente aspiradora queaprcnda a prevcr donde y cuando aparecera suciedad adicional 1 0 hara mejor que otroque no aprenda. En la practica, pocas veees sc necesita autonomfa completa desde ecornienzo: cuando el agcnte haya tenido poca 0 ninguna experiencia, tendra que actuade forma aleatoria a mcnos que cl diseiiador lc haya proporcionado ayuda. Asi, de l


8/30

44 l~dELlGI.:NCI:\ ARTIFICIAL. liN ENFO


9/30

\(;I.NTIS Ii'.Trl.l(;Fr~TI.S 45

Tipo de Actuadores("II11'lr:l'. sonar.vclocimciro,GPS, tacomctro.vi-ualizador dela aceleracion.sensores delmotor. tcclado

Sensores

pcaioncs ..clientcs

Dircccion.acclcradorIreno. scnal.bocina,visualizudor

Taxixtu

max imizac io ndel beneficio

Figura 2.4 Dcscripcion REAS del enrorno de trabajo de un taxisia auromatico.

beneficio. Obviarnente, alguno de estes objctivos cntran en conflicto por 1 0 que habraque llcgar a acuerdos.

Siguiente, (,cual cs cl entorno en cI que sc cncontrara cl taxi? Cualquier taxisra debeestar preparado para circular por distintas carreteras, desde cam inos rurales y calles ur-banas hasta autopistas de 12 carrilcs, En la s carreteras se pueden encontrar con trafico,pcatones, anirnales, obras, coches de p olic ia , c ha rc os y baches. EI taxista tam b ie n tie-n e que cornunicarsc tanto con pasajeros rcales com o po ten ciales. Hay rambien eleccionesopcionale s. EI taxi puede operar en California del Sur, donde la nieve es rararnente unproblema, 0 en Alaska, donde rararnente no 10 es. Puede conciucir siernpre por 1 a de -recha, 0 puede ser 1 0 suficientem ente flexible como para que circule por la izquierdacuando sc cncuentre en el Reine Unido 0 en Japon. O bviam ente, cuanto m as restringi-do este el entorno. mas Iacil serri el problema del diseiio .

Lo s actuadores disponibles en un taxi autom atico seran mas () m cnos los m ism os quelos que tiene a su alcance un conductor humane: cl co ntrol del motor a iravcs d el a ce le -rador y c on tro l so bre la direccion y lo s frenos. Ademas, neccsitara tener un a pantalla devisualiz acion 0 un sintctizador de voz para respo nder a los pasajcros, y quiz as algun me-canism o para cornunicarse, educadarnente () de otra forma, con oiros vehiculos.

Para alcanzar sus ob jetivo s en cl entorno en el que circu la, eltaxi neccsita saber dondeesta, qu~ otros elem entos estan en la carretcra, y a que velocidad circula. Sus sensoresbasicos debcn, por tanto, incluir una () mas camaras de television dirigidas, un veloci-metro y un racom etro. Para contro lar cl vchiculo ad ecu adarnente, especialrnente en la scurvas. debe tencr un acelerador: debe conoeer el estado m ecanico del v ch fc ulo , d e lonnaque nccesitara sensorcs que controlcn cl motor y el sistema elcctrico. Debe tenerinstrum entos que no estan disponibles para un conductor medio: un sistem a de posicio-n arn icn to g lo bal via satclitc ((iPS) para proporcionarle informacion exacta sobre xuposicion con respecto a un mapa electronico, y scnsores infrarrojos () xonarcs paradctectar las distancias con rcspecto a otros cochcs y obs ta cu lo s. F in almente , necesitarau n ie cla do 0microfono para que el pasajero Ie indique su destine.

La Figura 2.5 mucstra un esquema con los elementos REAS basicos para diferentesclases de agentes adicionales. M as ejernplos apareceran en el Ejercicio 2.5 . Pucdesorprender a algunos leciores que se incluya en la lisra de tipos de agentc algunos pro-grarnas que opcran en la totalidad del entorno artificial definido pOI' las cntradas deltcclado y lo -. c.uactcrcs irnprcsox en cl m onitor. Scgural11entc nos podamos prcgun


10/30

46 IN TELIG EN CIA A RTIFIC IA L U N E NEO QU E M OD ER NO

Sistema dediagnosticomedico

Pacientes san os,reducir costes,dernandas

Pacientes.hospital,personal

...----- ..--.------.-------Categorizaei6n Conexion con elde imagen satelitc en orbitacorrecta

correctos

I ~ : ; ~ : : ~ ~ 1 ~pruebas,diagnosricos,tratamientos,casos

Teclado parala entrada desintomas.conclusiones.respuestas depacientes

f------------- -----------Visualizar la Matriz de pixelscatcgorizacion de colorcsde una escena

Controlador deuna refineria

Sistema deanalisis deimageries desate! ires__-_-----,--------------+------- ----- ----------,- --Robot para !a Porcentaje de Cinta Brazo Y Imino Camara, sensorscleccion de componentes lransporladora! articulados angularcornponentes clasificados en con

los cubos cornponentes,cubes

M ax im izar lapureza,producei6n Yseguridad

Refinerfa,operadores

Valvulas, .bombas,calcntadores,rnonitores

Temperatura,presion,sen soresqufmieos

Tutor de inglesi interactivof-------+------+---------f------+------------ I Tcclado de

entradaMaximizar lapuntuaci6n delos estudiantes

Conjunto deestudiantes,agcncia

en los cxamcnes I examinadoraI

Visualizar losejercicios,sugerencias,correcciones

Figura 2.5 Ejemplos de tipos de agentes y sus descripcioncs REAS.

tar, ;,este no es un entorno real, verdad?. De hecho, 10 que im porta no es la distincionentre un medio real y artificial, sino la complejidad de la relacion entre el com -p ortam ien to d el ag en te, la secuencia de percepcion generada por el medic y la m edidade rendim iento. A lgunos entornos reales son de hecho bastante sim ples. Por ejemplo,Ull robot disefiado pa ra inspecciona r cornponcntcssegun pasan por una cinta transpor-ladora puede hacer uso de varias suposiciones simples: que la cinta siempre estarailu rn in ac la , q ue conoccra todos los componentes que cireulen porIa cinta, y que haysolamente dos acciones (aceptar y rechazar).

En contraste, e xi st en a lg unos agentes software (0 rohots software 0 softbots) en en-tornos ricos ypracticamente ilirnitados. Imagine un softbot disefiado para pilotar el si-mulador de vuelo de un gran avian comercial. E I sirnulador constituye un medic rnuydctallado y complejo que incluye a otros aviones y operaciones de tierra, y el agenteso/i'vl'!lre debe elegir, en tiernpo real, una de entre un amplio abanico de posibi li dades .o imagine un robot discfiado para que revise fucntcs de informacion en Internet y paraque muestre aquellas que sean interesantes a sus clientes. Para lograrlo, debera poscercicrta habilidad en el proccsarniento de len guajc natural, rcndra qu e aprender que cs 1 0que le interesa a cada cliente. y tendra que ser capaz de camhiar sus planes din.im ica-

A G E N T E S SOFTWARES O F T B O T S


11/30

T O T A l M E N T EO B S E V A B l E

O E T E R M I N I S T A

E S T O c A S T I C O

AGENTES lNTEUCiENTES 47mente, por ejemplo, cuando se interrumpa la conexion con una fuente de informacion 0cuando aparezca una nueva. Internet es un rncdio cuya cornplejidad rivaliza con la delmundo ffsico y entre cuyos habitantes se pueden incluir muchos agentes artificiales.

Propiedades de los entor nos de trabajoEI rango de los entornos de trabajo en los que se utilizan tecnicas de IA es ohviamentemuy grande. Sin embargo, se puede idcntificar un pequeiio mimero de dimcnsiones enlas que catcgorizar estos entornos. Estas dimensiones determinan, hasta cierto pun to, eldiseiio mas adecuado para el agcnte y la utilizacion de cada una de las familias principalesde tecnicas en la implementacion del agente. Primero se enumeran la dimensiones, ydespues se analizan varies entornos de trabajo para ilustrar estas ideas. Las definicionesdadas son informales: capftulos posteriores proporeionan definiciones mas precisas yejemplos de cada tipo de entorno.

Totalmente observable vs. parcialmente observable.Si los sen sores del agente le proporcionan acceso al estado completo del medioen cada rnornento, cntonces so dice que el entorno de trabajo es total mente obser-vable". Un entorno de trabajo es, efectivamente, total mente observable si los sen-sores detectan todos los aspectos que son relevantes en 1 2 1 torna de decisiones; larelevancia, en cada memento, depende de las medidas de rendimiento. Entornostotalrnente observables son convenientes ya que el agente no necesita mantener nin-gun estado interne para saber que sucede en el mundo. Un entorno puede ser par-cialmente observable debido al ruido y a la existeneia de sen sores poco exactos 0porque los sensores no reciben informacion de parte del sistema, por cjcmplo, unagentc aspiradora con solo LIn sensor de suciedad local no puede saber si hay su-ciedad en la o tr a cuadri cu la , y un taxi automatizado no pudc saber qu e estrin pen-sando otros conductores.

Determinista \'s. estocastico.Si el siguiente estado del mcdio csta totalrnentc detcrrninado por el estado actualy la accion cjccutada por el agente, entonces se dice que el entorno es determinists:de otra forma es estocastico. En principio, un agcntc no se ticn e q ue p rco cu par dela inccrtidurnbre en u n m ed io to talm en te observable y determinista. Sin embargo,si el medic es parcialrncnte observable entonees puede parecer cstocastico. Estoes particularm ente cierto si se trata de un m edio complejo, haciendo diffeil el man-tener constancia de todos las aspectos observados. AS1, a rnenudo es mejor pen-sar en enl0rI10S deterrninisras 0 estocasticos dcsde el punto de vista del agente. EIagente taxi es clararncnre estocastico en este senti do, ya que no se puede prcdccircl cornportamiento del trafico.exactamentc; mas a(1I1, un a rueda se puede reventary un motor sc pucde gripar sin previo aviso. EI rnundo de la aspiradora es deter-

, La primer cdici(ll1 d,: c:.;lc lihro ulili;.a los ierrninos accesible c inaccesible en vel. de total y parcialmen-Ie ohscrvable: no determinista en VC! de estocastico: y no eplsodico en vel, .dc secuencial. La nueva lcr-I I lJ lwlo i li a l 'S I l l~ ' r. sC I lJ l .s J ,l c nl c COil e ll /SO l ~ st ;l hl cC J d( ),


12/30

48 INTEUCiENCIA ARTIFICIAl UN ENFOQUE MODERNO

E S T R A T E G I G O

m inista, como ya se describio, pew las variaciones puedcn incluir elementos es-tocasticos como la aparicion de suciedad aleatoria y un mecanism e de succionineficiente (Ejercicio 2.1 SI el rnedio es deterrninista, excepto para las accionesde otros .agentes, decimos qu e el medic es estrategico.

S E C U E N C I A l

Episodico v s. secuencial",En un entorno de trabajo episodico, la experiencia del agente se divide en episo-dies at6m icos. C ada episodic consiste en la percepcion del agente y la real izacionde una unica accion posterior. Es muy importante tener en cuenta que el siguien-te episodic no depende de las acciones que se realizaron en episodios previos. Enlos medics episodicos Ia clcccion de Ia accion en cada episodic dependc solo delepisodic en sf mismo. M uchas tareas de clasificacion so n episodicas. Por ejem-plo, un agcntc qu e tenga qu e seleccionar partes dcfectuosas en una cadena de mon-taje bas a sus decisiones en la parte qu e esta evaluando en cada mornento, sin teneren cucnta decisiones previas; mas aun, a la decision presente no le afecta el quela proxima fase sea defectuosa. En entornos secucnciales, por otro lado, la deci-sion presente puede afectar a decisiones futuras. EI ajedrez y el taxista sonsecuenciales: en ambos cases, las accioncs que sc rcalizan a corto plazo puedentener consecuencias a largo plazo. Los medics episodicos son mas s im ples qu e lossecuencialcs porque la gentc no nccesita pensar con tiempo.

E P I S O D I C O

S E M l D l N l iM I C O

Estatico vs. dinamico,Si cl cntorno puede cambial cuando el agente esta deliberando, entonces se diceque el entorno es dinarnico para el agcnrc; de otra forma sc dice que cs csuitico.J J)S rnedios estaticos son faciles de tratar ya que el agcnte no necesita estarpendiente de l mundo micntras esta tomando una decision sobre una accion. ninecesita preocuparse sobre el paso del tiempo. Los medics dinamicos, por el COI1-trurio, esran prcguntando conrinuamente al agente que quiere hacer: si no se hadecidido aun. entonces se eniiende que 11a tornado la decision de no haccr nada.Si cl entorno no cambia con el paso del tiempo, pero el rendimiento del agente cam-bia, entonces se dice que cl mcdio cs semidinamico. El taxista es claramcntcdinamico: tanto los otros coches como el taxi se estrin moviendo rnientras elalgoriuno que gufa la conduccion indica que es In proxim o a hacer. EI ajedrcz, cuan-do se juega con un reloj. es sem ideterm inista. Los crucigramas so n cst.iricos .

E S T I i T I C O

D l N A M I C O

D I S C R E T O Discreto vs. continuo.La dist inc ion entre discrete y continuo se puede aplicar al estado del medio, a laforma en la que se maneja el tlempo y a las percepcioncs y acciones d el a ge ntcPo r ejemplo, un medio con estados discretos como el del juego del ajedrez tiencun m im ero finite de esiados distinros. E I ajedrez tiene un conjunto discrete deperccpcioncs y acciones. EI taxista conduciendo define un estado continuo y unproblem a de tiem po continuo: la velocidad y la ubicacion del taxi y de los otrosvehiculos pasan por un ran go de valores continuos de forma suave a 10 larg o del

C O N T I N U O

I, La p:tlahr:1 "S"Cll'~I1Ci:lJ" xc utili/a r.unhicn ell cl campo de la Informalica C0ll10 :lllll,>nin1


13/30

A G E N T E I N D IV ID U A L

M U L T I A G E N T E

C O M P E T I T I V O

C O O P E R A T I V O

ACiENTES INTELI(;[NTES 49

ticm po. Las conduccion del taxista es tam bien continua (angulo de direccion, etc.).L as im agenes captadas por cam aras digitalcs son discretas, en sentido (strictu, pewse tratan tfpicam ente com o reprcsentaciones continuas de localizaciones e inrens id ad cs v ar ia bl es .

Agente individual vs . multiagente.La distincion entre cl entorno de un agcnte individual y el de un sistema mul-tiagente puede parecer suficienternenre simple. Por ejemplo, u n agente resol-viendo un crucigrarna por sf mismo est a claramente en un entorno de agenteindividual, m ientras que un agente que juega al ajedrez esta en un entorno condos agentes. S in emba rg o hay algunas diferencias sutiles. Prim ero, se ha descritoque una cntidad puede percibirse como un agente, pero no se ha explicado queentidades sc deben considerar agentes. (.T iene el agente A (por ejernplo el agentc taxista) que tratar un objcto B (otro vehiculo) como un agcntc, 0 puede tra-tarse meramente como un objeto con un cornportamiento estocastico, como lasolas de la playa 0 Ia.'>hojas que m ueve cl viento? I . a distincion clave esta en iden-tificar si el com portam iento de B esta mejor descrito porIa m aximizacion de unamedida de rendirniento cuyo valor dcpende del comportarnicnto de it. Po rejemplo, en el ajedrez, la entidad oponente B intenta maximizar su rnedida derendimiento, la cual, scgun las reglas, m inimize la mcdida de rendimienio de lagente A. Por tanto, el ajedrezes un entorno rnultiagente competitlvo. Por otrolado, en el medio definido por e] t ax is ta c ir cu la ndo, c] evitar colisioncs m axi-miza la rncdida de rendimiento de todos los agentes, as! pues es un entorno mul-r ia ge nt e p ar cia lment e cooperativo. Es tarnbien parcialm entc com petitive yaque, pur ejcmplo, solo un coche puede ocupar una plaza de aparcamiento. Losproblemas en el disefio de agentes que aparecen en los entornos multiagcnte sona rnenudo bastante diferentcs de los que aparecen en cntornos con un unico agen-te: por ejemplo, la comunicacion a rnenudo em erge com o un cornportam ientoracional en entornos multiagcnte; en algunos cntornos cornpetitivos parcial-mente obscrvables cl comportamiento estocastieo es racional ya que evita lasd ificu ltades de la p red iccio n.

Como cs de espcrar, el casu mas complejo es el parcialmente observable, estocdstico,I'CClI(?ICi({/, dinamico, continuo y multiagente. De heche, suele suceder que la rnayonade las situacioucs rcales son tan cornplejas que seria discutible clasificarlas com o rea/-mente dererm inistas. A efectos practices, se dcben tratar com o cstocasticas. U n raxistacirculando cs un problema, complejo a todos los efectos.

La Figura 2.6 presenta las propiedades de un rnimero de en torn os familiares. Hayque tcncr en cuenta que las respuestas no estan siernpre preparadas de antcrnano. Porejemplo, se ha presentado el ajedrez com o totalm enre observable; en senudo estricto, estoes falso porque ciertas reglas que afecran al m ovirniento de las torres, el enroquc y a 1110-virnientos pur repeticion requieren que se recuerden algunos hechos sobre la historia deljuego que no est.in rcflcjados en el cstado del tablero. Estas excepciones, por SlIpUeS[O,110 ticncn irnportancia si las cornparamos con aqucllas que aparecen en el caso deltaxisra, el tutor de ingle, () e l sistema de d ia gn os tico m ed ic o.


14/30

50 INTEU(iENCIA ARTIFICIAL UN ENFOQUF MODERNO

Entornos de trabajo~--------"---"-----,------ ---------r---------------.--"---------r -------" ----"-"-----"--T"--~--"-""""Observable Determinista Episodico EstaticoCrucigramaAjedrez con reloj

Discreto AgentesToralmente DctcrministaTotal mente Estrategico

SecuencialSecuencial

EstaticoSemi

DiscreteDiscrete

IndividualMulti

PokerBackgammonTaxi circulandoDiagnostico medico

Parcialrnente EstrategicoTotalmente Estocastico---F

Parcialmente Ii Estoc.istico SecuencialParcial mente Estocastico Secuencial

SecuencialSccucncial lst.iticoEstarico DiseretoDiscreto MultiMultiDinamicoDinarnico

ContinuoContinuo

MultiIndividual

Analisis de imagenRobot clasificador IndividualControlador de refineriaTutor interactive de inglesFigura 2.6 Ejemplos de entornos de trabajo y sus caracterfsticas.L_ ~ "_" __

----- ---- --~--Semi Continuo Individualotal mente Determinista r Episodico

Parcialmcnte Estocastico Episodico Dinarnico Continuo- -- ----------+---------~----------ParcialmenteParcialmente

EsrocasticoEstocastico

SecuencialSecuencial

DinamicoDinamico ContinuoDiscreto IndividualMulti

Otras entradas de la tabla dependen de como se haya definido cl entorno de trabajo.Se ha definido el sistema de diagnostico medico como un unico agente porque no esrentable modelar el proceso de 11nfermedad en un pacierite como un agentc; pero inclusoel sistema de diagnostico medico podna necesitar tener en cuenta a pacientes recalci-trantes y ernpleados escepticos, de forma que el entorno podrfa tener LInaspccto mul-tiagente. Mas min, el diagnostico medico es episodico si sc concibe como proporcionarun diagnostico a partir de una lista de sintomas; el problema es secuencial si clio traeconsigo la propuesta de una serie de pruebas, un proceso de evaluacion a 1 0 largo deltratamiento, y dernas aspectos. Muchos entornos son, tarnbien, episodicos si se obscr-van des de LIn nivel de abstraccion mas alto que el de las acciones individuales del agen-teo Por ejernplo, un torneo de ajedrez consiste en una secuencia de juegos; cada juegoes un episodic, pero (a Ia larga) la contribucion de los movimientos en una partida al re-sultado general que obtenga el agente no se ve afectada por los movimientos realizadosen la partida anterior. Por otro lado, las decisiones tornadas en una partida concreta sonciertarnente de tipo secuencial.

El repositorio de c6cligo asociado a cste libro (airna.cs.berkeley.edu) incluye laimplernentacion de un mimero de entornos, junto con un sirnulador de cntornos de pro-posito general que situa uno 0 111,\8 agentes en un cntorno simulado, observa su comportarniento a 10 largo del tiempo, y los evalua de acuerdo con una medida de rcndimientodada. Estos experimentos no s610 se han realizado para un medio concreto, sino que sehan realizado con varios problemas obtenidos de una clase de entornos. Por cjernplo,para evaluar un taxista en un trafico simulado, seria interesantc haccr varias simulacio-ncs con difcrentc tipo de trafico, claridad y condiciones atmosfericas. Si se diseria unagenre para un escenario concreto, se pueden sacar ventajas de las propiedades especf-ficas de esc caso en particular, pero pucdc no idcntificarse un buen diseno para condu-cir en general. Por esta razon, el repositorio de codigo tarnbien incluyc un generadorde entornos para cada clase de medics que selccciona habitats particularcs (con ciertasposibilidadcs) en los que ejecutar los agentes. Por ejemplo, el generador de un entorno

C LA SE D E E NT OR NO S

G E N E R A D O RD E E NT O RN O S


15/30

AGI'NTES INTELKiENTES 51

para un agcnte aspiradora inicializa el patron de suciedad y la localizacion del agentede forma aleatoria. Despues, es interesante evaluar la eficacia media del agentc en el con-texto de la clase del entorno. Un agente racional para una c1ase de entorno maximiza elrendimiento medio. Los Ejercicios del 2.7 al 2.12 gufan el proceso de desarrollo de unaclase de entornos y la evaluacion de varios agentes.

2.4 Estructura de los agentes

A R O U I T E C T U R A

Hasta este momento se ha hablado de los .agentes describiendo su conducta, la accionque se realiza despues de una secuencia de percepciones dada. Ahora, se trata de cen-trarse en el nucleo del problema y hablar sobre como trabajan internamcnte. El trabajode la IA es disefiar el programa del agente que implernente la funcion del agente queproyecta las percepciones en Jas acciones: Se asume que estc programa se ejecutara enalgun tipo de cornputador con sen sores Iisicos y actuadores, 1 0 cual se conoce comoarquitectura:

P R O G R A M AD E l A G E t iT E

Agente = arquitectura + programaObviarnente, el programa que se elija tiene que ser apropiado para la arquiteetura. Si elprograma tiene que recornendar acciones como Caminar, la arquitectura tiene que tenerpiernas. La arquitectura puede ser un PC comun, 0 puede ser un coche robotizado convarios computadores, camaras, y otros scnsores a bordo. En general, Ja arquitectura haceque las percepciones de los sensores esten disponiblespara el program a, ejecuta los pro-gramas, y se encarga de que los actuadores pongan en marcha las acciones generadas.La mayor parte de este libro se centra en el diseiio de program as para agentes, aunquclos Capftulos 24 y 25 tratan sobre sen sores y actuadores.

Programas de los agentesLos programas de los agentes que se describen en cste libro tienen la misma estructura:reciben las percepciones actuales como entradas de los sensores y devuelvcn una acciona los actuadores. Hay que tener en cuenta la difcrencia entre los programas de los agen-tcs, que ternan la percepcion actual como entrada, y Ja funcion del agente, que recibe lapercepcion historica completa. Los programas de los agentcs rcciben solo la percepcionactual como entrada porque no hay nada mas disponible en el entorno; si las accionesdel agente dependen de la secuencia completa de percepcioncs, cl agente tendria que re-cordar las percepciones.

Los programas de los agente se describiran con la ayuda de un sencillo lenguaje pseu-docodigo que se define en el Apendice B. El rcpositorio de codigo disponible en Inter-; H ay otras posibilidaties para dcfiuir la cstructura del program a para el agente: por ejem plo. los program asIX lr;1agentes pueden ser subrutinas que se cjccutcn asincronicarncntc en el enlorno de trabajo. Cada una de(slas subrutinas ticncn un pucrto de entrada y salida y consisicn en un buck quc intcrprcta las entrad;ls delpuerto COIllO perccpcioncx y cscribc .iccionc en el puerto de salida.


16/30

52 INTELlCJENCIA ARTIFICIAL UN ENFOQLE MODERNO-----1funcion AC;!'\JII-DlRIGII)()-rv!LIlIi\I\TF IAllLA(percepci(ln) devuelve una accion

variables estaticas: prrccpcioncs, una secuencia, vacia inicialmentctabla, una tabla de acciones, indexada por las sccucncias dep crc ep cio nc s, to ta lrn cn tc d cfin id a in ic ia lm cn te

afiadir la percepcion al final de las percepciotusaccion (-- CONSLJITA(percepciones, tah/a)devolver arcionFigura 2.7 El programa AGENTE-DlRIGIDO-MEDIANTE TABLA se invoca con cada nueva percepciriny devuelvc una accion en cada memento. Almacena la secuencia de percepciones utilizando su pro-pia estructura de datos privada.

net contiene implementaciones en Icnguajes de prograrnacion reales. Por ejernplo, laFigura 2.7 muestra un programa de agente muy seneillo que almaeena la secuencia depercepciones y despues la s compara con las sccucncias almaccnadas en la tabla de ac-cion es para decidir que hacer. La tabla representa explicitamente la funcion q ue d efin eel program Cl del agente. Para construir un agente racional de esta forma, los diseiiado-re s deben realizar una tabla que co nteng a las accio nes apropiadas para cada secuenciaposible de percepciones.

Intuitivam ente sc puedc aprcciar por que la propuesta de direccion-rnediante-rablapara la construccion d e a ge nt es esta condenada al fracaso. Sea P el conjunto de posiblespcrccpcioncs y Tel ticmpo de vida del agcntc (e l numcro total de percepciones qu e recib ira). L a tab la de b iisq ued a contendra 2 : ; I I I ' I ' entradas. S i considerarnos ahora cl tax iautom atizado: la entrada visual de una cam ara individual cs de 27 m egabytes por segundo(30 foto grafias po r seg un do , 640 X 480 pixels con 24 b its d e in fo rm ac io n de colores)Lo cual genera una tabla de busqueda con mas de I cntradas por bora de con-duccion. Incluso la tabla de biisqueda del ajedrez (un fragrnento del mundo real pcquc-n o y obediente) tiene por 1 0 menos I ()15 0 enrradas. EI tarnafio exageradarncnte grande deestax iablas (c I ruimero de arornos en el universe observable es m enor que 10"') signi fca que (a) no hay agente fisico en este universe que tenga el espacio suficientc como paraalrnaccnar la tabla. (b ) cl disefiador no tcndra ticm po para crear la tab la , (c ) ningun agen-te podrla aprender todas las entradas de la tabla a partir de xu experiencia, y ( d) i nc lu sosi el entorno es 1 0 suficienternente sim ple p ara g enerar una tabla de un ramano razona-ble, el disefiador no tieric quien le asesore en la form a en la que rellenar la tabla.

A pesar de todo ello, el AGEI\TE-DIRlCiIDO-MEDIAVIE TABI;\ haec 10quc nosotros quercmos: irnplernenta la funcion dcscada para el agcnte. El desaffo clave de la IA es ('11-contrar la forma de escribir programas, que en la medida de 1 0 posible, reproduzcan uncornportamicnro racional a partir de una pequciia eantidacl de codigo en vez de a paru:de una tabla con un grannurnero de e ntra da s. Existe n bastantes ejem plos que mucstranqu e sc pucdc haccr con ex iro en otras areas: por ejem plo, las grandcs tablas dc las rafcc-cu adrad as u tilizad as p or ing en ieros y estudiantes antes de 197 0 se han reem plazado pOIun programa de cinco lincas qu e implemcnta cl metodo de Newton en las calculadorusclcctronicas. La pregunta cs. ell cl caso del cornportarnicnto i nt el ig en te g en er al , (,puelkla 1/\ hacer In que Newton hizo con las raices cuadradas? Crccm os qu e l a rcspuesra c. \afirmativa.


17/30

A G EN T E R E A C T IV OS I M P L E

R EG lA O EC O N O I C I O N - A C C I O N

N,ENTES INTELIGENTES 53En 1 0 que resta de esta seccion se presentan los cuatro ti pos basicos de programas

para agcntcs que encarnan los principios que subyaccn en casi rodos los sistemas intc-ligentes.

Agentes rcactivos simples. Agcntes reactivos basados en modelos. Agentes basados en objetivos . Agcntes basados en utilidad.

Despues sc explica, en terminos generales, como convertir todos ellos en agentes queaprendan.

Agentes reactivos simplesEI tipo de agente mas scncillo es cl agente reactivo simple. Estos agentes selecciorranlas acetones sobre la base de las percepciones actuales, ignorando cl resto de las per-cepciones historicas. POI' ejernplo, el agente aspiradora cuya funcion de agente sc pre-scnto en la Figura 2.3 cs un agcnte reactive simple porque lorna sus dccisioncs s610 conbase en la localizacion actual y si esta esta sucia. La Figura 2.8 muestra el program a paraeste agente.

Hay que tener en cuenta que el programa para el agente aspiradora es muy pequeiiocornparado con su tabla correspondientc, La rcduccion mas clara se obtiene al ignorar1a historia de percepcion, que reduce el numero de posibilidades.de 4 7 a s610 4. Otra re-duccion se basa en cl hecho de que cuando la cuadrfcula actual esta sucia, la accion nodcpende de la localizacion.

lmagfncsc que es el conductor del taxi automatico. Si el coche que circula delantefrena, y las luces de Ireno se cnciendcn, entonccs 1 0 advcrtiria y comenzarfa a Irenar Enotras palabras, se llevaria a cabo algun tipo de procesamiento sobre las sen ales visualespara esrablecer la condicion que sc llama 1] coche que circula delantc cstri frcnando.Esro dispara algunas concxiones establecidas en el program a del agente para que se eje-cute la accion iniciar frcnado. Esta conexion se denomina regia de condicion-accion",y se representa por

si cl-coche-oue-ci rcula-delante-esui-frenando entonces inicia r-jrenada.

funcion ACEN-I EAsplF:i\[)ORi\-RI:i\CTlvOCl!o('(/lhICi/5/1, CI'/O'/O I) devuelve una accionsi ('.Ilm/o = St:io entonces devolve!' /ispirarde otra forma, si locali-acion A entonces devolve!' Derechade otra forma, si locali.ocion B entonces devolver izqflicnio

2.8 Program a para el agcnle aspiradora de reactivo simple en el entorno definido por lascuaclrfculas. Este programa implementa la funcion de agente prcsentada en la Figura 2.3 .

..T;llllhic'n Ilalll;:d;:, I-e~las de sitlwciclCl-acci6n. producciones. () reglas si-entonces.


18/30

54 INTELlGENCIA ARTIFICIAL. UN ENFOQUE MODERNO

Los humanos tambien tienen muchas de estas conexiones, algunas de las cuales son res-puestas aprendidas (como en el caso de la conduccion) y otras son rcacciones innatas(como parpadear cuando algo se acerca al ojo). A 1 0 largo de esta obra, se estudiarandifcrentes forrnas en las que se pueden aprender e implernentar estas conexiones,

El programa de la Figura 2.8 es especifico para cl entorno concreto de la aspirado-ra. Una aproximacion mas general y flexible es la de construir primero un interprete deproposito general para reglas de condicion-accion y despues crear conjuntos de regJaspara entornos de trabajo especificos. La Figura 2.9 presenta la estructura de este programageneral de forma esquernatica, mostrando como las rcglas de condicion-accion penni-ten al agente general' la conexion desde las percepciones a las acciones, No sc preocu-p e si Ie parece trivial; pronto se complicara. Se utilizan rectangulos para denotar el estaclointerim actual del proceso de toma de decisiones del agente y 6valos para representar lainformacion base utilizada en el proceso. EI program a del agente, que es tambien muysimple, se muestra en Ia Figura 2.10. La funcion INTERPRETAR-ENTRADA genera unadescripcion abstracta del estado actual a partir de la percepcion, y la funci6n REGLA-COIN-CIDENCIA devuelve la prirnera regia del conjunto de reglas que coincide con la descrip-cion del estado dada. Hay que tener en cuenta que la descripcion en terminos de reglas

( Agente

Actuadores --+--+e-

"--~- ' - - " Ii

I F i g u _ ra _' _ 2 _ .9_ D _ i_ ag _ ' I _ ' a _ I 1 1 , _ a _ e _ s _ q _ U _ e l _ l l _ < l _ t i _ C ( _ ) _ d _ e _ u _ ng e n t e r e a e t i v o s ~ I ~ ~ l e _ ._ _ _

I un ci on ; \GENTI. -RF .\C ilVO -S IMPIY (p er cepc i6 nl devuelve u n a acci6nestatico: reg/as, un conjunto d e reglas condicion-accion

cstado . '- INTERPRI TAR-ENTRALJ/\(jicrce/7cidn)leg/II


19/30

A L E A T O R I O

[ S TA O O I N T E R N O

A(JENTFS INTEI.IGFNTFS 55

y coincidencias es puramenre conceptual; las implemcntaciones rcales pucdcn scr tansimples como colecciones de puertas 16gicas implementando un circuito booleano.

Los agentes reactivos simples tiencn la admirable propiedad de scr simples, pcroposeen una inteligencia muy limitada. EI agente de la Figura 2.10 funcionara s(510 sise puede tomar la decision correcta sobre la base de la percepcion actual, 10 cualposible solo si el entorno es totalmente observable. lncluso el que haya una pequefiaparte que no se pueda observar puedc causar scrios problemas. Por ejcmplo, la regiade frenado dada anteriormente asurne que la condicion el-coche-que-circula-delante-esta-frenando se puede detcrminar a partir de la perccpcion actual (imagen de vfdcoactual) si el coche de enfrente tiene un sistema centralizado de luces de freno.Desafortunadamente, los model os antiguos tienen diferentes configuraciones de lucestraseras, luces de frenado, y de interrnitentes, y no es siempre posible saber a partir deuna unica imagen si el coche esta frenando Un agente reactive simple conduciendodetras de un coche de cste tipo pucde frenar contiriuamente y de manera innecesaria.o peor, no Irenar nunca.

Un problema similar aparece en el mundo de la aspiradora. Supongamos que se eli-mina cl sensor de localizacion de un agente aspiradora reactivo simple, y que s610 tie-ne un sensor de suciedad. Un agente de este tipo tiene solo dos percepciones posibles:[Sucio] y [Limpio). Puede Aspirar cuando se encuentra con [Sucio]. LQue debe hacercuando se encucntra con [Limpio]? Si se desplaza a la Izquierdo se equivoca (siernpre)si est a en la cuadricula A, y si de desplaza ala Derecha se e qu iv oc a ( si er np re ) si esta enla cuadrfcula B. Los bucles infinitos son a menu do inevitables para los agentes reacti-vos simples que operan en algunos entomos parcialmente observables,

Salir de los bucles infinitos es posible si los agcntes pueden seleccionar sus accio-ne s aleatoriamente. Po r ejemplo, si un agcnte a sp ir ad ora p er cib e [Limpio], puede Ianzar una moneda y eJegir entre Izquierdo y Derecha. Es Licit rnostrar que cl agente semovera a la otra cuadricula en una media de dos pasos. Entonces, si la cuadrfcula est asucia, la I irnpiara y la (area de limpieza se completara, Por tanto, un agente reactive simplecon capacidad para elcgir acetones de manera alcatoria puede mejorar los resultados queproporciona un agente reactivo simple determinista.

En la Seccion 2.3 se menciono que un comportamicnto aleatoric de un tipo adecua-do puede resultar racional en algunos entomos multiagente. En ent or no s de agcntcs in-d iv idu ale s, c l c ompor tam iento aleatorio 110 es norrnalmente racional. Es un truco util queayuda a los agentes reactivos simples en algunas situaciones, pero en la mayorfa de loscasos se ob ten dran rn ejo res resultados con agentes deterrn in istas m as sofisticados.

Agentes reactivos basados en modelosLa forma mas efectiva que tienen los agentes de manejar la visibilidad parcial es alma-cellar informacion de las partes del mundo que no pueden vcr. 0 10 que es 10 rnisrno,el agente debe mantener algun tipo de estado interno que dependa de la historia perci-bida y que de ese modo refleje por 10 menos alguno de los aspectos no observables delest ado actual. Para el problema de los Ircnos, el estadointerno no es dcmasiado exten-so. solo la fotograffa anterior de la carnara, facilitando al agcnie la deteccion de dos lu-ces rojas enccndiendose y apagandosc simultancamcnte a los costados del vehfculo. Para


20/30

56 INTEUCENCIA ARTIFICIAL. liN Ef\.FOQLE 'vIODERNO

A G EN T E B A S A D OE N M O O E l O S

otros aspectos de la conduccion, como un cambio de carri], el agente tiene que mante-ncr inforrnacirin de la posicion del resto de los coches si no los puede ver.

La actualizacion de la informacion de estado in te rn e s cg un pasa el tiernpo requierecodificar dos tipos de conocimiento en el programa del agente. Primero, se necesita al-guna informacion acerca de com o evoluciona el mundo independientem ente del agen-te, por ejemplo, que un coche que esta adelantando esrarri mas cerca, dctras, que en unmomento inrnediatamente anterior. Segundo, se necesita mas informacion sobre comoafecran al mundo las acciones de l agcnte, pur ejcmplo, que cuando el agente girl' haciala derccha, el cochl' gira bacia la derecha 0 qu e despues de conducir durante cinco mi-nutos hacia el norte en la autopista se avanzan cinco millas hacia el norte a p artir d el pun-to en el que se estaba cinco minutes antes. Este conocimiento acerca de ccmo funcio-na el mundo, tanto si esta irnplcmentado con un eircuito booleano simple 0con teoriascienuficas cornpletas, se denornina modelo d el m un do . Un agcnte qu e utilicc este mo-dclo es u n ag en te basado en modelos.r---------.-.----- ---- -.--~- .~--.--------- -----------_--~

Agente Actuadores ---4--1-....

r~~n /\(;I~Nrl- R.I:.-\ClIVO-C'(IN.-ESIA.[)()(.pcrcepCi6n) de~u~~~ una ace ionestatico: ('.\/(1110. una dcscripcion actual del cstado del mundoregji,. lin conjunto de reglas condicionaccionaician. la a cc io n mas rccientc, inicialm cnte ninguna, estado (---ACTL\UZ;\R-EsT;\DO(C.I'wdo, accion, percencion)r cg l (.- - l


21/30

i\C;FNTFS INTFUC;l:NTIS 57

La Figura 2.11 proporciona la estructura de un agente reactive simple con estado in-tcrno, rnucstra como la percepcion actual sc combina con cl estado interne antigun parageneral' la descripcion actual izada de 1estado actual. La Figura 2.12 muestra el progra-rn a del agente. La parte interesante es la correspondicntc a fa funcion Actualizar-Esta-do, que es la responsablc de la creacion de Ia nueva descripcion del estado interne. Ade-mas de interpretar la nueva percepcion a partir del conocimicnto existcntc sobre elestado, utiliza informacion relativa a la forma en Ia que evoluciona el mundo para co-noccr mas sobre las partes del mundo que no estrin visiblcs: para ello debe conocer cuales e I efecro de las acciones del agente sobre el estado del mundo. Los Capitulos J O y 17ofrecen ejemplos detallados.

Agentes basados en objetivos

M E T A

E1conocimiento sobrc e1 cstado actual del mundo no es siernpre suficiente para decidirque hacer. Por ejernplo, en un cruce de carreteras. el taxista pucde girar a la izquierda,girar ala derecha 0 scguir hacia adelante. La decision correcta depende de donde quiereir el taxi. En otras palabras, adernas de la dcscripcion del estado actual, el agente nece-sita algun tipo de informacion sobre su meta que describa las situaciones que sondcseablcs, por ejernplo, llegar al destine propucsto por cl pasajero, El programa del agen-te se puedc cornbinar con informacion sobre los resultados de las acciones posibles (lamisrna informacion que se utilize para actualizar el cstadoinrcrno en cl caso del agente reflexive) para clegir las acciones que permitan alcanzar e1 objetivo. La Figura 2.13muestra la estructura del agente basado en objctivos.

El l algunas ocasiones, la seleccion de acetones basadas en objetivos es directs. cuan-do alcanzar los objetivos es cl resultado inmediato de una accion individual. En otras oca

Figura 2,13 Un agcnte basado en objetivos y basado en rnodelos, que almaccna informacion delcstado del rnundo asi COIllO del conjunto de objetivos que intenta alcanzar, y qu e es capaz de SI:"leccionar la accion que cvcntualm cnte 10 guiani bacia l a cons ecuci on de SliS objctivos.

-----_-- ---------


22/30

58 INTELlGFNCIA ARTIFICIAL UN ENFOQllE MODERNOsiones, puede ser mas complicado, cuando el agcnte tiene que considerar secuencias com-plejas para encontrar el camino que le permit a alcanzar el objetivo. Busqueda (Capftu-los del 3 al 6) y planiflcacion (Capttulos 1 I Y 12) son los subcampos de la fA centra-dos en encontrar sccuencias de accioncs que permitan a los agentes aJcanzar sus metas,

Hay que tener en cuenta que la toma de decisiones de este tipo es fundamentalmen-te diferente de las reglas de condicion-accion descritas anteriormente, en las que hay quetener en cuenta consideraciones sobre el futuro (como (,que pasara si yo hago csto yesto? y 2,me hara esto feliz?). En los discnos de agentcs reactivos, esta informacionno esta represent ada explfcitamente, porque las reglas que maneja el agente proyectandirectamente las percepciones en las acciones. EI agente reactive frena cuando ve lucesde freno. Un agente basaclo en objctivos, en principio, puede razonar que si el coche queva delante tiene encendidas las luces de frenado, esta reduciendo su velocidad. Dada laforma en la que el mundo evoluciona normal mente, la unica accion que perrnite alcan-zar la meta de no chocarse con otros coches, es frenar.

Aunque el agente basado en objetivos pueda parecer rnenos eficiente, es mas flexi-ble ya que el conocimiento que soporta su decision esta representado explfcitarnentc ypuede modificarse. Si comienza a llover, el agente puc de actualizar su conocimiento so-bre como se comportan los frenos: 1 0 cual implicata que todas las formas de actuar re-levantes se alteren automaticamente para adaptarse a las nuevas circunstancias, Para elagente reactive, por otro Iado, se tendran que rescribir muchas reglas de condicion-ac-cion. El comportamiento del agente basado en objetivos puede cambiarse facilmente paraque se dirija a una localizacion diferente. Las reglas de los agentes reactivos relaciona-das con cuando girar y cuando seguir recto son vrilidas .s610 para un destino concreto ytienen que rnodificarse cada vez que el agcnte sc dirija a cualquier otro lugar distinro.

Agentes basados en utilidad

U T I L I D A D

Las mctas por sf solas no son realmente suficientes para generar comportamiento de grancalidad en la mayorfa de los entornos. Por ejernplo, hay muchas secucncias de accionesque llevaran al taxi a su destine (y por tanto a alcanzar su objetivo), pero algunas sonmas rapidas, mas seguras, mas fiables, 0 mas baratas que otras. Las metas s610 propor-cionan una cruda distincion binaria entre los estados de felicidad y tristeza, mien-tras que una medida de eficiencia mas general deberia permitir una comparacion entreestados del mundo diferentes de acuerdo al nivel exacto de felicidad que el agente al-cancc cuando sc llegue a un estado u otro. Como el termino felicidad no sucna muycientifico, Ia terminologfa tradicional utilizada en estos casos para indicar que se pre-fiere un estado del mundo a 0(1'0 es que un estado tiene mas utilidad que 0(1'0 para elagente".

Una funcion de utilidad proyecta un estado (0 una secuencia de estados) en un mi-mero real, que reprcsenta un nivel de felicidad. La definici6n completa de una funcionde utilidad permite tomar decisiones racionales en cIos tipos de casos en los que las me-(as son inadccuadas. Primero, cuando haya objetivos conflictivos, y solo sc puedan al-

F U N C IO N D E U T IL IO A D


23/30

;\GENTES INTELlGENTES 59

Figura 2.14 Un agcnte basado en utilidad y basado en modelos, Utiliza un modelo del rnundo,junto can una funcion de utilidad que calcula sus prefereneias entre los estados del mundo. Des-pues selecciona la accion que le lleve a alcanzar la mayor utilidad esperada, que se calcula haciendola media de todos los estados rcsultanres posibles, ponderado con la probabilidad del resultado.

canzar algunos de ellos (por ejem plo, velocidad y seguridad), la funcion de utili dad de-terrnina el equilibrio adecuado. Segundo, cuando haya varios objetivos por los quc sepueda guiar el agente, y ninguno de ellos se pueda alcanzar con certeza, la utilidad pro-porciona un mecanismo para ponderar la probabilidad de exito en funcion de la impor-L an cia d e lo s o bje tiv os .

E n el C apitulo 16, se m ostrara com o cualquier agente racional debe com portarsc comosi tuviese una funcion de utilidad cuyo valor esperado tiene que m axim izar, Por tanto,un agente que posea una funcion de utilidad explicita puede tom ar decisiones raciona-lcs, y 1 0 puede hacer con la ayuda de un algoritmo de proposito general que no dependade la funci6n especffica de utilidad a m aximizar. De esta forma, la definicion globalde racionalidad (identificando com o racionales aquellas funciones de los agcntes que pro-porcionan cl mayor rendim iento) se transform a en una restriccion local en el disefiode agentes racionales que se puede expresar con un sim ple programa.

La Figura 2.14 rnuestra la estructura de un agente bas ado en utilidad. En la Parte IVaparecen program as de agentes basados en utilidad, donde se presentan agentes que lo-man decisiones y que deb en rrabajar con la incertidum brc inherente a los entornos par-cialmente observables.

Agentes que aprendenSe han descrito program as para agentes que poseen varios m etodos para selcccionar ac-ciones. H asta ahora no se haexplicado c6m o poner en marcha estos program as de agen-les. Turing (1950), en su temprano y famoso articulo, considero la idea de programarsus m aquinas inteligentes a m ano. Estim o cuanto tiernpo podia !levar y concluyo que Se-


24/30

60 INTEUCiENCli\ )\RTIFICIAI .. liN E,-,FOQII1'-l()J)ERNO

E LE M EN TO D EA P R E N D I Z A J E

E L E M E NT O D EA C T U A C I O N

C R i T i C A

rfa deseable utilizar algun m ctodo mas rapido. EI m etodo que propene es construir rnaq uinas q ue ap rcn dan y despues ensefiarlas. En m uchas areas de IA , este es ahora el me-todo m as adecuado para crcar sistem as ncvedosos.El aprendizaje tienc otras ventajas,co mo se ha cx plicado anterio rm en te: perrnite qu e e 1 ag cnte o pere en m ed ics in icialm en tedesconocidos y que sea mas com petente que si solo utilizase un conocim iento inicial.En esta seccion. se introducen brevementc las principales ideas en las que se basan losagentes que aprendcn. En casi todos los capitulos de este libro sc comentan las posibi-lidadcs y metodos de aprendizaje de tipos de agenres concretos. L a P arte V I profundi-za m as en los algoritmos de aprendizaje en sf misrnos.

Un agente que aprende se pucdc dividir en cuatro cornponentes conceptualcs, tal ycomo se muestra en la Figura 2.1 La distincion mas importante entre el clemente deaprendizaje y el elemento de actuacion es qu e el p rimero e st a responsab il iz ado de haccrmejoras y cl segundo se responsabiliza de la sclcccion de acetones externas. E I elem entode actuacion es 1 0 que antcriormente se habta considerado como el agentc complete:r cc ib c e sumul os y deterrnina las accioncs a rcalizar. EI elernento de aprendizaje se rea-lim enta con las criticas sobre la actuacion del agente y determina com o se debe m odi-ficar el elem ento de actuacion para proporcionar rnejores resultados en el futuro,EI disefio del clem ente de aprendizaje depende 1 1 1 1 1 c h o del diserio del elernento deactuacion. C uando se intenta disciiar un agcnte que tenga capacidad de aprender, la pri-mera cuestion a solucionar no es (,C61110 se puede enscfiar a aprcnder", sino (,que tipo declem ente de actuacion neccsita cl agcnre para llevar a cabo su objctivo, cuando hayaaprendido como hacerlo? Dado un diseno para un agcntc, se pueden construir los me-eanism os de aprcndizajc ncccsarios para m ejorar cada una de las partes del agcntc.

La crftica indica al clem ente de aprcndizajc qu e ta l 10 esta haciendo el agente conrcspecto a un nivcl de actuacion fijo. La eritica es necesaria porquc las pcrcepcioncs pors f mis rnas no proven una indicacion de l e x ito d el agenrc. Po r e jempl o, un prograrna de

Sensores

,"" ,hi" I~ . . .I

!7'~c,'_oSs r .

! (D

~ - j I \ ~ _ . ~ct uadores ~_ ' ~gente\~Figura 2.15 Modclo general para agentcs que aprcnden .

.~-~~---~-


25/30

G EN ER AD OR D EP R O B L E M A S

,\(il-N'TES INTELIGENTES 61ajedrcz puede recibir una percepcion indicando que ha dado jaque mate a su oponcnrc,pew necesita teuer un nivcl de actuacion que le indique que ello es bueno: la percepcionpor sf m isma no 10 indica, Es por tanto m uy im portante fijar el nivel de actuacion, C011-ceptualmente. sc debe traiar con 61 como si estuviese tuera del agentc, ya que este nodebe rnodificarlo para sarisfacer su propio interes.

EI ultimo cornponcnte del agcntc con capacidad de aprendizaje es elgenerador deproblemas. Es responsable de sugerir acetones que 10 guiaran hacia experiencias nue-vas c informativas. Lo interesante es que si cl clcrncnto de actuacion sigue su cam ino,puedc continuar llevando a cabo las acciones que sean m ejores, dado su conocirniento.Pero si el agente esta dispuesto a explorar un poco, y llevar a cabo algunas acciones queno sean totalmente optimas a corto plazo, puede descubrir acciones mejores a la rg o pla-z o o EI trabajo del generador de p rob lemas es sugerir estas acciones exploratorias. Estoes 10 quc los c ic ntffic os h ac cn cuando llevan a cabo experirnentos. G alilee no pensabaque tirar p iedras desde 1 0 alto de una terre en Pisa terua un valor por sf m ism o. E I no tnttab a de rom per piedras ni de cam biar la form a de pcnsar de transeuntes desafortunadosque paseaban pm el lugar. Su intencion era adaptar su propia m ente, para identificar unateorfa qu e definiese mejor el rnovirniento de lo s objetos.

Para concretar el discfio to tal, se puede volver a utilizar el ejernplo del taxi autorna-tizado. EI clemente de actuacion consiste en la coleccion de conocimienros y procedi-m ientos que riene el taxi para sclcccionar sus acciones de conduccion. El taxi se ponee n m arc ha y circula utilizando este elem ento de actuacion. La crftica observa el m undoy proporciona inform acion al elem cnto de aprcndizaje, POl' e jernplo, dcspues de que eltaxi se siu ie tres ca rrilcs h acia la iz qu ie rd a de fo rm a rapid a, la crftica observ a el len guajeescandaloso que utili/an otros conductores. A partir de esta experiencia, el elcm ento deaprcndizaje es capaz de forrnular una regia que indica que esta fuc una mala accion, yel elcmcnto de actuacion se modifica incorporando la nueva regia. EI generador de pro-blem as debe idenrificar ciertas areas de cornportam icnto que deban m ejorarse y sugerirexpcrimentos, com o probar los frenos en carreteras con tipos difercntes de superficiesy b ajo co nd icio nes d istin ta s.EI clem ente de aprcndizujc puede hacer cam bios en cualquiera de los com ponentcxde conocirniento que se m uestran en los diagrarnas de agente (Figuras 2.9 , 2.1 1,2 .13,Y 2.14), Los caxos mas sim ples incluycn cl aprendizajedirccto a partir de la secuenciapcrcibida, La observacion de pares de estados sucesivosdel entorno puede perrnirir queel agcnte apren da c61110 evo lu ciona cl m und o, y la obxervacion de los resultados desus acciones pucdc permitir que el agcnte aprenda que haccn sus acciones. Por ejcm -plo. si cl taxi ejerce una cierta presion sobre los frenos cuando esta circulando por unacarretera rn oja da , a cto seguido conocera como decelera el coche. Clararncnte, estas dos(areas de aprendizaje son m as diffciles si s610 exisre una vista parcial del rnedio.

Las Iorm as de aprendizaje m ostradas en los parrafos precedentes no necexitan el ac-ccso a nivclcs de nciuacion externo, de alguna forma, e! nivcl es el que se utiliza uni-v ersalm en te p ara h acer p ro no srico s de acucrdo con la experimcntacion. La siiuacion esligerarnente m .is cornplcja para un agente bas ado en utilidad que desee adquirir infor-m acion para crcar xu fun cion d e utilid ad . PO l' ejernplo. sc supone que el agentc conduc-tor del taxi no rccihc propina de Ius pasajcros que han rccorrido lin trayecto de formainc.imoda dchido a una mala conduccion EI nivcl de acruacion cxtcrno debe inforrnar


26/30

62 INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO

al agente de que la perdida de propinas tiene una contribucion negativa en su nive! deactuacion medio; entonces el agente puedc aprender que maniobras violentas no eon-tribuyen a su propia utilidad. De alguna manera, el nivel de actuacion identifica partede las percepciones entrantes como recompensas (0 penalizaciones) que generan unarespuesta directa en la calidad del comportamiento del agente. Niveles de actuacion in-tegrados como el dolor y el hambre en animales se pueden enrnarcar en este contexto.EI Capitulo 21 discute estes asuntos.

En resumen, los agentes tienen una gran variedad de componentes, y estos compo-nentes se pueden representar de muchas forrnas en los programas de agentes, por 1 0 que,parece haber una gran variedad de metodos de aprendizaje. Existe, sin embargo. unavisi6n unificada sobre un tema fundamental. EI aprendizajc en el campo de los agentesinteligentes puede definirse como el proceso de modificacion de cada componente delagente, 1 0 cual perrnitc a cada cornponente comportarse mas en consonancia con la in-formaci6n que se recibe, 1 0 que por tanto perrnite mejorar el nivel medio de actuaciondel agcntc.

2 . 5 ResurrrenEn este capitulo se ha realizado un recorrido rapido por el campo de la LA, que se ha pre-sentado como la ciencia del disefio de los agentes. Los puntos mas importantes a teneren cuenta son:

Un agente es algo que percibc y acnia en un medic. La funcion del agente paraun agente especifica la accion que debe rcalizar un agentc como respuesta a eualq U i C T sccucncia pcrcibida.

La medida de rendimiento evaliia el cornportamiento del agente en un medio. Unagente racional acnia con la intenci6n de maximizer el valor espcrado de la 111e-elida de rendirniento, dada Ia secuencia de percepciones que ha observado hasra elmomenro.

Las cspecificacioncs del entorno de trabajo incluyen la medida de rendimiento,el medio externo, los actuadores y los sensores. EI primer paso en el disefio de unagente debe scr sicmprc la cspccificacion, tan complcta como sea posible, del en-torno de trabajo.

EI cntorno de trabajo varia segiin distinros parametres. Puedcn ser total () parcial-mente visibles, deterministas 0 estocasticos, episodicos 0 secuenciales, estaticoso dinamicos, discretos 0 continuos, y forrnados por un iinico agentc 0 por variosagentes.

EI programa del agenteiruplementa la funcion del agente. Existc una gran variedad de diserios de programas de agcntes, y rcflejan el tipo de informacion quexe haec explicita y se utili/a en el proceso de decision. Los disenos varian en cfic ic nc ia , s olid cz y flex ib ilid ad , E I disciio aprop iad o del pro gram a del agentc ell'pcndc ell gran medida de la naturaleza del mcdio.

Los gentes reactivos simples r cs pondcn d ir cc tamcn tc a las percepcioncs. m icutras que los agentes rcactivos basados en modelos mantienen un estado interne


27/30

AGENTES lNTEUGENTRS 63que les perrnite seguir el rastro de aspectos del mundo que no son evidentes segunlas percepciones actuales. Los agentes basados en ohjetivos actuan con la inten-cion de alcanzar sus metas, y los agentcs basados en utilidad intentan maxi mizarsu felicidad deseada.

Todos los agentes pueden mejorar su eficacia con la ayuda de mecanisrnos deaprendizaje.

C O N T R O l A O O R

NOTAS BIBLIOGRAFICAS E HIST6RICASEl papel central de la accion en la inteligencia (la nocion del razonamiento practico)se remonta por 1 0 menos a la obra Nicomachean Ethics de Aristoteles. McCarthy(1958) trato tambien el tema del razonamiento practice en su influyente articuloPrograms with Common Sense. Los campos de la robotica y la teoria de control tieneninteres, por su propia naturalcza, en la construccion de agentes flsicos, EI conceptode un controlador, en el ambito dc la teoria de control, es identico al de un agente enIA. Quiza sorprendentemcntc, la IA se ha concentrado durante la mayor parte de suhistoria en componentes aislados de agentes (sistemas que responden a preguntas,dernostracion de teorernas, sistemas de vision, y demas) en vez de en agentcs comple-los. La discusion sobre agentes que se presenta en el libro de Genesereth y Nilsson (1987)tue una influyente exccpcion. El concepto de agente en sf esta aceptado ampliamenteahora en el campo y es un tcma central en libros recientes (Poole et al., 1998; Nilsson,19(8).

El Capitulo I muestra las rakes del conccpto de racionalidad en la Filosoffa y la Eco-nomia. En la lA, el concepto tuvo un interes periferico hasta mediados de los 80, don-de comenzo a suscitar muchas discusiones sobre los propios fundamentos tecnicos delcampo. Un articulo de Jon Doyle (1983) predijo que el diseiio de agentes racionalcs po-dna llegar a ser Ia rnision central de la lA, rnientras otras areas populares podrian sepa-rarse dando lugar a nuevas disciplinas.

Es muy irnportanrc tcner muy en cuenta las propiedades del mcdio y SLlS conse-cuencias cuando se realiza el disefio de los agentes raciouales ya que forma parte de latradicion ligada a la teoria de control jpor ejernplo los sistemas de control clasicos (Dorfy Bishop, 19(9) manejan rnedios deterrninistas y totalrnente observables; el control op-Limo cstocastico (Kumar y Varaiya, 1986) maneja medics parcialmente obscrvables yestocasticos y un control hfbrido (Henzingcr y Sastry, 1998) maneja entornos que con-tienen elementos discretos y continuos]. La distincion entre entornos total mente y par-cialmente observables cs tarnbien central en la Iiterarura sobre programacion dinami-ca desarrollada en el campo de la investigacion operativa (Puterrnan, 1994), como secornentara en el Capitulo 17.

Los agentes reactivos fueron los primeros rnodelos para psicologos conductistas comoSkinner (1953), que intent6 reducir la psicologfa de los organismos estrictamenre a co-rrespondencias entrada/salida 0 esnmulo/respuesta. La evolucion del behaviourismohacia el funcionalismo en el campo de la psicologla. que estuvo, al menus de forma par-cial, dirigida por la aplicacion de la metafora del cornputador a los agentes (Putnam, 1960;l.cwis, 19(6) introdujo el estado interno del ugente en cl nuevo cscenario. La mayor par-


28/30

64 JNTELIGENCIA ARTIFICIAl .. liN ENFOQUE MODER NOte del trabajo realizado en el campo de la IA considers que los agentes reactivos puroscon estado interno son dernasiado simples para ser rnuy influyentcs, pero los trabajosde Rosenschein (1985) y Brooks (1986) cuestionan esta hipotesis (vease el Capitulo 25).En los iiltimos aries, se ha trabajado intensamente para encontrar algoritmos cficicntcscapaces de hacer un buen seguirniento de entornos complejos (Hamscher et al., 1992).EI programa del Agente Remote que control a la nave cspacial Deep Space One (descritoen la pagina 27) es un admirable ejernplo concreto (Muscettola et al., 1998; Jonsson et(it., 2000 ) .

Los agentes basados en objetivos estan presentes tanto en las relercncias de Aristo-teles sobre el razonamiento practice como en los primeros articulos de McCarthy sobreIA 16gica. EI robot Shakey (Fikes y.N ilsson, 1971; Nilsson, 1984) fuc cl primer robotconstruido como un agente has ado en objetivos. EI anal isis logico completo de un agenle basado en objetivos aparece en Genesereth y Nilsson (1987), Y Shoharn (1993) hadesarrollado una metodologfa de programaci6n basada en objetivos llamada program acion orientada a agentes,

La perspectiva oricntada a objetivos tarnbien predomina en Ia psicologia cogniti-va tradicional, concretamenteer, el area de la resoluci6n de problemas, como se rnucstra tanto en el influyente Hum an P roblem So lv ing (Newell y Simon, 1972) como enlos ultimos trabajos de Newell (1990). Los objetivos, posreriorrnente definidos comodeseos (generales) y las intenciones (perseguidas en un momento dado), son funda-mentales en la teoria de agentes desarrollada por Bratman ( 1987). Esta teona ha sidomuy influyente tanto en el enrendimiento del lenguaje natural como en lossistemasrnultiagente.

Horvitz et ( /1, (1988) sugieren especfficamente el uso de la maximizacion de la utilidad esperada concebida racionalmente como la base de la IA. El texto de Pearl (1988)rue cl primero en JA que cubrio las teorfas de la probabilidad y la utilidad en profundidad; su exposicion de rnetodos practices de razonamiento y toma de decisiones con in-certidumbre fue, posiblemente. el factor individual que mas influyo en el desarrollo delos agentes basados en utilidad en los 90 (veasc la Parte V).

EI disefio general de agentes que aprendcn rcpresenrado en la Figura 2, 15 cs un cla-sico de la litcratura sobre aprendizaje automatico (Buchanan ct al., 1978; Mitchell.19(7). Ejernplos de diseiios, implementados en programas, se rernontan, como poco, hax-L a los programas que aprendtan a jugar al ajedrez de Arthur Samuel (1959, 19(7). 1;\Parte VI esta dedicada al esludio en profundidad de los agentes que aprenden.

FI interes en los agentes y en cl diseiio de agcntcs ha crccido rapidamcnte en los ul-timos aiios, en parte porIa expansion de Internet y la neeesidad observada de desarrolIar softbots (robots softwares automaticos y rnovilcs (Erzioni y Weld, 1(94). Articulo"rclcvantcs pucdcn encontrarse en Readings in Agents (Huhns y Singh, 1998) y Fundu -tions ojRational Agency (Wooldridge y Rao, 1999). Multiagent Svstems (Weiss, 199() jproporciona una base sol ida para muchos aspectos del discrio de agcnies. Confcrenci.rsdcdicadas a agentcs incluycn la International Conference on Autonomous Agent, la International Workshop on Agent Theories, Architectures, and Languages, y la lntcrna-tiona] Conference Oil Muhiagcnt Systems. Finalmcnre, f)lIllg Harle Ecolog: (Hansk I \Carnhefort. 19lJ I) proporciona gran cantidad de informucion intcrcsantc sobrc cl comportamicnto de los escarabajos cstercoleros.


29/30

ACJENTES INTELlC;FNTES 65

EJERCICIOS2.1 Defina con sus propias palabras los siguientes term inos: agcntc, funcion de agente,program a de agente. racionalidad, autonom ia, agentc reactivo, agcntc bas ado en m odele.agente basado en objetivos, agente basado en utilidad, agenre que aprcnde.2.2 Tanto Ia medida de rendirniento como la funcion de utilidad m iden la eficiencia delagente. E xplique la diferencia en tre los do s conceptos.2.3 Este ejercicio e xp lo ra la s diferencias e ntr e la s funciones de lo s agentes y lo s programasd e lo s ag en re s.

a) (,P ue de h ab er mas de lin program a de agentc que implemcnte una funcion deagen te dada IP ro po ng a u n e je rn plo , 0m uestre por qu e una no es posible.

b) i,H ay funciones de agente que no se pueden implemcntar con algun program ade agente?

c) Dada una arquitectura maquina, (,implementa cada prograrna de agente cxacta-m ente una funcion de agente?

d) Dada una arquirectura con n h its d e a lm ac en arn ic nto , (,cuantos posibles pro-gramas de agente diferentes puede almacenar?

2.4 Examinese ahora la racionalidad de varias fun ciones d e ag enles asp iradora,a) M uestre que la funcion de agenre aspiradora descrita en la Figura 2.3 es real-

mente racional bajo la hipotesis prescntada en la p.igina 36.b) Describa una funcion para un agenre racional cuya medida de rendirnicnto mo-

dificada deduzca un punto por c ad a.rn ov im ic nto . (,R eq uie re el correspondienteprograma de agente estado interne?

c) D iscuta posiblcs disefios de agenrcs para los casos en los que las cuadnculas lim -p ias p ue dan en su cia rse y la geograffa del m edic sea desconocida. ;.Tiene senti-do que el agente aprenda de su experiencia en estos casos? ;,Si es a S 1 , que debeapre nder?

2.5 Identifique la descripcion REAS que define el entorno de trabajo para cada uno delos s igu ien tc s agerues:

a) Robot que juega al futbol;b) Agente para com prar libros en Internet:c) Explorador autonomo de M arte;d) A sistente rnatcm arico para la d ernostracion de tco rernas.

2.6 Para cada uno de los tipos de agcnte cnumerados en el Ejcrcicio 2.5, caractcricc elrncdio de acuerdo con las propiedades dadas en la Seccion 2.3, y seleccione un disciio deagcnte a de cuado.L os sig uientc-, ejcrcicio s estrin rclacion ados con la im plcm entacion de cntoru os y agcn-lcs para el m undo de la aspiradora.2.7 Implcm cntc Ul l simulador que determine la medida de rcndim icnto para cl cntornodel mundo de la aspirad ora dcscrito en 1< 1Figura 2.2 y cxpccificado CI1 la p~ lgina 36. Laim picm cnt.tcion debe SCI' m odular, de lonna q ue lo s scn so rc s, a ctu ad orcs. y l as ca ruc tc -rfslicas del cntorno (tamafio. lonna. localizacion de la xucicdud, ctc.) pucdan modificar-


30/30

66 INTELIGENCIA ARTIFICIAl. eN ENFOQUE MODERNOse facilrncnte. (Nora: ha y irnplementaciones disponibles en el repositorio de Internet quepueden ayudar a decidir que lenguaje de programacion y sistema operative seleccionar).2.8 Irnplementc un agente reactivo simple para el entorno de la aspiradora del Ejercicio2.7. Ejecute cl simulador del entorno con este agente para todas las configuraciones ini-ciales posibles de suciedad y posiciones del agente. Alrnacene la puntuacion de la actua-cion del agente para cada configuracion y la puntuacion media global.2.9 Considere una version modificada del entorno de la aspiradora del Ejercicio 2.7, enel que se penalicc al agente con un punto en cada movimiento.

a) i'puede un agente reactivo simple ser perfectarncntc racional en este medic? Ex-plfquese.

b) ( ,Que sucedena con un agente reactivo conestado? Disefie este agente.c) (,Como se respondenan las preguntas a y b si las percepciones proporcionan al

agente informacion sobre el nivel de suciedad/limpicza de todas las cuadricu-las del entorno?

2.10 Considere una version modificada del entorno de la aspiradora del Ejercicio 2.7,en el que la geografta del entorno (su extension, Ifrnites, y obstaculos) sea desconocida,aSI como, la disposicion inicial de la suciedad. (El agente puede ir hacia arriba, abajo, asfcomo, hacia la derecha y a la izquierda.i

a) ;'puede un agente reactivo simple ser perfectamente racional en estc media? Ex-pliquese.

b) j,Puede un agcntc reactivo simple con una funcion de agente a lc ato ria s upcra ra un agente reactive simple? Disefie un agente de este tipo y medir su rendimicntoen varios medics.

c) (,Se puede diseriar un entorno en el que el agente con la funcion alcatoria ob-tenga una actuacion muypobre?Mucstre los resultados.

d) (,Puede L I 1 1 agente reactive con estado mejorar los resultados de un agente reac-tivo simple'! Disefie un agente de este tipo y medir su eficiencia en distintos me-dins. ;,Se puede disefiar un agcnte racional de este tipo?

2.11 Repftase el Ejercicio 2.10 para cl caso en el que el sensor de localizacion seareemplazado por un sensor de golpes que detecte si cl agente golpea un obstaculo () sise sale fuera de los Ifmites del entorno. Supongase que el sensor de golpes deja de fun-cionar. (,Como debe comportarse el agcnte?2.12 Los entornos de la aspiradora en los ejercicios anteriores han sido todos deterrni-nistas. Discuta posibles programas de agentes para cada una de las siguientes versionesestocasticas:

a) Ley de Murphy: el 25 por ciento del tiempo, la accionde Aspirar fall a en la lim-pieza del suelo si esta sucio y deposita suciedad en el suelo si el suelo esta lim-pin. i.C61l1o sc ve afecrado el agente si el sensor de suciedad da una respuestaincorrecta el die! por ciento de las voces?

b) Nino pequeiio: en cada lapso de riernpo, cada recuadro limpio tiene un die! porcicnto de posibilidad de ensuciarse. i,Puedc identificar un disef\o para un agcn-te racional en este caso'!

inteligencia artificial, un enfoque moderno - cap 2

que en

que se puede decir

se presenta

agente en rcspuesta

que se ejecuta sobre

agente artificial se

funcion que

los que se dara cuervo

Documents

bamberger, bernard - la biblia un enfoque judio moderno

enfoque moderno de la administracion- clase 3

3 enfoque moderno de la administracion

enfoque moderno de la administración federico salvador...

inteligencia emocional: un enfoque desde la psicología

analisis de herramientas del enfoque de inteligencia …

enfoque moderno

enfoque geoespacial de inteligencia colectiva como...

facultad de psicología psicología de las diferencias...

probabilidad geometrica: un enfoque moderno con aplicaciones

stuart j. russell & peter norvig - inteligencia artificial....

enfoque moderno de la seguridad integral

racismo moderno y postmoderno en europa: enfoque dialógico...

prest. estrategias de la cobranza eficaz enfoque...

monografías 148. inteligencia. un enfoque interal. ·...

la ciudad inteligente desde el enfoque de … · ciudad...

stuart j russell, peter norvig - inteligencia artificial, un...

el enfoque de inteligencia de negocios moderno - … ·...

mirada al movimiento moderno cubano: un enfoque climático