autopsia - server caid@

3
34 i decimos que las computadoras cumplen un papel cada vez más comprometido con nuestra vida cotidiana, nadie se va a sorprender, por- que eso es algo ya asumido por la mayo- ría de los usuarios de PC. Pero no todos los equipos cargan con la misma respon- sabilidad dentro de este mundo informa- tizado. Una PC de escritorio responde sólo a uno o, a lo sumo, a un grupo reducido de usuarios, mientras que los servidores deben manejar los datos de varias decenas, cientos o miles de clien- tes. Pero adentrémonos más en el servi- dor como equipo; pasemos a ver sus componentes, sus partes más ínfimas. ANALISIS PRELIMINAR ¿Quién pensaría que en el funcionamien- to de una resistencia, que apenas cuesta algunos centavos, se deposita la respon- sabilidad de que miles de usuarios ten- gan acceso a su e-mail a tiempo? Por supuesto que servicios a gran escala, como MSN, no se van a dar el lujo de dejar todo parado hasta tanto se cambie una resistencia. En esos casos, directa- mente se cambia la placa completa, mientras el problema específico se resuelve con más tiempo. Pero no todos somos MSN y, hoy por hoy, existen muchos servicios “menores” en los que, quizá, sí todo dependa de un solo servidor, que hay que reparar inde- fectiblemente ante una avería. Foros, sitios, servicios de mail empresariales, hosting y muchos otros a veces depen- den de ese pequeño componente, y de la rapidez del técnico de turno para encon- trarlo y repararlo. Este es el caso que planteamos en esta ocasión: un conocido foro dedicado a temas generales de un momento a otro “desaparece”, y deja a sus usuarios incomunicados. HISTORIA CLINICA Aunque parezca tonto, un foro es un canal de comunicaciones muy importante en la actualidad. En muchos casos, es el único medio de contacto que tienen algu- nos usuarios entre sí, y su ausencia puede significar una pérdida de tiempo considerable en la resolución de algún problema. Varias empresas y universida- des usan foros privados para interconec- tar a sus participantes, y no son pocos POWERUSR S los casos en los que las actividades son planteadas y coordinadas en base a lo que en ellos se postea. Imagínense que si un espacio de estas características se cae de un momento a otro, todos aquellos que no copiaron la información y con- fiaron en que todo “estaba ahí guar- dado” quedarán a la deriva hasta tanto no puedan volver a acceder. Eran las 21 horas de un miércoles bastante rutinario en el laboratorio de análisis de hardware de MP. Cuando estábamos dispuestos a apa- gar todo e irnos, sonó el teléfono, y una voz temblorosa nos hizo prede- cir que ésa iba a ser una larga noche. El servidor del foro de una importan- te universidad se acababa de desco- nectar, justo en la semana en la que se tenían que coordinar los trabajos finales para la mayoría de las carre- ras. Miles de alumnos acostumbrados a entrar en ese sitio a diario verían imposibilitadas sus tareas, ya que la URL devolvía tan sólo un “No se puede mostrar la página”. Luego de comprobar, en forma remo- ta, que el equipo no respondía a nin- guna de las demandas, decidimos mandar a retirar el servidor del rack en donde estaba instalado. Una vez en el laboratorio, pudimos corroborar que ni siquiera encendía, lo que hacía suponer que la falla se debía, estric- tamente, a un problema de hardware. PRIMEROS PASOS Tal como lo indica la rutina, siem- pre que un equipo no enciende, hay que empezar por analizar el elemen- to encargado de brindar la corriente necesaria, o sea, la fuente de ali- mentación. Bastaron un par de mediciones al azar para darnos cuenta de que la fuente no estaba entregando corriente en ninguna de sus salidas. Procedimos entonces a desarmarla y a revisar su interior. A primera vista encontramos una serie de componentes dañados en la etapa secundaria. Varias resistencias y diodos mostraban claros signos de haber sufrido un exceso de calor, y había abundante hollín esparcido a su alrededor. Aparentemente, el cor- tocircuito de alguno de ellos había provocado una sobretensión impor- tante en la zona. En casi todos estos casos, se piensa en una falla interna de la unidad, ya que la alimentación proveniente del exterior se encuen- tra protegida y filtrada por equipos UPS de gran capacidad. Sin perder ESTA ES UNA PARTE DEL RACK DONDE SE ENCONTRABA EL SERVIDOR ANALIZADO EN ESTA AUTOPSIA. EN ESTE TIPO DE EQUIPAMIENTO, LAS MEDIDAS DE SEGURIDAD CON RESPECTO A LA ALIMENTACION DEBEN SER MUY RIGUROSAS. « + FALLAS ANALIZADAS CON OJO CLINICO LA AUTOPSIA DEL MES: SERVER CAIDO

Upload: jerryter28

Post on 18-Dec-2015

258 views

Category:

Documents


4 download

DESCRIPTION

..

TRANSCRIPT

  • 34

    i decimos que las computadorascumplen un papel cada vez mscomprometido con nuestra vida

    cotidiana, nadie se va a sorprender, por-que eso es algo ya asumido por la mayo-ra de los usuarios de PC. Pero no todoslos equipos cargan con la misma respon-sabilidad dentro de este mundo informa-tizado. Una PC de escritorio respondeslo a uno o, a lo sumo, a un gruporeducido de usuarios, mientras que losservidores deben manejar los datos devarias decenas, cientos o miles de clien-tes. Pero adentrmonos ms en el servi-dor como equipo; pasemos a ver suscomponentes, sus partes ms nfimas.

    ANALISIS PRELIMINARQuin pensara que en el funcionamien-to de una resistencia, que apenas cuestaalgunos centavos, se deposita la respon-sabilidad de que miles de usuarios ten-gan acceso a su e-mail a tiempo? Porsupuesto que servicios a gran escala,como MSN, no se van a dar el lujo dedejar todo parado hasta tanto se cambieuna resistencia. En esos casos, directa-mente se cambia la placa completa,mientras el problema especfico seresuelve con ms tiempo. Pero no todos somos MSN y, hoy porhoy, existen muchos servicios menoresen los que, quiz, s todo dependa de unsolo servidor, que hay que reparar inde-fectiblemente ante una avera. Foros,sitios, servicios de mail empresariales,hosting y muchos otros a veces depen-den de ese pequeo componente, y de larapidez del tcnico de turno para encon-trarlo y repararlo.Este es el caso que planteamos en estaocasin: un conocido foro dedicado atemas generales de un momento a otrodesaparece, y deja a sus usuarios incomunicados.

    HISTORIA CLINICAAunque parezca tonto, un foro es uncanal de comunicaciones muy importanteen la actualidad. En muchos casos, es elnico medio de contacto que tienen algu-nos usuarios entre s, y su ausenciapuede significar una prdida de tiempoconsiderable en la resolucin de algnproblema. Varias empresas y universida-des usan foros privados para interconec-tar a sus participantes, y no son pocos

    POWERUSR

    S

    los casos en los que las actividadesson planteadas y coordinadas enbase a lo que en ellos se postea.Imagnense que si un espacio deestas caractersticas se cae de unmomento a otro, todos aquellos queno copiaron la informacin y con-fiaron en que todo estaba ah guar-dado quedarn a la deriva hastatanto no puedan volver a acceder. Eran las 21 horas de un mircolesbastante rutinario en el laboratoriode anlisis de hardware de MP.Cuando estbamos dispuestos a apa-gar todo e irnos, son el telfono, yuna voz temblorosa nos hizo prede-cir que sa iba a ser una larga noche.El servidor del foro de una importan-te universidad se acababa de desco-nectar, justo en la semana en la quese tenan que coordinar los trabajosfinales para la mayora de las carre-ras. Miles de alumnos acostumbradosa entrar en ese sitio a diario veranimposibilitadas sus tareas, ya que laURL devolva tan slo un No sepuede mostrar la pgina. Luego de comprobar, en forma remo-ta, que el equipo no responda a nin-guna de las demandas, decidimosmandar a retirar el servidor del racken donde estaba instalado. Una vez

    en el laboratorio, pudimos corroborarque ni siquiera encenda, lo que hacasuponer que la falla se deba, estric-tamente, a un problema de hardware.

    PRIMEROS PASOSTal como lo indica la rutina, siem-pre que un equipo no enciende, hayque empezar por analizar el elemen-to encargado de brindar la corrientenecesaria, o sea, la fuente de ali-mentacin. Bastaron un par demediciones al azar para darnoscuenta de que la fuente no estabaentregando corriente en ninguna desus salidas. Procedimos entonces adesarmarla y a revisar su interior. Aprimera vista encontramos una seriede componentes daados en laetapa secundaria. Varias resistenciasy diodos mostraban claros signos dehaber sufrido un exceso de calor, yhaba abundante holln esparcido asu alrededor. Aparentemente, el cor-tocircuito de alguno de ellos habaprovocado una sobretensin impor-tante en la zona. En casi todos estoscasos, se piensa en una falla internade la unidad, ya que la alimentacinproveniente del exterior se encuen-tra protegida y filtrada por equiposUPS de gran capacidad. Sin perder

    ESTA ES UNA PARTE DEL RACK DONDE SE ENCONTRABA EL SERVIDORANALIZADO EN ESTA AUTOPSIA. EN ESTE TIPO DE EQUIPAMIENTO, LASMEDIDAS DE SEGURIDAD CON RESPECTO A LA ALIMENTACION DEBEN SERMUY RIGUROSAS.

    +FALLAS ANALIZADASCON OJO CLINICO

    LA AUTOPSIA DEL MES:SERVER CAIDO

    32-34- Autopsias-P20.qxd 5/5/05 11:34 AM Page 34

  • POWERUSR 35

    demasiado tiempo, procedimos al reemplazo de la fuentecompleta, dado que la urgencia no nos permita detenernos acambiar cada uno de sus componentes. Al reconectar todootra vez, el equipo volvi a encender, pero el BIOSmarcaba ahora una falla en la alimentacin de losmicroprocesadores. Habamos avanzado un paso, perotodava quedaba mucho por delante.

    ANALISIS DEL MOTHERBOARDEl motherboard era un Intel LG440GX+, con dos procesadoresPentium III de formato Slot 1, 4 GB de memoria RAM, cuatrodiscos SCSI conectados a una controladora dual-channel incor-porada y una controladora de red Intel PRO/100+ integrada. Setrataba de un equipo que, si bien hoy en da puede considerar-se un poco desactualizado, tiene excelentes prestaciones paralas demandas de un foro.Lo primero que verificamos fue que la fuente nueva estuvieraentregando efectivamente todos sus valores correspondientes.No sera la primera vez que una fuente de alimentacin fallaraen su primer arranque, aunque ste no era el caso: todas lastensiones estaban presentes y entrando correctamente al motherboard. Procedimos a retirar la placa del gabinete paraanalizarla con ms detenimiento. Fue entonces cuando nosencontramos con una serie de pistas cortadas en su cara infe-rior, que mostraban claros signos de un corte por exceso detensin. Esto se pone de manifiesto por las marcas negras quequedan en la zona del corte. Se procedi entonces a la recons-truccin de las pistas, utilizando finos alambres de cobre aisla-dos con un spaghetti plstico. Una vez reestablecidas las unio-

    ESTE ES EL MOTHERBOARD ANALIZADO, UN INTEL LG440GX+,CON SOPORTE PARA DOS PROCESADORES PENTIUM III DEFORMATO SLOT 1.

    SI LA AVERIA EN CUALQUIER PC DE ESCRITORIO RESULTAPROBLEMATICA PARA EL USUARIO PROMEDIO, IMAGINENSELO QUE PUEDE ACARREAR LA FALLA TOTAL EN UNSERVIDOR. EN LA AUTOPSIA DE ESTE MES, VAMOS ATRATAR EL CASO DE LA DRAMATICA CAIDA DE UN EQUIPODE ESTAS CARACTERISTICAS, Y SUS CONSECUENCIAS.

    nes, se efectu un control derutina de todos los compo-nentes que podran habersido afectados por la avera.Este es un procedimientomuy importante que deberealizarse antes de encenderla unidad, ya que si existiun golpe de tensin capaz decortar las pistas del circuito,es ms que probable quealgn sector haya sufridotambin las consecuencias. Elriesgo ms grande se presen-ta ante la posibilidad de quealguno de los elementosencargados de manejar lacorriente est todava en cor-tocircuito, y entonces genereotra fuga importante, quiz,con males mayores. El BIOShaba delatado una falla enla alimentacin del micropro-cesador, por lo que nos diri-gimos en forma inmediata alsector encargado de regularla tensin de entrada. Este seubica prximo a los doszcalos que contienen loscartuchos con los procesado-res. All se destacan una seriede bobinas, capacitores y tran-sistores que forman una mini-fuente conmutada, dedicada,casi exclusivamente, a proveerde tensin a cada uno de loscartuchos. La mayor parte deeste sector estaba sana, salvolos dos transistores regulado-res, que mostraban un corto-circuito entre dos de sus patas.Ahora s, tenamos a la segun-da vctima de esta fuga repen-tina de tensin.

    Afortunadamente, el labora-torio contaba con repuestospara estos reguladores, si no,hubiramos tenido que espe-rar varios das hasta conse-guir los componentes adecua-dos. En estos casos, se tratade proceder con un plan deemergencia que permitareemplazar el servidor com-pleto momentneamente. Unavez reemplazados ambosreguladores, se hizo otra revi-sin de rutina a todas laspartes involucradas, y no sedetect ninguna anormalidad.Entonces s, con ms tranqui-lidad, procedimos a encenderel equipo y comprobamos,para nuestra tranquilidad y lade la gente de la universidad,que todo volva a operar connormalidad. Para entonces, elreloj indicaba las 4 a.m. Sindudas, una situacin pordems estresante, pero conbuenos resultados para losalumnos que, al otro da,ingresaron en el foro pararealizar sus actividades dia-rias, sin siquiera enterarse deque una pequea resistenciacasi los haba dejado sin elcontacto tan necesario.

    CAUSASComo ya mencionamos en eltranscurso de esta autopsia,es difcil encontrar factoresexternos que puedan causaresta falla. Los racks dedicadosa contener servidores son cui-dados al extremo en lo que ala alimentacin se refiere:

    LA PRESENCIA DE HOLLIN DEBAJO DE ESTASRESISTENCIAS EVIDENCIABA UN FUERTEGOLPE DE TENSION EN ESE SECTOR.

    32-34- Autopsias-P20.qxd 5/5/05 11:35 AM Page 35

  • 36 POWERUSR

    transistor debera abrirse ycortar el paso de la corriente.El problema surge cuandoaparece ese pequeo porcen-taje de casos en los que elelemento se pone en cortocir-cuito. Entonces, la corrientefluye sin control y provocapicos de tensin que soncapaces de generar cualquiertipo de fallas, hasta tanto nose corte el suministro deenerga. En esta situacinparticular, el corto se produjo

    potentes UPS y filtros se encargan de ase-gurar una alimentacin permanente sinsobresaltos. El nico enemigo mortal eimparable es la descarga atmosfrica orayo, pero ste no haba sido el caso.Entonces, no quedaba ms que suponer unafatiga propia de los componentes de lafuente. Esto es algo muy comn en cual-quier equipo que se somete a un trabajoconstante, ms an, teniendo en cuenta lacantidad de elementos que se arman conpartes de bajsimo costo de produccin. Enun caso que se podra considerar normal,un elemento como una resistencia o un

    en un transistor de la etapa secundaria,comprometido con la regulacin decorriente de salida. Esto provoc la ave-ra general de varias de las partes invo-lucradas a este sector; incluso, se exten-di al propio motherboard. Si tenemosque definir un responsable, no hay otraalternativa ms que volcarnos a unasimple cuestin fortuita. Si la falla sehubiera generado en la etapa primaria,difcilmente habra existido algn tras-lado hacia la salida de la fuente, ya quelas protecciones actan antes que cual-quier exceso supere este sector. La etapasecundaria tambin cuenta con protec-ciones, pero hay factores que escapan acualquier previsin y, si bien llegado unpunto, el suministro de energa se corta,para entonces es imposible determinar eldao de las partes comprometidas.Por fortuna, en este caso todo se detuvoen los transistores reguladores. En otrasoportunidades, nos encontramos consituaciones en las que la cadena siguims all, y lleg a afectar, incluso, a lospropios microprocesadores o unidadesde disco. Para concluir, la prxima vezque vean una resistencia, transistor,capacitor o cualquier elemento encarga-do del manejo de corriente, trtenlo conms respeto; quizs de ellos dependa sutrabajo de maana.

    EN CASOS EN LOS QUE LAS PISTAS DEL CIRCUITO SON DEMASIADO FINAS Y ABULTADAS, DEBEMOS UTILIZAR HILOS AISLADOS EN SPAGHETTI, PARA EVITAR EL CONTACTO CON OTROS SECTORES. UNA GOTA DE SILICONA DERRETIDA ES UNA EXCELENTE AYUDA PARA FIJAR EL CONDUCTOR A LA PLACA.

    ESTE ES EL SECTOR ENCARGADO DE LAALIMENTACION DE LOS PROCESADORES. EN ESTALINEA DE INTEL, SE ENCUENTRA JUSTO ENTREMEDIO DE LOS ZOCALOS CORRESPONDIENTES A LOS MICROPROCESADORES.

    COMPONENTES DE SUPERFICIE

    Quienes posean alguna experiencia en elarmado de circuitos electrnicos caseros,tendrn un concepto formado en relacin alaspecto que suele identificar a la mayora delos componentes bsicos. Ahora bien, porms pequeos que stos parezcan, para lasnecesidades de la electrnica actual, nuncase es lo suficientemente pequeo. Es por esoque, en muchos de los equipos modernos,encontramos lo que se denomina compo-nente de superficie: resistencias, diodos,capacitores y una gran variedad de dispositi-vos que son comprimidos varias veces en sutamao y soldados sobre la superficie misma

    de la pista conductora, sin necesidad de per-foraciones en la placa; de ah el porqu de sunombre. Las caractersticas generales sonidnticas a las de los componentes estndar,la diferencia est al momento de efectuarreemplazos. Este proceso puede ser un tantoms complicado y demandar el uso deherramientas especficas para manipulareste tipo de elementos. En algunos casos, de ser estrictamentenecesario, es posible usar como recambio unrepuesto estndar, siempre y cuando poda-mos adaptar sus conexiones y respetemoslas caractersticas al detalle.

    * EN UN CASO QUE SE PODRIA CONSIDERAR NORMAL, UN ELEMENTO COMO UNARESISTENCIA O UN TRANSISTOR DEBERA ABRIRSE Y CORTAR LA CORRIENTE. EL PROBLEMA SURGE CUANDO EL ELEMENTO SE PONE EN CORTOCIRCUITO.32-34- Autopsias-P20.qxd 5/5/05 11:35 AM Page 36