Mejorando la fiabilidad de los equipos y su redundancia

Improving device reliability and redundancy En un artículo anterior vimos cómo caracterizar matemáticamente la fiabilidad de un equipo electrónico. Es decir, la probabilidad de que funcione correctamente durante un tiempo. Se resume en el Mean Time Between Failure (MTBF), o su inverso, Failure In Time (FIT). Es típico encontrar valores de MTBF del orden de cientos de miles de horas para equipos electrónicos.

Fuente: Ricardo Saiz

La probabilidad de que suceda un fallo durante un tiempo t sigue una función exponencial, aproximada a una recta para intervalos pequeños.

¿De dónde se obtiene el MTBF de un equipo?

La fiabilidad de un equipo está determinada por la de sus elementos constitutivos (componentes electrónicos soldables, módulos, cableado, etc). El MTBF del conjunto es la suma del inverso del MTBF de cada parte, de forma análoga a las resistencias en paralelo. Si en un circuito eléctrico se suman las admitancias, el FIT de un equipo con muchos componentes (caminos en paralelo que conducen a un fallo) es la suma de todos esos FIT. Por eso resulta más sencillo operar con el FIT que con MTBF.

¿Cómo hacer que un equipo sea más fiable?

A su vez el FIT de un componente. No es un valor inmutable, sino que depende del ambiente y principalmente de la temperatura. El calor guarda una relación directa con la tasa de fallos, y de hecho con la velocidad de numerosos procesos físicos y reacciones químicos. El científico sueco Svante Arrhenius (1859 – 1927) fue el primero en modelar esa relación, en el año 1889, con la ecuación que lleva su nombre:

Formula

Esa ecuación dice que cerca del cero absoluto se paran las reacciones y que aceleran fuertemente al aumentar la temperatura.

Elevada disponibilidad de servicio

Nuestro equipo será menos fiable conforme aumenta la temperatura pero, ¿cómo hacer que sea más fiable? No podemos luchar contra las leyes de la física, pero sí podemos tomar las mejores decisiones de ingeniería contando con ellas. Además de hacer caso a los manuales cuando indican “no cubra las ranuras de ventilación” o “instale el equipo en un lugar alejado de fuentes de calor”, podemos mejorar la fiabilidad del sistema y entonces hablamos de disponibilidad del servicio (service availability), que es en definitiva lo que importa.

Redundancia de los equipos

En un router o switch podemos duplicar uno de los elementos que tiene mayor tasa de fallo, como es la fuente de alimentación. La probabilidad de que falle una fuente en un intervalo t es:

Esta función vale 0 en t=0 pero su derivada vale

El equipo dejará de funcionar si fallan ambas fuentes. La probabilidad de que esto suceda será el cuadrado de la expresión anterior:

Como en el caso anterior, esta función vale 0 en t=0. Pero, sin embargo, su derivada también vale 0 en el origen.

Fuente: Ricardo Saiz

Con dos unidades trabajando en paralelo, pero sólo una imprescindible, la tasa de fallos sigue una curva muy diferente. Sobre todo en plazos de tiempo cortos en comparación con el MTBF. Veámoslo con un sencillo ejemplo.

Tenemos una fuente de alimentación con un MTBF de 200.000 horas. ¿Cuál es la probabilidad de que se averíe a lo largo de un año?

200.000 horas pueden parecer mucho tiempo pero con un 4,3% de probabilidad se averiará en el primer año de uso. Si tenemos un parque de 23 equipos sufriremos en promedio una avería por año, con el consecuente corte del servicio.

Si montamos dos fuentes trabajando de manera redundante la probabilidad de un fallo crítico a lo largo de un año es:

Ahora la probabilidad será de solamente el 0,18%.

Si además conectamos cada fuente a un circuito eléctrico independiente, por ejemplo de UPS, obtenemos otra ventaja porque será mucho más improbable que un corte de luz nos deje temporalmente sin servicio.

Si nuestro equipo envía un aviso al administrador de la red cuando detecta un fallo, se podrá sustituir el dispositivo averiado en un plazo corto. Idealmente antes de que surja un segundo fallo que ya sí sería crítico.

La disponibilidad del servicio combinando redundancia con una diligente detección y subsanación de fallos es altísima. Esto es por lo improbable que resulta, después de que surja un fallo, tener otro durante el periodo, presumiblemente del orden de horas o pocos días, en que se tarde en reparar el equipo. Podemos entenderlo gráficamente porque nos movemos en la zona plana de la línea de color gris, o como veíamos antes, donde la derivada es casi cero.

Fuente: Ricardo Saiz

Conclusión de MTBF y más

Equipos Teldat como la nueva generación de switches, algunos de ellos dotados de fuentes de alimentación redundantes para los casos más exigentes, ofrecen cifras de MTBF de entre 500.000 y un millón de horas. Así mismo, con los equipos destinados a escenarios especiales como los ferroviarios, realizamos un riguroso análisis de Reliability, Availability, Maintainability and Safety (RAMS). Mediante el Fault Tree Analysis (FTA) podemos identificar los posibles fallos, asegurar modos de funcionamiento alternativos en caso de fallos simples. Y de ese modo, obtener unas cifras de disponibilidad de servicio cercanas al 100%.

Tags: Tecnología de comunicaciones Tecnología de routers Tecnología de telecomunicaciones Telecommunication technology

← PREVIOUS NEXT →

marzo 05, 2024

Ricardo Saiz

Ricardo Saiz, telecommunications engineer, is part of Teldat’s R&D department. He specializes in hardware, and is responsible for electronic design and equipment certification.

Related Posts

Entender la tecnología de los Heat Pipes

por Iván Martín

Heat Pipes. Los tubos de calor transfieren calor en dispositivos electrónicos y aplicaciones industriales, utilizando el principio de transición térmica, para transferirlo a disipadores de calor dentro de un sistema de refrigeración. Los tubos de...

La importancia de la secuenciación de alimentaciones en electrónica

por Jacobo Pantoja

El sector de la electrónica está apostando claramente por la integración, lo que permite crear diseños más compactos y eficientes. Los fabricantes de componentes electrónicos producen chips cada vez más pequeños, con más componentes integrados, y...

“Device housing”: distintos entornos, diferentes materiales

por Eladio Rico

Debido al creciente uso de dispositivos para telecomunicaciones, en la actualidad podemos encontrarlos instalados y prestando sus servicios en los más diversos entornos y localizaciones. Ubicados a la intemperie, soportando las inclemencias...

¿De dónde se obtiene el MTBF de un equipo?

¿Cómo hacer que un equipo sea más fiable?

Elevada disponibilidad de servicio

Redundancia de los equipos

Conclusión de MTBF y más

Ricardo Saiz

Entender la tecnología de los Heat Pipes

La importancia de la secuenciación de alimentaciones en electrónica

“Device housing”: distintos entornos, diferentes materiales

¿Necesitas más información?

COMPAÑÍA

Sobre Teldat

Trabaja con nosotros

Desempeño Ambiental

enlaces útiles

Noticias

Blog

Manuales

RECURSOS

Código de Conducta

Responsabilidad Social Corporativa

Canal Ético

INICIAR

Contactar

Oficinas de Teldat

Nuestros Partners

Política de Privacidad (RGPD)

Aviso Legal

Política de Cookies

Calidad

Proyectos Subvencionados

Seguridad de la Información

Términos y Condiciones Generales de Venta (ES)

Términos y Condiciones Generales de Venta (PT)