1. INTRODUCCIÓN
En este artículo, vamos a exponer los distintos tipos de fallos con un ejemplo cotidiano: “los frenos de un tren”.
Antes de explicar los tipos de fallo deberemos comenzar por explicar lo que es un fallo.
El fallo se define como el cese de la aptitud de un elemento para realizar una función requerida. Un fallo ocurre cuando un elemento deja de cumplir la función para la cual ha sido diseñado.
Para el ejemplo de los frenos de un tren, la función requerida es que detenga el tren cuando sea requerido. Si los elementos que componen los frenos, están en condiciones de detener el tren cuando sea requerido, estos elementos están operativos (disponibles) y si no, estarán averiados.
Nota: Es mejor no utilizar la expresión “estarán en fallo”. El fallo es la transición del estado de disponibilidad al estado de avería.
Entender los tipos de fallos, nos ayudará a poder entender mejor otros conceptos, como la probabilidad de fallo en demanda media (PFDavg), el tiempo medio entre fallos (MTBF), la tasa de disparos espurios (STR) y en general los conceptos de la Seguridad Funcional.
Vamos a tratar de explicar los fallos aleatorios, los sistemáticos y los humanos.
Antes de ponernos en plan pesimista y pensar en fallos, pensemos que durante la gran mayoría del tiempo de operación de una planta industrial, los componentes o elementos eléctricos o electrónicos de una función instrumentada de seguridad, es decir, sensores, elementos lógicos y elementos finales estarán funcionando correctamente (podemos decir estarán disponibles).
En nuestro caso de ejemplo, mientras el tren esté en servicio, el sistema de frenada estará disponible la gran mayoría del tiempo, es decir, el sistema de frenada funcionará correctamente cuando sea requerido. Solamente existe una pequeña probabilidad de que esto no sea así.
Al hecho de que el maquinista actúe los frenos y el tren frene lo podemos llamar acción de seguridad exitosa.
Figura 1. Acción de seguridad exitosa.
Aun sabiendo esto, para conseguir reducir el riesgo derivado de que el sistema de frenada falle, hasta un límite que consideremos razonable, hay que centrarse en esa pequeña probabilidad y para ello es muy importante entender los tipos y modos de los fallos.
En este artículo nos centraremos en entender los tipos y modos de los fallos y no en los métodos existentes en cuantificar sus frecuencias de aparición. Solamente indicar que las frecuencias de fallo se pueden obtener bien por estimación o bien por predicción.
Comencemos por los fallos aleatorios.
2. FALLOS ALEATORIOS
Estos fallos se producen cuando el estrés al que está sometido un elemento (elemento sensor, elemento lógicos o elemento final) de una función instrumentada de seguridad, supera a la fortaleza del elemento.
El estrés se debe a la aparición entre otros de los siguientes agentes externos:
- Picos de sobretensión
- Corrosión
- Alta o baja temperatura
- Alta humedad
- Vibración mecánica
- Interferencias electromagnéticas
Es importante resaltar que cuanto mayor es el tiempo de operación del elemento, es más vulnerable a verse afectado por estos agentes y es menos inmune a la aparición de un fallo aleatorio.
La fortaleza es la inmunidad o defensa de un elemento contra el estrés y se reduce con el paso del tiempo.
Especialmente en elementos sometidos a una función de seguridad de alta o continua demanda (ver nota) la fortaleza disminuirá más rápidamente.
Nota: El análisis de los modos de demanda de las funciones instrumentadas de seguridad se sale del objeto de este artículo aunque cabe reseñar que una función instrumentada de seguridad será de baja demanda si ocurre una demanda con una frecuencia menor que una vez al año y de alta/continua demanda si ocurrirá una demanda con mayor frecuencia que una vez al año. En nuestro caso del tren la función de seguridad “velocidad excesiva acción de los frenos” es una función de alta/continua demanda.
Los fallos aleatorios tienen dos modos de fallo, modo seguro y modo peligroso.
2.1. Fallos aleatorios seguros
Figura 2. Fallo aleatorio seguro
Un fallo seguro es un fallo que no afecta a la habilidad de un sistema en llevar al proceso (en este caso el tren) a un estado seguro (ver nota) cuando sea requerido (de ahora en adelante, diremos “cuando haya una demanda”), es decir, son fallos que no impiden la acción de seguridad exitosa.
Estos fallos tienen la habilidad o el potencial de provocar una parada accidental o no deseada (también llamado disparo espurio).
Nota: Antes de continuar debemos de aclarar el significado de “seguridad”. La seguridad es la ausencia de un riesgo inaceptable. Operar un proceso o viajar en tren de forma segura significa mantener unos riesgos específicos por debajo de un límite razonable prefijado. El estado seguro es aquel estado en el que un riesgo específico no existe. En nuestro caso del tren, el estado seguro es el estado de tren parado. Llevando al tren a este estado, no hay riesgo alguno de descarrilamiento.
Los fallos seguros no afectan a la seguridad de forma directa ya que no provocan situaciones peligrosas por sí mismos, es decir, no provocan situaciones con capacidad potencial de causar un daño. Indirectamente sí que pueden provocar situaciones de peligro. Un ejemplo es un fallo que provoque una parada accidental del tren. En este caso, alguna persona que estuviera de pie podría sufrir un golpe debido a la frenada de emergencia.
En los procesos de las plantas industriales un disparo accidental o espurio puede conllevar una serie de situaciones peligrosas derivadas. Las situaciones de peligro indirectas derivadas de los fallos seguros, se estudian por separado en los estudios de análisis de peligros.
Los fallos seguros se subdividen en fallos seguros detectados y no detectados.
2.1.1. Fallos aleatorios seguros no detectados
Los fallos seguros no detectados son aquellos que sí o sí, provocan una parada no deseada. En nuestro caso, estos fallos provocarían que el sistema de frenada se activase accidentalmente, sin que hubiera una demanda del maquinista en activarlos, es decir, los frenos se activarían y el tren permanecería detenido hasta que al menos se reparase el fallo.
Nota: El resultado de que el tren se haya parado, se puede denominar estado seguro. Un estado seguro garantiza la ausencia de riesgo (o un riesgo en niveles razonables/tolerables), en nuestro caso con el tren parado o en estado seguro ya no hay peligro de descarrilamiento y riesgo de muerte a los pasajeros.
Un ejemplo sería que un sensor de sobre velocidad indicase por error una sobre velocidad que hiciera que los frenos de emergencia se activasen automáticamente. El sensor de sobre velocidad tendría un fallo seguro no detectado y los frenos de seguridad se activarían sin existir una demanda de seguridad.
Evidentemente a nadie le gusta que su planta química o su tren queden indisponibles por un fallo seguro no detectado y no todo el mundo entiende que es un precio que hay que pagar por la seguridad. Cualquier función de seguridad instalada conlleva fallos seguros no detectados. La única forma en la que no existan fallos seguros no detectados es quitando las protecciones, lo cual carece de sentido y atenta contra la seguridad (ver nota). En el caso del tren, sería como pensar que para evitar que el sistema de frenada haga parar el tren por error, lo mejor sería que el tren no llevara frenos.
Nota: Desgraciadamente se han dado casos en los que se han eliminado protecciones por este motivo y esto ha terminado en accidentes.
Estos fallos provocan disparos espurios.
En el caso de una planta petroquímica, habría que reparar el fallo y volver a arrancar la unidad o planta, asumiendo en muchos casos un importante impacto económico.
Muchas empresas clientes (usuarios finales) limitan las frecuencias de que aparezcan disparos espurios, y es difícil combinar este requerimiento sin afectar la limitación de fallos peligrosos no detectados que imponen los estudios de determinación de SIL.
2.1.2. Fallos aleatorios seguros detectados
Este tipo de fallos son aquellos que no impiden la acción exitosa de seguridad y que los mecanismos de auto diagnósticos son capaces de detectar.
El concepto de detectado aplica solo a los mecanismos de autodiagnósticos, es decir, no es correcto decir, “como el fallo ha provocado un disparo y ha parado la unidad de amoniaco, se deduce que se ha detectado”. El fallo debe de estar registrado en algún sistema de diagnósticos.
Realmente son los autodiagnósticos de los elementos lógicos los que son capaces de detectar estos fallos.
En elementos simples (sin votación) estos fallos provocan una parada involuntaria del proceso (disparo espurio) pero con elementos redundantes (más de un elemento capaz de realizar la tarea asignada) con votaciones 2oo2 o 2oo3 los elementos son capaces de tolerar estos fallos y no provocar la parada, es decir, estos fallos no necesariamente provocan una parada no deseada.
Un ejemplo de fallo seguro detectado que provoca un disparo espurio, es un único transmisor 4-20mA HART que tiene un tipo de fallo “Fail Low” es decir, ante fallo, la salida del transmisor se va a 3,5 mA. El elemento lógico tiene un disparo por bajo y no está configurado para discernir si el nivel de disparo bajo es causado por la variable o por la transición de la señal de fallo a bajo rango (3,5mA). En este caso, cuando ocurra un “Fail Low” habrá un disparo espurio pero sin embargo, al llegar a bajo rango el elemento lógico detectará el fallo y el operador de mantenimiento podrá saber que la causa de fallo fue un “Fail Low” del transmisor.
Para ver un ejemplo de fallo seguro detectado que no provoca un disparo espurio, volveremos al ejemplo de nuestro tren.
El sensor de velocidad se conecta a un elemento lógico que interpreta la velocidad recibida del sensor y actúa sobre los frenos cuando la velocidad supera un límite umbral prefijado.
Nuestro elemento lógico tiene una redundancia 2oo3 de CPU’s y esa redundancia le permite al diagnóstico detectar un fallo en una de las 3 CPU’s que de no ser por la redundancia acabaría por actuar los frenos (un fallo con potencial de activar un disparo espurio). En este caso, las dos CPU’s que no han sufrido el fallo son capaces de aislar la CPU con fallo y así evitar que esa CPU provoque un disparo espurio.
¿El fallo ha impedido que se realice la función de seguridad que es frenar cuando se requiera? No, debido a que las CPU’s sanas siguen siendo capaz de responder a una demanda de frenada.
¿El fallo se ha detectado por un diagnóstico? Sí.
Por tanto el fallo es seguro detectado.
Las válvulas solo detectan estos fallos cuando se incluyen mecanismos de pruebas como las Pruebas de Carrera Completa o Full Stroke Test (FST) o las Pruebas de Carrera Parcial o Partial Stroke Test (PST).
Para poder realizar una FST con el proceso en operación, se requiere que exista un bypass de forma que durante la prueba la válvula pueda efectuar todo su recorrido, es decir, una válvula normalmente abierta deberá de cerrar completamente durante la prueba.
Las pruebas PST solamente efectúan un ligero movimiento que demuestra que la válvula es capaz de “despegarse” de su posición. Tienen la ventaja de no requerir bypass aunque no “descubren” la misma cantidad de fallos detectados que el FST.
2.2. Fallos aleatorios peligrosos
Figura 3. Fallo aleatorio peligroso.
Los fallos peligrosos son los que tienen el potencial de hacer que las funciones instrumentadas de seguridad (en este caso los frenos) no se puedan ejecutar satisfactoriamente ante la aparición de una demanda.
Estos fallos hacen que un elemento de una función de seguridad no pueda reaccionar cuando ocurra una demanda de seguridad o en otras palabras, hace que la función de seguridad no esté disponible en cuanto a la seguridad.
En el caso del tren, estos fallos harían que los frenos no estén disponibles y “en caso de ser necesarios” (ocurrencia de una demanda) provocarían una situación peligrosa con posible accidente.
Los fallos peligrosos se subdividen en fallos peligrosos detectados y no detectados.
2.2.1. Fallos aleatorios peligrosos detectados
Figura 4. Fallo aleatorio peligroso detectado.
En el caso del tren consideraremos que existe la posibilidad de detectar una rotura del mecanismo que transmite al freno la orden de frenada. En este caso el maquinista pudiera actuar en consecuencia, por ejemplo, dejando de acelerar hasta conseguir que el tren se pare.
Los fallos peligrosos se pueden detectar mediante mecanismos de auto-diagnósticos o haciendo mantenimiento preventivo.
Una vez que un fallo peligroso ha sido detectado, hay dos opciones:
- Decidir seguir operando el proceso y tomar medidas para que se repare el fallo y se restaure el sistema “lo antes posible”. “Lo antes posible” debe de ser antes de que pueda aparecer una demanda del proceso.
- Provocar automáticamente una parada del proceso por un medio alternativo a la función de seguridad cuyo elemento ha fallado (nota).
Si no se tomaran alguna de estas dos medidas, los fallos peligrosos “detectados” tendrán las mismas consecuencias que los fallos peligrosos no detectados, es decir, la detección no habrá sido de utilidad.
Nota: Un ejemplo de aplicar la opción 2 es, en nuestro caso del tren, si el sensor de velocidad tiene un fallo peligroso detectado y el maquinista decide cortar el suministro eléctrico del sistema de frenada para de esta forma activar los frenos. Otro ejemplo en la industria de procesos, es cuando el operador de Sala de Control activa un pulsador de emergencia que actúa directamente sobre los elementos finales en caso de detectarse un fallo peligroso en el elemento lógico.
En nuestro caso del tren, cuyas demandas de frenada son muy frecuentes, no se puede uno permitir la opción 1 y permanecer un tiempo de reparación con los frenos indisponibles. Necesariamente hay que parar el tren.
Sin embargo en el caso de un proceso industrial, es razonable que la elección sea de reparar el fallo con el proceso en operación ya que una demanda de seguridad puede ocurrir cada 2 años y la probabilidad de que ocurra esa demanda justo en las digamos 8 horas en las que tardamos en reparar el fallo es muy baja.
Esta opción se suele llevar a cabo debido al coste económico que tiene parar un proceso y asumir los costes de la perdida de producción hasta que se vuelve aponer el proceso en marcha.
Eso sí, para que se acepte la reparación en operación, normalmente la empresa dueña de la planta y sus responsables de mantenimiento tienen que comprometerse en que hará la reparación en un tiempo máximo prefijado. Durante este tiempo de reparación se asume que se está desprotegido de la seguridad y que una demanda o situación de emergencia en este tiempo nos puede llevar a un accidente.
En resumen, hay que valorar las consecuencias que tiene tomar una u otra decisión.
2.2.2. Fallos aleatorios peligrosos no detectados
Figura 5. Fallo aleatorio peligroso no detectado
Los fallos peligrosos “no detectados” son aquellos que impiden la función de seguridad exitosa y que permanecen ocultos, sin que nadie sepa que están ahí.
Si ocurre una demanda entre el fallo y las tareas de mantenimiento periódicas, se va a producir una situación peligrosa que podrá derivar en un evento peligroso y desencadenar en un accidente.
Solamente afloran por dos motivos:
1. Cuando existe una demanda de seguridad y la función no responde, llevando la situación a un posible accidente.
2. Cuando se ejecutan pruebas de mantenimiento periódicas.
En el mundo real no existe la posibilidad de que un diagnostico cubra la detección del 100% de los fallos peligrosos y por tanto siempre habrá un porcentaje de fallos peligrosos “no detectados”. Lo único que se puede hacer con ellos es tratar de minimizarlos y tenerlos controlados.
Hay que tener en cuenta que minimizar los fallos peligrosos tiene un coste y cuanto más se minimicen, más se dispara ese coste. Aunque es un tópico, pero hay que recordar la frase de “el riesgo cero tiene un coste infinito”. Por tanto las ingenierías de detalle tienen que minimizar los fallos peligrosos no detectados hasta donde el estudio de determinación SIL les obligue y no más.
Este tema es delicado, ya que el nivel que se exige de fallos peligroso no detectados implica que se reconoce que el accidente puede pasar (sea cada 10 años, 100 años, 1000 años etc). En el caso del tren tiene unas consecuencias trágicas y en una planta petroquímica puede incluso derivar en un numero de fatalidades aún mayor que el descarrilamiento de un tren.
Un tren puede circular con fallos peligrosos no detectados en el sistema de frenada, pero en el momento que haya una curva (una demanda) y el maquinista tenga la necesidad de frenar, el fallo “aflora” y se provocará un accidente.
El mecanismo de defensa contra estos fallos aparte de mantenerlos bajo control, es hacer pruebas periódicas de mantenimiento para tratar de detectarlos.
3. FALLOS SISTEMÁTICOS
Figura 6. Fallo sistemático
Los fallos sistemáticos son fallos que solamente se pueden eliminar mediante una modificación del diseño, el proceso de fabricación o procedimientos de operación.
Una de los objetivos primordiales de la gestión de la seguridad funcional es minimizar los fallos sistemáticos. Uno de los métodos para conseguir este fin es el de seguir el ciclo de vida de seguridad descritos en las normas IEC-61508 y IEC-61511.
El ciclo de vida de seguridad trata de evitar mediante un método que se cometan errores en el diseño, instalación, comisionado, puesta en marcha, operación o desmantelamiento que hagan que existan agujeros en la seguridad. Además obliga a definir unos criterios de riesgos tolerables y a determinar en base a este criterio la reducción de riesgo necesaria para cada función instrumentada de seguridad.
Estos fallos son capaces de tirar al traste por un descuido el buen diseño de una función de seguridad. De nada sirve tener unos transmisores de seguridad con diagnósticos en votación 2oo3, un elemento lógico cuádruple redundante 2oo4 y unas válvulas en votación 1oo2 si por un error humano el valor umbral programado en el elemento lógico es erróneo por haberse copiado mal desde la lista de valores de alarmas a la Especificación de Requerimientos de Seguridad.
Aunque parezca de sentido común que en cuanto al diseño de funciones instrumentadas de seguridad siempre debe de haber persona que revise el trabajo de la primera, esto no siempre sucede.
Estos fallos tienen su contribución en los fallos peligrosos no detectados y aunque no se pueden cuantificar.
Aunque parece evidente diferenciar los fallos aleatorios de los sistemáticos, no es siempre una tarea fácil.
4. FALLOS HUMANOS
Los fallos humanos, dependiendo de la causa primordial del error humano, pueden ser conceptualmente tratados como fallos aleatorios (por ejemplo, cuando el error se da por una distracción) o como fallo sistemático (por ejemplo, por incompetencia de la persona o formación insuficiente).
4.1. Fallos humanos aleatorios
Como cualquier otro fallo aleatorio, los fallos humanos aleatorios tienen dos modos de fallo, modo seguro y modo peligroso.
4.1.1. Fallos humanos aleatorios seguros
Figura 7. Fallo humano seguro.
Esto sucede cuando un operario de mantenimiento pone una demanda por error en una función de seguridad. Por ejemplo, una persona encargada de una modificación en una cabina de conexiones de marshalling puede por error desconectar un cable equivocado que provoca el disparo de un compresor.
En nuestro caso del tren, es el maquinista el que hace actuar los frenos por error.
4.1.2 Fallos humanos aleatorios peligrosos
Figura 8. Fallo humano peligroso.
Este concepto aplica cuando el análisis de riesgos ha establecido como capa de protección una acción humana ante una alarma concreta.
En nuestro caso el fallo humano ocurre si el conductor no acciona los frenos del tren cuando salte una alarma de que se ha excedido la velocidad para ese tramo.
En los análisis de riesgo es frecuente establecer capas de protección para la intervención humana para que efectúe una acción de seguridad ante la aparición de una alarma.
Muchos se preguntarán por qué se deja a intervención humana una acción que se puede configurar de forma automática. La explicación a esto es que de esta forma se evitan disparos espurios de las funciones instrumentadas de seguridad.
Se debe de evaluar en cada caso si es conveniente dejar la intervención humana para una capa de protección o no.
En el caso del tren, parece evidente que la mejor opción es que los frenos se activen automáticamente si se ha detectado una velocidad superior a la permitida en un tramo en concreto, ya que la vida de muchas personas está en riesgo.
Sin embargo, hay otros casos en los que esto no es tan evidente.
Un ejemplo de esto es que se decide que cuando se detecte fuego en las inmediaciones de un compresor, se debe de activar un sistema de extinción por diluvio. Si se deja implementado de forma automática, un fallo seguro no detectado de alguno de los detectores de fuego, hará que el sistema de diluvio se active generando un problema en el compresor que estará en servicio. Dejándolo como acción de un operador, este, comprobará primero que la alarma de fuego es real (por ejemplo mirando las cámaras en el sistema de CCTV) y una vez confirmado, activará manualmente la extinción.
Hay opiniones variadas sobre cada cuanto se debe poner en los análisis de riesgos que falla una persona. Es evidente que una persona tiene una probabilidad de equivocarse ya que intervienen factores psicológicos, de estrés, despiste, falta de concentración, etc.
Evidentemente cuanto más entrenado este el operador menos probabilidad habrá de que tome una mala decisión ante un momento crítico aunque la ansiedad y el estrés pueden jugar malas pasadas.
La probabilidad de fallo de una persona se debe de tener en cuenta a la hora de calcular la eficiencia (fiabilidad) de la capa de protección con intervención humana, junto con los fallos aleatorios de los elementos que intervengan.
Está más o menos estandarizado que una persona tiene una probabilidad de fallos de uno entre 10, es decir que de cada 10 veces que se le pida actuar cuando haya una situación de peligro (activar la extinción, frenar el tren o cerrar una válvula ante una determinada alarma) lo hará correctamente 9 veces.
Para algunos, esta probabilidad es conservadora (consideran que el operador fallará menos), para otros razonable y para otros optimista (consideran que el operador fallará mas).
Aunque se pudiera pensar que esta probabilidad es más que conservadora, está comprobado que un operador de una planta industrial puede tener muchas alarmas que requieran de su intervención y tiene que ser consciente de cada respuesta que debe de dar para cada alarma. Además de las alarmas que requieren acción humana hay innumerables alarmas que se anuncian en los programas de gestión de alarmas de los vendedores de sistemas de control y que mal gestionadas pueden distraer a los operadores de responder a las alarmas que requieren de intervención inmediata.
Por todo no es fácil para un operador tomar la decisión correcta, por muy evidente que resulte analizarlo a posteriori. En estos casos siempre se dice que es mejor no tomar ninguna decisión si no se está totalmente seguro de la acción a tomar, ya que las consecuencias de una mala decisión pueden ser peores que lo que se trataba de evitar.
Lo que se recomienda para mejorar la probabilidad de éxito de un operador, es una buena gestión de alarmas estableciendo como alarmas de prioridad máxima las que requieren intervención humana inmediata. Muchos usuarios finales de plantas químicas y petro-químicas son conscientes de ello y establecen procedimientos para que así se cumpla.
4.2. Fallos humanos sistemáticos
Las pruebas periódicas son pruebas que realiza el personal de mantenimiento y cuyo objetivo es detectar fallos aleatorios peligrosos no detectados.
Estas pruebas se pueden hacer con el proceso en operación o con el proceso en parada.
Por ejemplo, una válvula de todo-nada tiene un fallo que le impide cerrar. Este fallo apareció a los 6 meses de haber arrancado un proceso por primera vez. Este fallo está oculto y tal y como explicábamos en el apartado 2.2.2 una defensa es hacer pruebas periódicas en las que actuaremos la válvula para comprobar que cierra. En el momento de la prueba periódica detectaremos este fallo y restauraremos la válvula para que esté disponible y esté en disposición de cerrar cuando ocurra una demanda del proceso.
Si la prueba periódica en este caso se hace tras un año seguido de operación, el fallo habrá estado oculto durante 6 meses.
Si además, el responsable de mantenimiento de estas pruebas no realiza las pruebas correctamente y no descubre el fallo, éste seguirá oculto durante un año más hasta que se vuelva a repetir la prueba periódica. El resultado es que no se garantiza la seguridad.
5. CONCLUSIÓN
Entender la naturaleza de los fallos es fundamental para adentrarse en el complejo mundo de la Seguridad Funcional.
Espero que este artículo haya servido de ayuda para este fin y que los lectores se atrevan a seguir profundizando sobre el tema.