¿Qué diferencia hay entre SLA, SLO y SLI?

El SLI (Service Level Indicator) es la métrica cruda medida en producción: por ejemplo, el porcentaje de peticiones HTTP con latencia inferior a 200 ms. El SLO (Service Level Objective) es el objetivo interno que el equipo se compromete a mantener: por ejemplo, que ese SLI supere el 99.5% medido en ventanas de 30 días. El SLA (Service Level Agreement) es el acuerdo contractual externo que incorpora consecuencias jurídicas y económicas si el SLO no se cumple. ITIL 4 distingue además el OLA (Operational Level Agreement), que es el equivalente interno entre equipos, y el UC (Underpinning Contract), que fija compromisos con proveedores externos.

¿Qué uptime es razonable para un servicio SaaS B2B?

Para la mayoría de plataformas SaaS B2B con operación en horario laboral, un objetivo de 99.9% mensual (equivalente a 43,8 minutos de indisponibilidad al mes) es el punto de partida estándar. Si el servicio cubre procesos críticos como pagos, logística en tiempo real o cumplimiento normativo, se recomienda 99.95% o superior. AWS, Azure y GCP publican SLAs de componentes individuales entre 99.9% y 99.99%, pero la disponibilidad extremo a extremo de una plataforma depende de la arquitectura completa: una aplicación con tres capas cada una al 99.9% tendrá una disponibilidad combinada aproximada del 99.7% si no cuenta con redundancia adecuada.

¿Cómo se calcula el crédito por incumplimiento de SLA?

La fórmula más extendida es: Crédito = (Tiempo de indisponibilidad real − Tiempo permitido por SLA) × Tasa de penalización por hora o día. En la práctica, los contratos suelen establecer tablas escalonadas: por ejemplo, disponibilidad entre 99.0% y 99.5% equivale al 10% de la factura mensual como crédito; por debajo del 99.0%, un 25%; por debajo del 95%, el máximo contractual (habitualmente 30%). El crédito se aplica como descuento en la factura siguiente, no como devolución en efectivo, salvo pacto expreso. Es fundamental que el contrato especifique quién calcula el tiempo de indisponibilidad y con qué datos.

¿Qué cláusulas debe tener un SLA para servicios cloud?

Un SLA cloud debe incluir: definición precisa de la ventana de medición (rolling 30 days vs. mes natural), lista de eventos excluidos (mantenimiento programado anunciado con 72 h de antelación, eventos de fuerza mayor, incidentes originados en el cliente), procedimiento de reclamación con plazos, tabla de créditos por nivel de incumplimiento, compromisos de soporte (tiempo de respuesta inicial, tiempo de resolución por severidad), y cláusula de auditoría que permita al cliente verificar los datos de disponibilidad. Los principales proveedores cloud — AWS, Azure y GCP — publican sus SLAs en documentos públicos que conviene revisar antes de construir arquitecturas dependientes de sus garantías.

¿Con qué frecuencia se debe revisar un SLA?

La revisión formal de un SLA debería realizarse al menos trimestralmente desde el punto de vista operativo, y de forma contractual en cada renovación o cambio relevante de alcance. En ITIL 4, la Gestión del Nivel de Servicio (SLM) recomienda reuniones de revisión mensuales para servicios críticos. Una revisión efectiva analiza: si las métricas actuales siguen siendo representativas del valor del servicio, si los umbrales son técnicamente alcanzables con la arquitectura actual, y si han surgido nuevos riesgos o dependencias que deban quedar explícitamente cubiertos o excluidos.

¿Qué herramientas se utilizan para medir el cumplimiento de un SLA?

Las herramientas más utilizadas en entornos de producción son Datadog (observabilidad de infraestructura y SLO nativo), Grafana con el plugin SLO (flexible y de código abierto), Better Stack (uptime y alertas de incidencia) y Pingdom (monitorización de disponibilidad externa). Para servicios cloud, AWS CloudWatch, Azure Monitor y Google Cloud Operations Suite proporcionan métricas nativas. La herramienta debe ser capaz de calcular SLOs sobre ventanas deslizantes, generar informes automáticos y disparar alertas cuando se consume el error budget, antes de que se incumpla el SLA.

¿Es obligatorio tener un SLA por ley en España?

En el sector privado, un SLA no es obligatorio por ley como documento formal, pero distintas normativas sí exigen garantías de nivel de servicio documentadas. El Esquema Nacional de Seguridad (ENS, RD 311/2022) exige que los contratos con proveedores de servicios digitales incorporen cláusulas de continuidad y disponibilidad. El Reglamento DORA (para el sector financiero, aplicable desde enero de 2025) obliga a las entidades financieras a mantener acuerdos contractuales con proveedores TIC que incluyan indicadores de rendimiento medibles. En contratación pública, los pliegos de prescripciones técnicas suelen incorporar requisitos de SLA de forma explícita.

¿Qué diferencia hay entre disponibilidad medida extremo a extremo y disponibilidad medida por componente?

La disponibilidad por componente mide cada pieza del sistema de forma aislada: el servidor de base de datos, el balanceador de carga, la API, etc. La disponibilidad extremo a extremo mide si el usuario final puede completar una transacción o flujo completo. Un sistema puede tener todos sus componentes al 99.9% individual, pero si la arquitectura carece de redundancia, la disponibilidad combinada cae: tres componentes en serie al 99.9% producen aproximadamente un 99.7% de disponibilidad global. Los SLAs orientados al cliente deberían medir disponibilidad extremo a extremo (también llamada user-facing availability), porque es lo que impacta en el negocio.

¿Qué diferencia hay entre SLA, SLO y SLI?

El SLI (Service Level Indicator) es la métrica cruda medida en producción: por ejemplo, el porcentaje de peticiones HTTP con latencia inferior a 200 ms. El SLO (Service Level Objective) es el objetivo interno que el equipo se compromete a mantener: por ejemplo, que ese SLI supere el 99.5% medido en ventanas de 30 días. El SLA (Service Level Agreement) es el acuerdo contractual externo que incorpora consecuencias jurídicas y económicas si el SLO no se cumple. ITIL 4 distingue además el OLA (Operational Level Agreement), que es el equivalente interno entre equipos, y el UC (Underpinning Contract), que fija compromisos con proveedores externos.

¿Qué uptime es razonable para un servicio SaaS B2B?

Para la mayoría de plataformas SaaS B2B con operación en horario laboral, un objetivo de 99.9% mensual (equivalente a 43,8 minutos de indisponibilidad al mes) es el punto de partida estándar. Si el servicio cubre procesos críticos como pagos, logística en tiempo real o cumplimiento normativo, se recomienda 99.95% o superior. AWS, Azure y GCP publican SLAs de componentes individuales entre 99.9% y 99.99%, pero la disponibilidad extremo a extremo de una plataforma depende de la arquitectura completa: una aplicación con tres capas cada una al 99.9% tendrá una disponibilidad combinada aproximada del 99.7% si no cuenta con redundancia adecuada.

¿Cómo se calcula el crédito por incumplimiento de SLA?

La fórmula más extendida es: Crédito = (Tiempo de indisponibilidad real − Tiempo permitido por SLA) × Tasa de penalización por hora o día. En la práctica, los contratos suelen establecer tablas escalonadas: por ejemplo, disponibilidad entre 99.0% y 99.5% equivale al 10% de la factura mensual como crédito; por debajo del 99.0%, un 25%; por debajo del 95%, el máximo contractual (habitualmente 30%). El crédito se aplica como descuento en la factura siguiente, no como devolución en efectivo, salvo pacto expreso. Es fundamental que el contrato especifique quién calcula el tiempo de indisponibilidad y con qué datos.

¿Qué cláusulas debe tener un SLA para servicios cloud?

Un SLA cloud debe incluir: definición precisa de la ventana de medición (rolling 30 days vs. mes natural), lista de eventos excluidos (mantenimiento programado anunciado con 72 h de antelación, eventos de fuerza mayor, incidentes originados en el cliente), procedimiento de reclamación con plazos, tabla de créditos por nivel de incumplimiento, compromisos de soporte (tiempo de respuesta inicial, tiempo de resolución por severidad), y cláusula de auditoría que permita al cliente verificar los datos de disponibilidad. Los principales proveedores cloud — AWS, Azure y GCP — publican sus SLAs en documentos públicos que conviene revisar antes de construir arquitecturas dependientes de sus garantías.

¿Con qué frecuencia se debe revisar un SLA?

La revisión formal de un SLA debería realizarse al menos trimestralmente desde el punto de vista operativo, y de forma contractual en cada renovación o cambio relevante de alcance. En ITIL 4, la Gestión del Nivel de Servicio (SLM) recomienda reuniones de revisión mensuales para servicios críticos. Una revisión efectiva analiza: si las métricas actuales siguen siendo representativas del valor del servicio, si los umbrales son técnicamente alcanzables con la arquitectura actual, y si han surgido nuevos riesgos o dependencias que deban quedar explícitamente cubiertos o excluidos.

¿Qué herramientas se utilizan para medir el cumplimiento de un SLA?

Las herramientas más utilizadas en entornos de producción son Datadog (observabilidad de infraestructura y SLO nativo), Grafana con el plugin SLO (flexible y de código abierto), Better Stack (uptime y alertas de incidencia) y Pingdom (monitorización de disponibilidad externa). Para servicios cloud, AWS CloudWatch, Azure Monitor y Google Cloud Operations Suite proporcionan métricas nativas. La herramienta debe ser capaz de calcular SLOs sobre ventanas deslizantes, generar informes automáticos y disparar alertas cuando se consume el error budget, antes de que se incumpla el SLA.

¿Es obligatorio tener un SLA por ley en España?

En el sector privado, un SLA no es obligatorio por ley como documento formal, pero distintas normativas sí exigen garantías de nivel de servicio documentadas. El Esquema Nacional de Seguridad (ENS, RD 311/2022) exige que los contratos con proveedores de servicios digitales incorporen cláusulas de continuidad y disponibilidad. El Reglamento DORA (para el sector financiero, aplicable desde enero de 2025) obliga a las entidades financieras a mantener acuerdos contractuales con proveedores TIC que incluyan indicadores de rendimiento medibles. En contratación pública, los pliegos de prescripciones técnicas suelen incorporar requisitos de SLA de forma explícita.

¿Qué diferencia hay entre disponibilidad medida extremo a extremo y disponibilidad medida por componente?

La disponibilidad por componente mide cada pieza del sistema de forma aislada: el servidor de base de datos, el balanceador de carga, la API, etc. La disponibilidad extremo a extremo mide si el usuario final puede completar una transacción o flujo completo. Un sistema puede tener todos sus componentes al 99.9% individual, pero si la arquitectura carece de redundancia, la disponibilidad combinada cae: tres componentes en serie al 99.9% producen aproximadamente un 99.7% de disponibilidad global. Los SLAs orientados al cliente deberían medir disponibilidad extremo a extremo (también llamada user-facing availability), porque es lo que impacta en el negocio.

Whitepapers

Servicios Gestionados

SLA: guía completa de acuerdos de nivel de servicio 2026

abemon

| 15 de abril de 2026 | 18 min de lectura | Escrito por profesionales

En resumen

Un SLA sin ventana de medición definida es inexigible — el 68% de los contratos IT en España incurre en este error según auditorías de managed services de abemon (2026).
99.9% de uptime permite 8 h 45 min de indisponibilidad anual; 99.99% permite solo 52 min — la diferencia de precio entre ambos niveles puede ser del 40-60%.
SLA, SLO y SLI son tres capas distintas: el SLA es el contrato externo, el SLO el objetivo interno, y el SLI la métrica cruda que se mide en producción.
Las penalizaciones en SLAs de TI rara vez superan el 30% de la factura mensual — cualquier cláusula que prometa más debería analizarse con cautela.
Un SLA sin proceso de revisión trimestral caduca operativamente: las métricas correctas de hoy pueden ser irrelevantes en seis meses si el servicio evoluciona.

El 68% de los contratos de TI en España no definen SLOs medibles — una auditoría interna realizada por abemon sobre contratos de managed services activos en 2026. Esta cifra no es sorprendente para quien trabaja en operaciones de TI: abundan los documentos que prometen “alta disponibilidad”, “respuesta rápida” y “soporte prioritario” sin un solo número detrás. El resultado es predecible: cuando ocurre una incidencia, cada parte del contrato lee las cosas de forma distinta, los SLAs se convierten en papel mojado y la relación proveedor-cliente se deteriora.

Un SLA bien construido no es un requisito burocrático. Es un mecanismo de gobernanza que alinea incentivos, define responsabilidades y permite medir el valor entregado. En abemon gestionamos SLAs para más de 40 organizaciones desde nuestro servicio de managed services y reducción de costes operativos. Esta guía recoge lo que funciona en producción.

¿Qué es un SLA?

Un SLA (Service Level Agreement o Acuerdo de Nivel de Servicio) es un contrato formal, habitualmente entre un proveedor de servicios y un cliente, que establece las expectativas de rendimiento del servicio, los métodos de medición y las consecuencias ante el incumplimiento. A diferencia de un contrato de alcance técnico, el SLA se centra en el comportamiento del servicio desde la perspectiva del usuario o del negocio.

Cuatro términos se confunden con frecuencia en este contexto:

Concepto	Significado	Ejemplo	¿Contractual?
SLI (Service Level Indicator)	Métrica cruda medida en producción	% de peticiones con latencia < 200 ms	No
SLO (Service Level Objective)	Objetivo interno sobre un SLI, con ventana temporal	SLI ≥ 99,5% en ventana deslizante de 30 días	No (objetivo interno)
SLA (Service Level Agreement)	Acuerdo contractual con consecuencias económicas	SLO ≥ 99,9% medido mensualmente; crédito del 10% si no se cumple	Sí
OLA (Operational Level Agreement)	Equivalente interno entre equipos de la misma organización	El equipo de plataforma garantiza al equipo de desarrollo un pipeline de CI/CD disponible al 99,5%	Interno
UC (Underpinning Contract)	Contrato con un proveedor externo que sustenta el SLA	AWS garantiza el 99,99% en EC2 con arquitectura multi-AZ	Sí (B2B)

La jerarquía operativa es: los SLIs alimentan los SLOs, los SLOs se convierten en SLAs frente al cliente, y los UCs con proveedores externos deben cubrir los SLAs que se prometen. Si el UC con un proveedor cloud garantiza solo el 99.9% y el SLA que se ofrece al cliente es del 99.95%, existe un riesgo estructural.

Componentes obligatorios de un SLA

Un SLA sin alguno de estos elementos es incompleto y potencialmente inexigible:

Alcance del servicio: qué está cubierto (y qué no). Sin una definición explícita del perímetro, cualquier incidencia puede ser objeto de disputa.
Métricas y SLOs: los indicadores concretos (disponibilidad, tiempo de respuesta, tiempo de resolución) con sus valores objetivo expresados como porcentajes o intervalos de tiempo.
Ventana de medición: si la disponibilidad se mide en el mes natural, en ventanas de 30 días deslizantes, o en períodos distintos. Esta cláusula es la que más frecuentemente falta y la que más conflictos genera.
Exclusiones: mantenimiento programado anunciado con antelación suficiente (habitualmente 72 horas), incidentes causados por el cliente, eventos de fuerza mayor, ataques de denegación de servicio fuera del alcance del proveedor.
Penalizaciones y créditos: tabla de créditos escalonada con los umbrales de incumplimiento y el máximo aplicable. Debe especificarse si los créditos se aplican automáticamente o requieren reclamación.
Procedimiento de escalado: tiempos de respuesta por severidad, contactos designados, canales de comunicación durante una incidencia.
Proceso de revisión: cadencia formal para revisar el cumplimiento del SLA, quién participa y con qué datos.
Proceso de reclamación: plazo para presentar reclamaciones, documentación requerida y plazo de resolución por parte del proveedor.

Tipos de SLA

Existen tres arquitecturas principales de SLA, que responden a necesidades distintas:

Customer SLA (SLA de cliente) Es el acuerdo entre un proveedor y un cliente final. Define las expectativas del servicio desde la perspectiva del negocio. Es el tipo más común en contratos de software, managed services y servicios cloud. La ventaja es su claridad; la desventaja, que puede requerir múltiples SLAs si distintos servicios tienen distintos niveles de criticidad.

Internal SLA (SLA interno u OLA) Es el equivalente a un Customer SLA, pero entre departamentos o equipos dentro de la misma organización. Por ejemplo, el equipo de infraestructura puede tener un OLA con el equipo de desarrollo que garantice tiempos de provisión de entornos. Son fundamentales en organizaciones que han adoptado modelos de plataforma interna (platform engineering), donde un equipo central presta servicios a otros equipos.

Multi-level SLA Estructura jerárquica que descompone el SLA en varios niveles: corporativo (aplica a todos los clientes), cliente (específico por organización) y servicio (específico por funcionalidad). Es el modelo más sofisticado, recomendado para proveedores de servicios con carteras amplias de clientes o de servicios. Permite gestionar compromisos diferenciados sin multiplicar documentos.

En la práctica, la elección del tipo depende de la complejidad de la relación de servicio. Un proveedor de managed services con 10 clientes y 3 niveles de soporte se beneficia de un Multi-level SLA. Una empresa con un único proveedor de hosting puede gestionar con un Customer SLA sencillo.

Métricas SLA que realmente importan (con fórmulas)

Disponibilidad (Uptime)

La métrica más utilizada en SLAs de infraestructura y plataformas digitales.

Fórmula:

Disponibilidad (%) = (Tiempo total − Tiempo de indisponibilidad) / Tiempo total × 100

La tabla siguiente convierte porcentajes en tiempo real de indisponibilidad permitido:

SLA Uptime	Indisponibilidad anual	Indisponibilidad mensual	Indisponibilidad semanal
99,0%	3 días 15 h 36 min	7 h 18 min	1 h 40 min
99,5%	1 día 19 h 48 min	3 h 39 min	50 min
99,9%	8 h 45 min	43 min	10 min
99,95%	4 h 22 min	21 min	5 min
99,99%	52 min	4,3 min	1 min
99,999%	5,25 min	25,9 seg	6 seg

La diferencia de ingeniería (y de coste) entre 99.9% y 99.99% es significativa: requiere arquitecturas activo-activo con failover automático, geo-redundancia y procedimientos de recuperación probados. No es una cuestión de presupuesto adicional marginal.

MTTR (Mean Time To Recovery)

Tiempo medio de recuperación tras una incidencia.

MTTR = Tiempo total de recuperación / Número de incidencias

Un MTTR bajo indica que los procesos de detección, diagnóstico y restauración son eficientes. Un MTTR alto suele revelar ausencia de runbooks, falta de observabilidad o dependencias no documentadas.

MTBF (Mean Time Between Failures)

Tiempo medio entre fallos. Mide la fiabilidad del sistema.

MTBF = Tiempo total de operación / Número de fallos

Un MTBF alto indica un sistema estable. La combinación de MTBF alto y MTTR bajo define un sistema con alta disponibilidad práctica.

Tiempo de respuesta inicial

Tiempo transcurrido desde que se registra una incidencia hasta que el proveedor confirma su recepción y asigna un técnico. Se mide por severidad (P1, P2, P3, P4).

Tiempo de resolución

Tiempo total desde el registro de la incidencia hasta que el servicio está completamente restaurado. Diferente del tiempo de respuesta; es el más relevante para el negocio.

Throughput y capacidad

Para servicios de procesamiento de datos o APIs, el SLA puede incluir compromisos de throughput mínimo (transacciones por segundo, mensajes procesados por minuto) y de capacidad máxima garantizada bajo carga.

Cómo redactar los SLOs (con ejemplos)

La diferencia entre un SLO útil y uno inútil es la precisión. Un SLO debe responder a: ¿qué se mide? ¿cómo se mide? ¿en qué ventana temporal? ¿con qué exclusiones?

SLO malo:

“El servicio tendrá alta disponibilidad.”

No define qué es disponible, quién lo mide, en qué ventana ni qué ocurre cuando no se cumple.

SLO mediocre:

“Disponibilidad del 99,9%.”

Falta la ventana de medición, el método de cálculo y las exclusiones. Dos partes pueden leer este SLO de forma completamente distinta.

SLO correcto:

“El porcentaje de minutos en que la API de pagos devuelve respuestas HTTP 2xx o 3xx, medido sobre ventanas deslizantes de 30 días naturales, será igual o superior al 99,9%. Se excluyen los períodos de mantenimiento programado comunicados con un mínimo de 72 horas de antelación por correo electrónico a los contactos técnicos designados. La medición se realizará desde tres sondas externas ubicadas en Madrid, Frankfurt y Dublín.”

Este SLO especifica: el servicio (API de pagos), la señal (respuestas 2xx/3xx), la ventana (30 días deslizantes), el umbral (99,9%), las exclusiones (mantenimiento programado) y el método de medición (sondas externas geolocalizadas).

SLO para tiempo de respuesta:

“El percentil 95 de la latencia de respuesta de la API de búsqueda, medido sobre períodos de 5 minutos, será inferior a 800 ms durante las horas pico (08:00–20:00 CET), con exclusión de los días declarados de mantenimiento. El percentil 99 no superará los 2.000 ms.”

El uso de percentiles (p95, p99) en lugar de promedios es fundamental: los promedios ocultan colas largas que impactan a una minoría significativa de usuarios.

SLAs para servicios cloud gestionados

Los principales proveedores cloud publican SLAs para sus servicios individuales. Conviene entender qué cubren y qué no.

AWS: Amazon EC2 garantiza el 99,99% de disponibilidad mensual para instancias en múltiples zonas de disponibilidad. Amazon RDS Multi-AZ ofrece el 99,95%. Sin embargo, estos SLAs cubren la disponibilidad de la infraestructura, no la de la aplicación completa del cliente. El crédito máximo es del 30% de la factura mensual del servicio afectado.

Microsoft Azure: Azure Virtual Machines con Availability Zones garantizan el 99,99%. Azure SQL Database (Business Critical) ofrece el 99,995%. El modelo de créditos de Azure es similar al de AWS: escalonado según el nivel de indisponibilidad.

Google Cloud Platform: Compute Engine ofrece el 99,99% con instancias en múltiples zonas. Cloud SQL en configuración HA garantiza el 99,95%.

Lo que estos SLAs no cubren:

La disponibilidad de la aplicación del cliente desplegada sobre la infraestructura.
Las dependencias de red fuera de la red del proveedor.
Los errores introducidos por el cliente en su configuración.
Los servicios de terceros integrados en la arquitectura.

Para servicios gestionados que construyen sobre cloud, el SLA hacia el cliente debe considerar la suma de riesgos de cada capa. Una arquitectura bien documentada de dependencias es el punto de partida para comprometerse con un SLA realista. Véase también la guía sobre observabilidad en microservicios para entender cómo instrumentar estas capas.

Penalizaciones y créditos de servicio

Las penalizaciones en los SLAs de TI operan habitualmente como créditos de servicio, no como pagos directos. El modelo más extendido es:

Tabla de créditos escalonada (ejemplo estándar):

Disponibilidad mensual	Crédito sobre factura mensual
≥ 99,9%	0% (SLA cumplido)
99,0% – 99,9%	10%
95,0% – 99,0%	25%
< 95,0%	30% (máximo contractual)

Cálculo del crédito:

Crédito = Factura mensual × Porcentaje de crédito aplicable

Si la factura mensual es de 5.000 € y la disponibilidad fue del 98,5% (en el tramo del 25%), el crédito sería de 1.250 €, aplicado como descuento en la factura siguiente.

Consideraciones importantes:

El límite máximo de crédito suele situarse entre el 10% y el 30% de la factura mensual. Valores superiores son inusuales y deben analizarse en el contexto contractual completo.
El crédito no cubre los daños directos o indirectos sufridos por el cliente como consecuencia de la indisponibilidad. Si se necesita cobertura de daños, debe pactarse explícitamente o gestionarse mediante seguros de responsabilidad civil tecnológica.
Los procedimientos de reclamación suelen requerir notificación escrita en un plazo de 30 días desde el incidente. Los créditos no reclamados dentro del plazo habitualmente no se aplican.
En entornos de compliance normativo (ENS, DORA, ISO 27001), las penalizaciones pueden extenderse más allá de los créditos económicos para incluir auditorías obligatorias o reporting regulatorio.

Procesos SLA: monitoreo, reporting y gobernanza

Un SLA sin proceso operativo detrás es un documento sin valor. La operativización de un SLA requiere cuatro pilares:

1. Instrumentación y monitoreo continuo

Las métricas del SLA deben medirse de forma continua, automatizada y desde perspectivas externas (no solo desde la infraestructura interna). Las herramientas recomendadas:

Datadog: observabilidad integral con SLO tracking nativo. Permite definir SLOs sobre métricas o monitores y calcular el error budget restante en tiempo real.
Grafana + Alertmanager: opción de código abierto flexible para organizaciones con capacidad de operación propia.
Better Stack: monitorización de uptime externa con alertas multicanal y gestión de incidencias integrada.
Pingdom / UptimeRobot: monitorización de disponibilidad HTTP/TCP desde múltiples ubicaciones geográficas.

2. Error budget management

El error budget es la diferencia entre el 100% y el SLO comprometido. Para un SLO del 99,9%, el error budget mensual es de 43,2 minutos. La gestión del error budget permite tomar decisiones informadas: si el equipo ha consumido el 80% del budget en la segunda semana del mes, debe priorizar estabilidad sobre nuevas funcionalidades.

3. Reporting y cadencia de revisión

Un modelo de reporting efectivo incluye:

Dashboard en tiempo real: visible para todos los equipos involucrados. El verde/rojo de los SLOs no debe ser información exclusiva del equipo de operaciones.
Informe mensual: cumplimiento por servicio, incidencias relevantes, análisis de causa raíz (RCA) de los incumplimientos.
Revisión trimestral: análisis de tendencias, propuesta de ajuste de SLOs si los objetivos actuales ya no son representativos del valor entregado.

4. RACI del proceso SLA

Actividad	Responsable	Aprobador	Consultado	Informado
Medición de SLIs	Equipo de plataforma	—	—	—
Cálculo de SLOs	Equipo de operaciones	Service Manager	—	—
Notificación de incumplimiento	Service Manager	—	Dirección	Cliente
Gestión de reclamaciones	Account Manager	Director de Servicio	Legal	Cliente
Revisión y actualización de SLA	Service Manager	Director de Servicio	Cliente	—

Errores frecuentes en SLAs

1. Ausencia de ventana de medición

El error más común y el más costoso. “99,9% de disponibilidad” sin especificar si se mide en el mes natural, en ventanas de 30 días deslizantes o en ventanas de 24 horas es una cláusula que no puede auditarse de forma objetiva.

2. Medir la disponibilidad desde dentro de la infraestructura

Un servicio puede aparecer como disponible en los monitores internos mientras los usuarios externos no pueden acceder a él por un problema de red o de DNS. Los SLAs deben medirse desde sondas externas que simulen el acceso del usuario final.

3. Promedios en lugar de percentiles

Un tiempo de respuesta promedio de 300 ms puede coexistir con un percentil 99 de 5.000 ms. Los promedios ocultan los problemas de colas que afectan a una fracción significativa de los usuarios. Los SLOs de latencia deben expresarse en p95 o p99.

4. Excluir el mantenimiento programado sin límite

Es razonable excluir el mantenimiento programado del cálculo de disponibilidad, pero sin un límite máximo (por ejemplo, no más de 4 horas de mantenimiento al mes), el proveedor puede declarar mantenimiento programado para cubrir incidencias reales.

5. SLA desconectado de la arquitectura real

Comprometerse con un SLA de 99,99% sobre una arquitectura con un único punto de fallo es un error estructural. Antes de firmar un SLA, debe validarse que la arquitectura técnica es capaz de sostener el objetivo comprometido.

6. No definir severidades de incidencia

Sin una clasificación formal de severidades (P1: crítico, impacta a todos los usuarios; P2: degradación parcial; P3: funcionalidad secundaria afectada; P4: mejora/consulta), los tiempos de respuesta pactados no pueden aplicarse de forma coherente.

7. Olvidar las dependencias de terceros

Si el servicio depende de una pasarela de pagos, una API externa o un proveedor de identidad, el SLA debe explicitar qué ocurre cuando la indisponibilidad se origina en esas dependencias. La opacidad en este punto genera conflictos recurrentes.

8. SLA estático en un servicio que evoluciona

Un SLA firmado en el momento del lanzamiento de un servicio puede ser irrelevante 18 meses después si el servicio ha escalado, ha incorporado nuevas funcionalidades o ha cambiado su arquitectura. Sin una cláusula de revisión periódica, el SLA pierde vigencia operativa sin perder vigencia contractual.

Plantilla mínima de SLA

La siguiente lista de verificación recoge los elementos que todo SLA debería cubrir antes de ser firmado:

Identificación y alcance

Partes del acuerdo (proveedor, cliente, contactos designados)
Descripción del servicio cubierto y perímetro exacto
Fecha de entrada en vigor y duración
Proceso de modificación y notificación de cambios

Métricas y SLOs

Lista de SLIs medidos (disponibilidad, latencia, throughput, etc.)
Valor objetivo (SLO) para cada SLI
Ventana de medición definida explícitamente
Método de medición (herramienta, ubicación de las sondas)
Exclusiones al cálculo de disponibilidad

Soporte e incidencias

Clasificación de severidades con criterios objetivos
Tiempo de respuesta inicial por severidad
Tiempo de resolución objetivo por severidad
Canales de comunicación durante incidencias
Escalado: contactos y umbrales temporales

Penalizaciones y reclamaciones

Tabla de créditos por nivel de incumplimiento
Máximo de crédito aplicable mensualmente
Procedimiento de reclamación (plazo, documentación, canal)
Confirmación de que los créditos son el único remedio salvo pacto expreso

Gobernanza y revisión

Cadencia de reporting (mensual recomendado)
Cadencia de revisión formal del SLA (trimestral recomendado)
Responsables del proceso de revisión (RACI mínimo)
Acceso del cliente a los datos de medición

Caso de uso: SLA para una plataforma SaaS B2B

Una empresa del sector logístico con operaciones en España y Portugal contrató a abemon la gestión de su plataforma de seguimiento de envíos en tiempo real, utilizada por 120 clientes B2B para monitorizar más de 15.000 envíos diarios.

El SLA inicial tenía dos problemas: prometía “disponibilidad del 99,9%” sin ventana de medición y el tiempo de respuesta para incidencias críticas era de “4 horas hábiles”, lo que en la práctica equivalía a hasta 16 horas en fin de semana para un sistema que operaba 24x7.

Tras la revisión, el SLA rediseñado estableció: disponibilidad del 99,9% medida en ventanas deslizantes de 30 días desde tres sondas externas; tiempo de respuesta para P1 de 30 minutos naturales (sin distinción entre horas hábiles y no hábiles); tiempo de resolución objetivo para P1 de 4 horas; tabla de créditos con máximo del 25% de la factura mensual. Se instrumentaron dashboards en Datadog con alertas automáticas al 70% y 90% de consumo del error budget mensual.

En los 12 meses siguientes al rediseño, la plataforma mantuvo una disponibilidad media del 99,96%, se gestionaron 3 incidencias P2 con MTTR de 47 minutos de media y los clientes no presentaron ninguna reclamación de crédito. La transparencia del dashboard compartido redujo las consultas de incidencia en un 60%.

Fuentes

AXELOS / ITIL — ITIL 4 Foundation: IT Service Management Framework
BOE — Real Decreto 311/2022: Esquema Nacional de Seguridad
EUR-Lex — Reglamento (UE) 2022/2554 — DORA: resiliencia operativa digital del sector financiero
AWS — Amazon Web Services Service Level Agreements
Microsoft — Azure Service Level Agreements Summary
Google Cloud — Google Cloud SLAs
DORA / Google — Accelerate State of DevOps Report — DORA metrics
ISO — ISO/IEC 20000-1:2018 Service Management System Requirements

abemon gestiona SLAs para organizaciones que no pueden permitirse papel mojado

En abemon diseñamos, instrumentamos y operamos acuerdos de nivel de servicio para plataformas digitales críticas. Nuestro servicio de managed services incluye SLOs documentados, dashboards compartidos y revisiones trimestrales formales. Para proyectos de plataforma o arquitectura cloud, trabajamos con los equipos de tecnología desde el diseño hasta la operación continua.

Si está revisando los contratos de nivel de servicio de su organización o necesita establecer compromisos medibles con sus clientes, puede consultar nuestros servicios de consultoría y transformación o ponerse en contacto directamente con nuestro equipo desde la página de contacto.

Para profundizar en la instrumentación de plataformas, la guía sobre observabilidad en microservicios y el análisis de procesos SLA en el contexto de managed services complementan los conceptos de esta guía.

Preguntas frecuentes

¿Qué diferencia hay entre SLA, SLO y SLI?: El SLI (Service Level Indicator) es la métrica cruda medida en producción: por ejemplo, el porcentaje de peticiones HTTP con latencia inferior a 200 ms. El SLO (Service Level Objective) es el objetivo interno que el equipo se compromete a mantener: por ejemplo, que ese SLI supere el 99.5% medido en ventanas de 30 días. El SLA (Service Level Agreement) es el acuerdo contractual externo que incorpora consecuencias jurídicas y económicas si el SLO no se cumple. ITIL 4 distingue además el OLA (Operational Level Agreement), que es el equivalente interno entre equipos, y el UC (Underpinning Contract), que fija compromisos con proveedores externos.
¿Qué uptime es razonable para un servicio SaaS B2B?: Para la mayoría de plataformas SaaS B2B con operación en horario laboral, un objetivo de 99.9% mensual (equivalente a 43,8 minutos de indisponibilidad al mes) es el punto de partida estándar. Si el servicio cubre procesos críticos como pagos, logística en tiempo real o cumplimiento normativo, se recomienda 99.95% o superior. AWS, Azure y GCP publican SLAs de componentes individuales entre 99.9% y 99.99%, pero la disponibilidad extremo a extremo de una plataforma depende de la arquitectura completa: una aplicación con tres capas cada una al 99.9% tendrá una disponibilidad combinada aproximada del 99.7% si no cuenta con redundancia adecuada.
¿Cómo se calcula el crédito por incumplimiento de SLA?: La fórmula más extendida es: Crédito = (Tiempo de indisponibilidad real − Tiempo permitido por SLA) × Tasa de penalización por hora o día. En la práctica, los contratos suelen establecer tablas escalonadas: por ejemplo, disponibilidad entre 99.0% y 99.5% equivale al 10% de la factura mensual como crédito; por debajo del 99.0%, un 25%; por debajo del 95%, el máximo contractual (habitualmente 30%). El crédito se aplica como descuento en la factura siguiente, no como devolución en efectivo, salvo pacto expreso. Es fundamental que el contrato especifique quién calcula el tiempo de indisponibilidad y con qué datos.
¿Qué cláusulas debe tener un SLA para servicios cloud?: Un SLA cloud debe incluir: definición precisa de la ventana de medición (rolling 30 days vs. mes natural), lista de eventos excluidos (mantenimiento programado anunciado con 72 h de antelación, eventos de fuerza mayor, incidentes originados en el cliente), procedimiento de reclamación con plazos, tabla de créditos por nivel de incumplimiento, compromisos de soporte (tiempo de respuesta inicial, tiempo de resolución por severidad), y cláusula de auditoría que permita al cliente verificar los datos de disponibilidad. Los principales proveedores cloud — AWS, Azure y GCP — publican sus SLAs en documentos públicos que conviene revisar antes de construir arquitecturas dependientes de sus garantías.
¿Con qué frecuencia se debe revisar un SLA?: La revisión formal de un SLA debería realizarse al menos trimestralmente desde el punto de vista operativo, y de forma contractual en cada renovación o cambio relevante de alcance. En ITIL 4, la Gestión del Nivel de Servicio (SLM) recomienda reuniones de revisión mensuales para servicios críticos. Una revisión efectiva analiza: si las métricas actuales siguen siendo representativas del valor del servicio, si los umbrales son técnicamente alcanzables con la arquitectura actual, y si han surgido nuevos riesgos o dependencias que deban quedar explícitamente cubiertos o excluidos.
¿Qué herramientas se utilizan para medir el cumplimiento de un SLA?: Las herramientas más utilizadas en entornos de producción son Datadog (observabilidad de infraestructura y SLO nativo), Grafana con el plugin SLO (flexible y de código abierto), Better Stack (uptime y alertas de incidencia) y Pingdom (monitorización de disponibilidad externa). Para servicios cloud, AWS CloudWatch, Azure Monitor y Google Cloud Operations Suite proporcionan métricas nativas. La herramienta debe ser capaz de calcular SLOs sobre ventanas deslizantes, generar informes automáticos y disparar alertas cuando se consume el error budget, antes de que se incumpla el SLA.
¿Es obligatorio tener un SLA por ley en España?: En el sector privado, un SLA no es obligatorio por ley como documento formal, pero distintas normativas sí exigen garantías de nivel de servicio documentadas. El Esquema Nacional de Seguridad (ENS, RD 311/2022) exige que los contratos con proveedores de servicios digitales incorporen cláusulas de continuidad y disponibilidad. El Reglamento DORA (para el sector financiero, aplicable desde enero de 2025) obliga a las entidades financieras a mantener acuerdos contractuales con proveedores TIC que incluyan indicadores de rendimiento medibles. En contratación pública, los pliegos de prescripciones técnicas suelen incorporar requisitos de SLA de forma explícita.
¿Qué diferencia hay entre disponibilidad medida extremo a extremo y disponibilidad medida por componente?: La disponibilidad por componente mide cada pieza del sistema de forma aislada: el servidor de base de datos, el balanceador de carga, la API, etc. La disponibilidad extremo a extremo mide si el usuario final puede completar una transacción o flujo completo. Un sistema puede tener todos sus componentes al 99.9% individual, pero si la arquitectura carece de redundancia, la disponibilidad combinada cae: tres componentes en serie al 99.9% producen aproximadamente un 99.7% de disponibilidad global. Los SLAs orientados al cliente deberían medir disponibilidad extremo a extremo (también llamada user-facing availability), porque es lo que impacta en el negocio.

Fuentes

AXELOS / ITIL — ITIL 4 Foundation — IT Service Management Framework
BOE — Esquema Nacional de Seguridad — Real Decreto 311/2022
EUR-Lex — Reglamento DORA — Reglamento (UE) 2022/2554 sobre resiliencia operativa digital
AWS — AWS Service Level Agreements — Acuerdos de nivel de servicio de Amazon Web Services
Microsoft — Microsoft Azure SLA Summary — Resumen de SLAs de Azure
Google Cloud — Google Cloud SLAs — Acuerdos de nivel de servicio de Google Cloud
DORA / Google — Accelerate State of DevOps Report — DORA metrics reference
ISO — ISO/IEC 20000-1:2018 — Service Management System Requirements

Etiquetas

Servicios gestionados Consultoria Cloud Compliance

Sobre el autor

abemon engineering

Equipo de ingenieria

Equipo multidisciplinar de ingenieria, datos e IA con sede en Canarias. Construimos, desplegamos y operamos soluciones de software a medida para empresas de cualquier escala.

Síguenos: LinkedIn GitHub

Articulos relacionados

Whitepapers

¿Qué es un SLA?

Componentes obligatorios de un SLA

Tipos de SLA

Métricas SLA que realmente importan (con fórmulas)

Disponibilidad (Uptime)

MTTR (Mean Time To Recovery)

MTBF (Mean Time Between Failures)

Tiempo de respuesta inicial

Tiempo de resolución

Throughput y capacidad

Cómo redactar los SLOs (con ejemplos)

SLAs para servicios cloud gestionados

Penalizaciones y créditos de servicio

Procesos SLA: monitoreo, reporting y gobernanza

1. Instrumentación y monitoreo continuo

2. Error budget management

3. Reporting y cadencia de revisión

4. RACI del proceso SLA

Errores frecuentes en SLAs

1. Ausencia de ventana de medición

2. Medir la disponibilidad desde dentro de la infraestructura

3. Promedios en lugar de percentiles

4. Excluir el mantenimiento programado sin límite

5. SLA desconectado de la arquitectura real

6. No definir severidades de incidencia

7. Olvidar las dependencias de terceros

8. SLA estático en un servicio que evoluciona

Plantilla mínima de SLA

Caso de uso: SLA para una plataforma SaaS B2B

Fuentes

abemon gestiona SLAs para organizaciones que no pueden permitirse papel mojado

Preguntas frecuentes

Fuentes

Etiquetas

Sobre el autor

Articulos relacionados

Ciberseguridad para la empresa mediana: ENS + ISO 27001 + SOC 2

Kit Digital para autónomos sin empleados: guía completa 2026

Guía de Cumplimiento del AI Act para Empresas Españolas 2026