Arquitectura de detección de fraude en tiempo real: guía de producción
Las pérdidas por fraude no son una abstracción
El Nilson Report cifra las pérdidas globales por fraude en tarjetas en 33.800 millones de dólares en 2023, con una trayectoria que superará los 40.000 millones en 2027. El informe Global eCommerce Fraud Report 2025 de ACI Worldwide estima que el fraude en canales sin tarjeta presente representa el 60-70% de esas pérdidas — el canal donde una decisión de scoring en tiempo real es la única línea de defensa antes de que el dinero abandone el ecosistema. Juniper Research proyecta pérdidas totales por fraude en pagos de 91.000 millones de dólares anuales para 2028 cuando se suman la toma de control de cuentas, el fraude de identidad sintética y las estafas de transferencia autorizada.
Estos números no son el fondo de la cuestión. El fondo es que el fraude es un problema adversarial en tiempo real. Los defraudadores se adaptan a las reglas de ayer en cuestión de horas. El análisis de fraude en batch — revisar transacciones tras la liquidación — es útil para descubrir patrones y recuperar contracargos, pero no detiene el fraude. Lo documenta.
Esta guía cubre qué se necesita realmente para construir un sistema de detección de fraude que tome decisiones en milisegundos, generalice ante vectores de ataque novedosos y no destruya la experiencia del cliente con falsos positivos. El alcance es deliberadamente amplio: pagos, e-commerce, telco, seguros y fintech. Un tratamiento más específico sobre las señales de fraude propias del sector bancario se encuentra en la guía de detección de fraude con IA en banca.
¿Qué es la detección de fraude en tiempo real? (y qué no lo es)
La detección de fraude en tiempo real es la práctica de tomar una decisión de aceptar, rechazar o solicitar autenticación adicional sobre una transacción en vuelo — antes de que esa transacción se complete — típicamente en 100-500 ms desde el momento en que se inicia el pago. La decisión ocurre mientras la transacción está pendiente en el flujo de autorización; revertirla tras la liquidación resulta significativamente más costoso.
Qué es:
- Toma de decisiones en < 100-500 ms según el canal (ver presupuesto de latencia más adelante)
- Transacción en vuelo — la autorización de la tarjeta se ha iniciado, la llamada al API está en curso, la sesión de pago está abierta
- Tres posibles salidas: aprobar (sin fricción), step-up (requerir autenticación adicional), rechazar
Qué no es:
- Análisis de fraude en batch — ejecutar consultas SQL diarias para identificar cuentas sospechosas es útil para investigación y calibración de reglas, pero no detiene el evento de fraude
- Revisión post-liquidación — monitorizar contracargos y disputas proporciona datos de entrenamiento etiquetados, pero mide la tasa de fraude histórica, no la intercepta
- Scoring de riesgo offline — calcular una puntuación de riesgo en un proceso nocturno por lotes y adjuntarla al perfil del cliente para las transacciones del día siguiente es near-real-time en el mejor caso; un defraudador con credenciales robadas puede vaciar una cuenta en las 14 horas anteriores a que se actualice la puntuación
La distinción operativa importa: los equipos de análisis de fraude en batch y los sistemas de decisión en tiempo real tienen infraestructura, presupuestos de latencia, modos de fallo y responsabilidades organizativas fundamentalmente distintos. Confundirlos es la fuente de la mayoría de los errores arquitectónicos en el diseño de plataformas antifraude.
El presupuesto de decisión: latencia, coste, precisión
Todo sistema de fraude en tiempo real opera bajo un presupuesto de latencia que determina el canal, no el equipo de ingeniería. Superarlo provoca abandono del proceso de pago o incumplimiento de los SLA de las redes de tarjetas. Ignorarlo implica que la transacción se autoriza sin un control antifraude.
| Caso de uso | Presupuesto de latencia p99 | Notas |
|---|---|---|
| Tarjeta presente (TPV) | 100 ms | SLA de autorización de Visa/Mastercard; es el límite absoluto |
| Tarjeta no presente (e-commerce) | 250 ms | Empírico: la conversión en checkout cae ~1,5% por cada 100 ms adicionales a partir de 300 ms |
| Apertura de cuenta | 2 s | El usuario espera un estado de carga; permite señales KYC más ricas |
| Login / prevención de toma de cuenta | 500 ms | La sesión permanece abierta; el usuario tolera una breve verificación |
| Pago push autorizado (transferencia A2A) | 1 s | Los bancos suelen permitir 1-2 s para el cribado de pagos salientes |
| Intercambio de SIM (telco) | 3 s | El usuario está en una tienda o en IVR; mayor tolerancia |
El presupuesto de latencia determina toda la arquitectura. Con 100 ms no es posible asumir:
- Inferencia de modelos en instancias GPU detrás de una API REST con arranques en frío (solo el calentamiento de GPU supone 50-150 ms)
- Más de 2-3 llamadas de red secuenciales a servicios de enriquecimiento externos
- Lecturas síncronas a bases de datos sin una capa de caché en memoria
La compensación entre precisión y latencia es real: un modelo gradient-boosted servido desde un entorno en memoria precargado añade 10-30 ms. Un modelo de secuencia basado en transformers para comportamiento de sesión añade 50-150 ms. Un recorrido de GNN sobre un grafo en tiempo real añade 100-300 ms. Con un presupuesto total de 100 ms hay que elegir. Con 2 s se pueden combinar los tres.
El coste es la tercera restricción. Ejecutar inferencia ML en cada transacción es costoso a escala. Un procesador de pagos que gestiona 1.000 transacciones por segundo con un endpoint de inferencia a 0,0005 $/llamada gasta 1,8 millones de dólares anuales solo en scoring. El scoring por niveles — primero reglas, luego modelo ligero, finalmente modelo costoso solo para casos ambiguos — reduce el coste de inferencia en un 60-80% con un impacto mínimo sobre el AUC.
Arquitectura de referencia
Un sistema de detección de fraude en producción no es un modelo único. Es un pipeline de componentes especializados, cada uno gestionando una función concreta, conectados para minimizar la latencia y maximizar la observabilidad.
Ingesta de transacciones. Toda transacción entra a través de un API gateway (Kong, AWS API Gateway o un reverse proxy personalizado). El gateway valida la solicitud, aplica límites de tasa y publica el evento bruto en un topic de Kafka. Usar Kafka aquí es importante: desacopla la ingesta del pipeline de scoring, proporciona durabilidad si el sistema de scoring sufre una interrupción breve y permite la reproducción para depuración y validación de modelos.
Feature store. El componente más complejo. Las características necesarias para el scoring de fraude proceden de dos fuentes: características en tiempo real calculadas en el momento de la inferencia (velocidad de transacción en la última hora, coincidencia de huella del dispositivo, reputación de la IP) y características en batch precalculadas a partir de datos históricos (valor de vida del cliente, tasa histórica de fraude por MCC, horario habitual de transacción). Un feature store adecuado (Feast, Tecton o un servicio personalizado respaldado por Redis) sirve ambas: lee características batch precalculadas desde un almacén de baja latencia (Redis, DynamoDB) y calcula características en tiempo real sobre una ventana deslizante mantenida en Redis Sorted Sets o Apache Flink. Con un presupuesto de 100 ms, cada consulta al feature store debe retornar en menos de 5-10 ms; esto implica que el feature store debe estar co-ubicado con el servicio de scoring, no accesible a través de una WAN.
Motor de reglas. Antes del scoring ML, un motor de reglas gestiona señales de fraude deterministas: tarjeta en lista negra, desajuste entre el país del BIN y la dirección de envío, importe de la transacción por encima del umbral configurado, más de 5 transacciones rechazadas en los últimos 10 minutos con la misma tarjeta. Las reglas se ejecutan en 1-5 ms. Las implementaciones habituales son Drools (JVM, rico en funcionalidades, alta carga operativa), Open Policy Agent (ligero, política como código, más fácil de probar y desplegar) o un evaluador de reglas en memoria personalizado. Las reglas no son una alternativa heredada al ML — son un complemento. Gestionan patrones conocidos con varianza cero y dan a los equipos de cumplimiento y operaciones una herramienta sobre la que razonar sin la intervención del departamento de ciencia de datos.
Servicio de scoring ML. El motor de reglas pasa las transacciones no bloqueadas a un servicio de scoring ML. El scorer carga un modelo preentrenado (XGBoost, LightGBM o un modelo neuronal según el caso de uso) en memoria al arrancar y realiza inferencia síncrona. Opciones de infraestructura de servicio: KServe en Kubernetes (más flexible, adecuado para servicio multi-modelo), BentoML (nativo de Python, menor carga operativa), SageMaker Endpoints (gestionado, nativo de AWS, mayor coste). El scorer emite una puntuación de riesgo en [0, 1] y, opcionalmente, una explicación del modelo (valores SHAP para las 3 características contribuyentes principales). La explicación no es decorativa — los analistas de fraude la necesitan para investigar casos y los reguladores la exigen con frecuencia creciente.
Capa de orquestación. Un orquestador ligero (Temporal, AWS Step Functions o una máquina de estados personalizada) secuencia el motor de reglas, el enriquecimiento de características y el scoring ML, gestiona timeouts y fallbacks (si el scoring ML no está disponible, recurrir solo a reglas) y emite una decisión final: aprobar / step-up / rechazar. El orquestador también gestiona el flujo de step-up: para transacciones que puntúan en el rango ambiguo (0,3-0,7), puede activar un OTP, una solicitud biométrica o una redirección 3DS antes de devolver una decisión final.
Gestión de casos. Las transacciones que puntúan por encima del umbral de rechazo pero por debajo de un techo de bloqueo absoluto van a una cola de gestión de casos para revisión humana. Este es el componente de humano en el bucle. Los analistas revisan las transacciones marcadas, las clasifican como fraude o legítimas, y esas etiquetas se incorporan de vuelta al pipeline de entrenamiento. Herramientas como Hummingbird, Unit21 o una herramienta interna personalizada gestionan esta cola.
Bucle de retroalimentación. El pipeline de entrenamiento extrae resultados etiquetados de la gestión de casos, contracargos confirmados de la red de pagos y correcciones de los analistas. Reentrena el modelo campeón según un calendario, ejecuta evaluación automática contra un conjunto de validación retenido y publica el modelo candidato en un entorno de staging. El despliegue champion/challenger (5-10% del tráfico real enrutado al modelo challenger) valida el rendimiento en producción antes del despliegue completo.
El flujo, descrito de forma textual: una transacción entra en el API gateway → se publica en Kafka → el orquestador de fraude la consume → se consulta el feature store (lecturas paralelas de características en tiempo real y en batch) → el motor de reglas evalúa → si no se bloquea, el servicio de scoring ML puntúa → el orquestador aplica los umbrales de decisión → el resultado se devuelve al sistema llamante → la decisión y las características se registran en el almacén de eventos → la cola de revisión humana se alimenta con los casos ambiguos → los resultados de los analistas fluyen de vuelta al feature store y al pipeline de entrenamiento.
Modelos que funcionan en producción
Árboles gradient-boosted (XGBoost, LightGBM). El caballo de batalla de la detección de fraude. Gestionan datos tabulares (importe de la transacción, MCC, hash de huella del dispositivo, conteos de velocidad) de forma nativa, se entrenan en minutos con millones de ejemplos, sirven inferencia en 5-15 ms y producen explicaciones SHAP sin infraestructura adicional. En benchmarks publicados y en despliegues propios, LightGBM con ingeniería de características adecuada alcanza AUC 0,94-0,97 en datasets de fraude con tarjeta. Empezar aquí. El modo de fallo es la deriva de la distribución de características — estos modelos se degradan silenciosamente cuando los patrones de fraude cambian, requiriendo monitorización robusta de la deriva.
Isolation forest y autoencoders (no supervisados). Valiosos para la detección de anomalías cuando los datos de fraude etiquetados son escasos — incorporación de nuevos comercios, nueva geografía, nuevo patrón de fraude que aún no ha sido etiquetado. El isolation forest construye una distribución de patrones de transacción normales e identifica outliers; no requiere datos etiquetados pero produce una señal más gruesa. Los autoencoders aprenden una representación comprimida del comportamiento normal e identifican los errores de reconstrucción como anomalías. Usar estos como señal de primer paso para escenarios de arranque en frío o como puntuación complementaria junto al modelo supervisado, no como clasificador principal.
Redes neuronales de grafos (GNN). Las redes de fraude y las redes de mulas son problemas de grafos: un conjunto de cuentas, dispositivos, números de teléfono y direcciones conectados en patrones que parecen inocuos individualmente pero revelan fraude organizado colectivamente. Las GNN aprenden embeddings que capturan estos patrones estructurales. Un nodo (cuenta o transacción) se identifica no porque sus propias características sean sospechosas sino porque se encuentra en un subgrafo con actores maliciosos conocidos. El servicio de GNN en producción es costoso (100-300 ms para un recorrido de grafo sobre un subgrafo de tamaño moderado) y complejo — reservado para fraude en apertura de cuenta, detección de identidad sintética y estafas de transferencia autorizada donde el presupuesto de latencia lo permite.
Modelos de secuencia basados en transformers. El comportamiento de sesión — la secuencia de clics, vistas de página, interacciones con formularios y llamadas API previas a una transacción — codifica señales de fraude sólidas. Un humano propietario de una cuenta la navega de forma diferente a un bot o a un actor que ha tomado el control de la cuenta. Los transformers modelan esta dependencia secuencial mejor que los modelos tabulares. La entrada es una secuencia de eventos (cada evento codificado como un vector de características) y la salida es una puntuación de riesgo a nivel de sesión. Latencia de servicio: 50-150 ms según la longitud de la secuencia y el tamaño del modelo. Usar cuando se dispone de contexto de sesión web o móvil y el presupuesto de latencia lo permite; el e-commerce con tarjeta no presente es el caso de uso principal.
Ingeniería de características para fraude (con ejemplos)
La calidad del conjunto de características importa más que la elección del modelo. Un conjunto de características bien diseñado con LightGBM superará consistentemente a un conjunto de características deficiente con un modelo de deep learning.
Características de velocidad — recuento y suma de transacciones en ventanas temporales deslizantes. La categoría de características más predictiva:
card_txn_count_1h: número de transacciones en esta tarjeta en la última horacard_merchant_distinct_1h: número de comercios distintos cargados en la última horacard_decline_count_24h: número de rechazos en las últimas 24 horasip_txn_count_5m: número de transacciones desde esta dirección IP en los últimos 5 minutosdevice_id_card_distinct_7d: número de tarjetas distintas usadas desde esta huella de dispositivo en los últimos 7 días
Características de huella del dispositivo — señales derivadas del dispositivo que inicia la transacción:
device_first_seen_days: días transcurridos desde que se observó por primera vez esta huella de dispositivo en la plataformadevice_country_mismatch: booleano — el país de geolocalización de la IP del dispositivo difiere del país de facturación de la tarjetabrowser_automation_score: probabilidad de que la sesión del navegador esté automatizada (indicadores de Chrome headless, Selenium)
Características de biometría conductual — cómo interactúa el usuario con la sesión:
keystroke_anomaly_score: desviación del ritmo de escritura respecto al histórico del titular de la cuentasession_field_autofill_ratio: fracción de campos del formulario rellenados por autocompletado vs escritura manual (los bots tienen tasas más altas)time_to_checkout_seconds: segundos desde la carga de la página hasta el envío del checkout (inusualmente rápido = probablemente automatizado)
Características de grafo — señales estructurales del grafo de transacciones:
shared_device_fraud_count_30d: número de transacciones de fraude confirmadas de cuentas que comparten esta huella de dispositivo en los últimos 30 díasip_subnet_fraud_rate_7d: tasa de fraude entre todas las transacciones de la misma subred IP /24 en los últimos 7 días
El requisito de implementación crítico: las características de velocidad y grafo deben calcularse sobre una ventana en tiempo real, no sobre una instantánea diaria en batch. Un defraudador que prueba 50 tarjetas en los últimos 20 minutos no aparece en la característica batch de ayer card_txn_count_1d. Usar Redis Sorted Sets con expiración basada en TTL para contadores de velocidad en tiempo real actualizados en el momento de la ingesta.
Arranque en frío y deriva del concepto
El arranque en frío se refiere a la ausencia de datos históricos para una nueva entidad: un nuevo comercio procesando sus primeras transacciones, un cliente realizando su primera compra en una nueva geografía, un nuevo patrón de fraude sin ejemplos etiquetados.
Para nuevos comercios: usar modelos de grupo de pares segmentados por código MCC e importe medio del ticket. Un nuevo restaurante con MCC 5812 en Madrid se comporta de forma suficientemente similar a otros restaurantes de Madrid como para que un modelo de grupo de pares entrenado en esos comercios generalice adecuadamente durante las primeras 2-4 semanas. Establecer umbrales de velocidad conservadores durante el período de arranque en frío y escalar las transacciones ambiguas a revisión humana en lugar de rechazarlas — los nuevos comercios son sensibles a los falsos positivos.
Para nuevas geografías: los modelos globales entrenados en geografías diversas generalizan mejor que los modelos de una sola geografía. Al expandirse a un nuevo mercado, ajustar el modelo global con los datos del mercado más cercano disponible (cultura de pago similar, tipología de fraude similar) en lugar de entrenar desde cero.
Para nuevos patrones de fraude: la detección de anomalías no supervisada (isolation forest, autoencoder) es el primer detector. Cuando surge un nuevo vector de ataque, produce puntuaciones de anomalía antes de que existan ejemplos etiquetados. Combinar las puntuaciones de anomalía con el despliegue rápido de reglas — el equipo de operaciones de fraude necesita un mecanismo para desplegar una nueva regla en minutos tras identificar un patrón, sin un ciclo de reentrenamiento del modelo.
La deriva del concepto — el cambio en las propiedades estadísticas de los patrones de fraude a lo largo del tiempo — es el reto de mantenimiento persistente. La deriva se manifiesta como: AUC decreciente en datos recientes respecto a la validación histórica; PSI (Population Stability Index) superior a 0,2 en características de entrada clave; tasa de fraude creciendo más rápido que la mejora del recall del modelo. Mitigación: instrumentar las distribuciones de características en producción (un histograma Prometheus por característica por día), alertar sobre umbrales de PSI y activar reentrenamiento ad hoc cuando se activen las alertas. No esperar al calendario semanal si el entorno de despliegue está cambiando.
PSD2/SCA y detección de fraude en la UE y España
La Directiva de Servicios de Pago Revisada (PSD2), implementada en toda la UE, exige la Autenticación Reforzada del Cliente (SCA) para la mayoría de los pagos electrónicos. La SCA requiere al menos dos factores de entre: algo que se sabe (PIN), algo que se tiene (teléfono/token), algo que se es (biométrico). Para el comercio electrónico, esto normalmente implica 3D Secure 2.x.
El artículo 18 de las RTS de SCA de la EBA otorga una exención por Análisis de Riesgo de la Transacción (TRA): los emisores y PSP pueden omitir la SCA para transacciones de bajo valor y bajo riesgo si su tasa de fraude en dichas transacciones se mantiene por debajo de los límites definidos:
| Umbral de valor de la exención | Tasa máxima de fraude (tarjeta no presente) |
|---|---|
| Hasta 100 € | 0,13% |
| Hasta 250 € | 0,06% |
| Hasta 500 € | 0,01% |
Operacionalizar esta exención requiere:
- Un sistema TRA de scoring en tiempo real certificado que emita una decisión de riesgo antes de que el pago sea enrutado
- Monitorización continua de las tasas de fraude por nivel de exención, desglosada por el PSP o emisor que reclama la exención
- Limitación automática: si la tasa de fraude para el nivel de 250 € supera el 0,06%, el sistema debe dejar de reclamar ese nivel de exención y enrutar las transacciones afectadas a SCA hasta que la tasa se estabilice
- Registros de auditoría para cada exención reclamada y la puntuación TRA que la justificó
En España, el Banco de España y la Comisión Nacional del Mercado de Valores (CNMV) supervisan el cumplimiento. Las fintechs que operan bajo licencias de Entidad de Dinero Electrónico (EDE) o Entidad de Pago (EP) deben documentar su metodología TRA y estar preparadas para facilitarla a requerimiento. La implicación práctica para la ingeniería: el sistema de scoring de fraude no es solo una herramienta de negocio — es infraestructura regulada. La latencia, la precisión y la explicabilidad son requisitos de cumplimiento, no preferencias.
Métricas de evaluación más allá del AUC
El AUC (Área Bajo la Curva ROC) mide la capacidad discriminativa global pero no dice nada sobre el rendimiento del modelo en la distribución que importa al negocio. Sustituirlo como métrica principal por:
Precisión ponderada en dinero. Ponderar cada verdadero positivo y falso positivo por el importe de la transacción. Bloquear una transferencia fraudulenta de 5.000 € no es equivalente a bloquear un cargo de suscripción de 5 €, y las métricas deben reflejarlo. Calcular el recall de dinero de fraude y la precisión de dinero de falsos positivos como KPIs primarios.
Precisión@k. El equipo de operaciones de fraude puede revisar k casos al día. La precisión en ese techo de capacidad es la métrica operativamente relevante — un modelo que genera 10.000 alertas para un equipo de 200 analistas es inutilizable independientemente de su AUC.
Tasa de falsos positivos en el segmento VIP. Los clientes de alto valor que son rechazados incorrectamente abandonan a una tasa 3-5 veces superior a la de los clientes medios. Monitorizar la tasa de falsos positivos específicamente para los clientes en el 10% superior por valor de vida o el 5% superior por frecuencia de transacción.
Tasa de contracargos. Un indicador con retraso (los contracargos llegan 30-120 días después del fraude), pero la etiqueta externa más limpia disponible. Una tasa de contracargos creciente cuando la distribución de puntuaciones del modelo es estable indica que la tipología de fraude ha cambiado hacia patrones que el modelo no cubre.
Tiempo de decisión p99 en producción. No la latencia en benchmark, no la latencia en staging — el p99 en producción, monitorizado continuamente mediante Prometheus. Los modelos que parecen rápidos en pruebas se degradan habitualmente bajo carga de producción cuando las conexiones al feature store se encolan.
Modelo de coste de falsos negativos. Enumerar el coste de un evento de fraude no detectado (comisión de contracargo + importe de la transacción + coste de operaciones) y el coste de un falso positivo (procesamiento de reembolso + atención al cliente + probabilidad de abandono × LTV). Establecer el umbral de decisión para minimizar el coste total esperado, no para maximizar la precisión/recall de forma simétrica.
Construir vs comprar
| Dimensión | Plataforma ML interna | Proveedor SaaS (Stripe Radar, Sift, Riskified, Ravelin, Adyen Protect) |
|---|---|---|
| Tiempo hasta producción | 6-18 meses | 2-8 semanas |
| Señales de efecto de red | Ninguna al inicio | Sólidas — entrenado en millones de comercios |
| Acceso a señales propietarias | Completo | Parcial — el proveedor no puede acceder a datos del CRM interno |
| Explicabilidad | Control total | Variable; frecuentemente limitada |
| Comisiones del proveedor | Solo coste de ingeniería | 0,1-0,5% del GMV, o tarifa plana por transacción |
| Rendimiento en arranque en frío | Deficiente | Bueno — modelo de red preentrenado |
| Profundidad de personalización | Sin límite | Limitada — típicamente reglas + ajuste de pesos |
| Control regulatorio | Completo | Dependencia de la certificación del proveedor |
| Carga operativa | Alta | Baja |
Comprar cuando: el GMV anual es inferior a 500 millones de dólares; el equipo no tiene capacidad de ingeniería ML; se necesita entrar en producción en semanas; la tipología de fraude es convencional (e-commerce con tarjeta no presente, tarjeta presente estándar).
Construir cuando: las comisiones del proveedor superan el coste de ingeniería interno (el cruce suele producirse alrededor de 500 millones de GMV); se tienen señales de datos propietarias a las que el proveedor no puede acceder; la tipología de fraude es inusual (fraude en facturas B2B, abuso de recargas de prepago en telco, fraude en reclamaciones de seguros); los requisitos regulatorios exigen propiedad total del modelo y auditabilidad.
Híbrido (lo más habitual en la práctica): usar un proveedor SaaS como filtro de primer paso mientras se construye el modelo propio en paralelo. Una vez que el modelo propio supera al proveedor en la distribución de datos específica, enrutar el tráfico hacia él. El modelo del proveedor permanece como capa de arranque en frío y de fallback.
Errores habituales
Entrenar solo con datos de contracargos. Se pierde el 40-60% del fraude que nunca se disputa — cuentas vaciadas mediante transferencias automatizadas, ataques de SIM swap donde la víctima nunca lo detecta, fraude amistoso no reportado. Entrenar con todas las etiquetas disponibles: contracargos confirmados, casos etiquetados por analistas de la cola de revisión y cierres de cuentas por violaciones de políticas. Los datos de contracargos son la punta del iceberg.
Hardcodear los umbrales de decisión. Un umbral calibrado en el momento del entrenamiento del modelo se degrada a medida que los patrones de fraude cambian. Construir un sistema de gestión de umbrales que permita al equipo de operaciones de fraude ajustarlos en tiempo real sin un ciclo de redespliegue del modelo. Mantener los umbrales como configuración, no como código.
Fuga de características del futuro. Calcular características de entrenamiento sobre el dataset completo antes de la división entrenamiento/validación permite que características que incorporan información futura se filtren al entrenamiento. En fraude, esto produce puntuaciones AUC de 0,99 en evaluación offline y 0,78 en producción. Dividir por tiempo primero, calcular características solo con datos disponibles en el momento de la predicción.
Ignorar la latencia del bucle de retroalimentación. Los contracargos llegan 30-120 días después de la transacción. Si se reentrena semanalmente usando solo contracargos recientes, se está entrenando sobre etiquetas severamente incompletas. Usar una combinación de señales tempranas (etiquetas de analistas de fraude, activaciones de reglas de velocidad confirmadas como fraude en 24-48 horas) junto con etiquetas de contracargo tardías para mantener la frescura de las etiquetas.
Optimizar solo la tasa de fraude. Un sistema de fraude que rechaza el 5% de transacciones legítimas para lograr una tasa de fraude del 0,1% es un fracaso empresarial aunque parezca bien en un dashboard de seguridad. Monitorizar la tasa de falsos positivos, el impacto en ingresos de las transacciones legítimas rechazadas y las reclamaciones de clientes junto a la tasa de fraude.
Un solo modelo para todos los canales. El fraude con tarjeta presente, el fraude e-commerce con tarjeta no presente, el fraude en apertura de cuentas y las estafas de transferencia autorizada son problemas distintos con distribuciones de características, presupuestos de latencia y regímenes regulatorios diferentes. Entrenar modelos separados por canal; un modelo combinado optimiza para el canal dominante y rinde por debajo de lo esperado en los demás.
Descuidar la explicabilidad del modelo hasta que lo exige el regulador. Incorporar retroactivamente explicabilidad a un modelo de caja negra en producción bajo presión regulatoria es costoso y disruptivo. Incluir la generación de valores SHAP en el pipeline de scoring desde el primer día; almacenar explicaciones junto a las decisiones para cada transacción por encima del umbral de revisión.
Equipos de operaciones de fraude y ciencia de datos en silos. Los analistas de fraude que no pueden enviar retroalimentación directamente al pipeline de entrenamiento representan un bucle de retroalimentación roto. Cada resultado de investigación que no fluye de vuelta al modelo degrada la capacidad del sistema de aprender. Construir herramientas que hagan el etiquetado rápido y garanticen que esas etiquetas alcancen el feature store en 24 horas.
Sectores: pagos, e-commerce, telco, seguros, fintech
Pagos y redes de tarjetas. El entorno de mayor volumen y menor latencia. Tipos de fraude principales: card testing (transacciones pequeñas automatizadas para validar datos de tarjetas robadas), fraude con tarjeta no presente, ataques BIN. El SLA de 100 ms de las redes de tarjetas no es negociable. Las características de velocidad y la huella del dispositivo son las entradas de mayor señal. Para la detección de fraude con IA específica del sector bancario, incluyendo biometría conductual y señales de banca abierta, ver la guía de detección de fraude con IA en banca española.
E-commerce. La toma de control de cuentas (ATO), el abuso de promociones y el fraude de devoluciones son preocupaciones primarias junto al fraude con tarjeta. Las características de comportamiento de sesión (tiempo en la página, secuencias de clics, ratio de autocompletado) añaden señal significativa más allá de las características puras de pago. El presupuesto de latencia de 250 ms permite conjuntos de características más ricos. Las características de grafo para redes de abuso de cupones añaden valor — el abuso de promociones es fundamentalmente un problema de grafo.
Telco. El intercambio de SIM, el abuso de números de tarificación especial y el fraude de reparto de ingresos internacional. El intercambio de SIM es el facilitador del fraude financiero posterior (los códigos 2FA de la víctima se redirigen a la SIM del atacante). Detección: solicitudes de portabilidad anómalas, cambios de IMEI del dispositivo sin actualización de terminal correspondiente, patrones de cambio de cuenta que preceden a la actividad de cuentas financieras. Las telcos disponen de datos a nivel de red inusualmente ricos (grafos de llamadas, patrones de SMS) que alimentan eficazmente los modelos GNN.
Seguros. Fraude en reclamaciones: accidentes simulados, lesiones ficticias, costes de reparación inflados. El presupuesto de latencia es generoso (horas o días), lo que permite modelos analíticos más ricos. El reto son las etiquetas escasas — las investigaciones de fraude confirmadas se completan meses después de la reclamación. El análisis de redes de talleres, reclamantes y representantes legales revela fraude organizado. La detección de anomalías en las características de las reclamaciones (distribución de importes, combinaciones de códigos de lesión, tiempo entre la suscripción de la póliza y la reclamación) proporciona señales base sólidas.
Fintech / banca abierta. El fraude de transferencia autorizada (APP) — donde la víctima es manipulada socialmente para autorizar una transferencia — es la amenaza dominante. A diferencia del fraude con tarjeta, la transacción está técnicamente autorizada por el titular legítimo de la cuenta. La detección requiere señales de anomalía conductual: importe de la transacción fuera del rango histórico, nuevo beneficiario, hora del día inusual, precedido por patrones de login inusuales. Para los pipelines de datos en tiempo real que soportan estos sistemas, la infraestructura de procesamiento de flujos debe gestionar el enriquecimiento en menos de un segundo. Ver también la arquitectura de reconciliación de pagos en tiempo real para la capa de liquidación posterior.
Fuentes
- Nilson Report — Pérdidas globales por fraude en tarjetas 2023
- ACI Worldwide — Global eCommerce Fraud Report 2025
- Juniper Research — Previsión de pérdidas por fraude en pagos 2024–2028
- EUR-Lex — Directiva PSD2 (UE) 2015/2366 — Autenticación reforzada del cliente y exención TRA
- Autoridad Bancaria Europea — EBA RTS sobre autenticación reforzada del cliente bajo PSD2
- Banco de España — Estadísticas de fraude en medios de pago
- European Payments Council — SEPA Instant Credit Transfer Scheme
Cómo puede ayudar abemon
Construir un sistema de detección de fraude en producción requiere expertise en ingeniería de datos, plataforma ML, infraestructura en tiempo real y cumplimiento regulatorio — raramente concentrado en un único equipo. La práctica de ingeniería AI/ML de abemon diseña e implementa arquitecturas de detección de fraude desde la arquitectura de referencia hasta el despliegue en producción: diseño del feature store, pipelines de entrenamiento de modelos, infraestructura de servicio en tiempo real e integración con el stack de pagos existente.
El equipo de ingeniería de datos está especializado en la infraestructura de streaming en tiempo real (Kafka, Flink, Redis) de la que depende la detección de fraude. Abemon ha entregado plataformas antifraude en los sectores de pagos, fintech y e-commerce en España y LATAM.
Si está evaluando si construir o comprar, iniciando un nuevo programa antifraude, o escalando un sistema existente que no mantiene el ritmo ante la evolución de los ataques, contáctenos para analizar sus requisitos específicos.
Preguntas frecuentes
- ¿Qué latencia p99 es realista para el scoring de fraude en tiempo real?
- Para la autorización de tarjeta presente, 100 ms de extremo a extremo desde la entrada al API hasta la aceptación o rechazo es el límite absoluto — las redes de tarjetas lo imponen. Para tarjeta no presente (e-commerce) se toleran 250-300 ms antes de que la tasa de abandono del proceso de pago aumente de forma significativa. La apertura de cuenta puede llegar a 2 s. En la práctica, un motor de reglas consume 2-5 ms, un modelo gradient-boosted servido vía REST añade 15-40 ms, y la red más la serialización ocupa el resto. Presupuestar 20-30 ms por cada consulta a Redis en el camino crítico.
- ¿Debo usar reglas, ML o ambos para la detección de fraude?
- Ambos, siempre. Las reglas se ejecutan en menos de 5 ms y gestionan patrones conocidos con riesgo cero de falso negativo para esos patrones: límites de velocidad, listas negras de BIN, geografías imposibles. Los modelos ML generalizan a patrones novedosos y combinaciones que las reglas no detectan. Una distribución habitual en producción: las reglas bloquean el 15% del volumen de fraude de forma inmediata; el modelo ML gestiona el scoring restante y detecta el 60-70% de lo que las reglas no cubren. Operar solo con ML dificulta la explicación de decisiones ante los reguladores; operar solo con reglas implica perder constantemente terreno ante nuevos vectores de ataque.
- ¿Cómo gestionar el problema de arranque en frío para un nuevo comercio o geografía?
- Defensa en tres capas: primero, recurrir a modelos de grupo de pares entrenados en categorías de comercio similares (código MCC, importe medio, geografía) — generalizan razonablemente bien. Segundo, aplicar umbrales conservadores basados en reglas mientras se acumulan datos etiquetados. Tercero, usar transfer learning desde el modelo global ajustado con el historial temprano del comercio tras 2-4 semanas de datos. No esperar 6 meses; un modelo entrenado sobre 500 casos de fraude etiquetados ya supera a las reglas puras.
- ¿Cuándo tiene sentido adquirir una solución SaaS de fraude en lugar de construir la propia?
- Adquirir cuando el GMV anual es inferior a 500 millones de dólares, el equipo no tiene capacidad de ingeniería ML, o se necesita entrar en producción en menos de 3 meses. Stripe Radar, Sift y Riskified disponen de modelos de red preentrenados que no se pueden replicar desde cero — procesan señales de millones de comercios. Construir cuando se tienen señales de datos propietarias que el proveedor no puede acceder, cuando la verticalidad del negocio genera patrones inusuales (facturación B2B, recargas de prepago en telco), o cuando las comisiones del proveedor (típicamente 0,1-0,5% del GMV) superan el coste de ingeniería interno.
- ¿Cuál es la característica más predictiva para el fraude con tarjeta?
- Las características de velocidad encabezan consistentemente los rankings de importancia: concretamente, el número de comercios distintos cargados con la misma tarjeta en la última hora y en las últimas 24 horas. Esta única característica, con umbrales adecuados, identifica una proporción desproporcionada de patrones de card testing y toma de control de cuentas. La huella del dispositivo combinada con la reputación de la IP es la segunda señal más fiable para tarjeta no presente. Ninguna es suficiente por sí sola — la combinación de velocidad + dispositivo + desviación conductual respecto al histórico del cliente es la que eleva el AUC por encima de 0,95.
- ¿Cómo funciona en la práctica la exención SCA de PSD2?
- El artículo 18 del RTS de PSD2 permite a emisores y PSP omitir la autenticación reforzada (SCA) para transacciones por debajo de ciertos umbrales si el Análisis de Riesgo de la Transacción (TRA) en tiempo real mantiene las tasas de fraude por debajo de límites específicos: 0,13% para exenciones hasta 100 €, 0,06% hasta 250 €, 0,01% hasta 500 €. El TRA debe estar certificado por la autoridad competente. Operacionalmente, el sistema de scoring de fraude debe emitir una decisión de riesgo en tiempo real y el sistema de autorización del emisor debe consumirla antes de enrutar al flujo de step-up de SCA.
- ¿Con qué frecuencia se debe reentrenar el modelo de fraude?
- El reentrenamiento semanal supera al mensual en 8-12% de AUC en poblaciones de fraude con deriva, según investigación publicada y despliegues observados. El reentrenamiento diario añade una mejora marginal (1-3%) con una complejidad de pipeline y coste computacional significativamente mayores. Recomendación práctica: reentrenamiento semanal programado con evaluación automática champion/challenger; reentrenamiento ad hoc cuando un detector de cambio de población (PSI > 0,2 en características clave) se active. Nunca desplegar un modelo nuevo directamente al 100% del tráfico — usar shadow traffic o champion/challenger con un 5-10% de asignación primero.
- ¿Qué métricas importan más allá del AUC y la precisión/recall?
- El AUC es necesario pero insuficiente. Monitorizar: (1) precisión ponderada en dinero — bloquear 1.000 € de fraude que cuesta 0,50 € en falsos positivos no es equivalente a bloquear 10 € con el mismo coste; (2) tasa de falsos positivos en el segmento de mayor valor, que abandona 3-5 veces más rápido cuando se le declina incorrectamente; (3) tasa de contracargos como confirmación con retraso de la calidad del modelo; (4) tiempo de decisión p99 en producción, no en entornos de benchmark; (5) precisión@k, donde k es el número de casos que el equipo de operaciones de fraude puede revisar en un día — un modelo que genera 10.000 alertas para un equipo que puede trabajar 200 está operativamente roto independientemente de su AUC.
Fuentes
- Nilson Report — Nilson Report — Pérdidas globales por fraude en tarjetas 2023
- ACI Worldwide — ACI Worldwide Global eCommerce Fraud Report 2025
- Juniper Research — Juniper Research — Previsión de pérdidas por fraude en pagos 2024–2028
- EUR-Lex — Directiva PSD2 (UE) 2015/2366 — Autenticación reforzada y exención TRA
- Autoridad Bancaria Europea — EBA RTS sobre SCA y TRA (EBA/RTS/2017/02)
- Banco de España — Banco de España — Estadísticas de fraude en medios de pago
- European Payments Council — European Payments Council — SEPA Instant Credit Transfer Scheme
