Todas las contribuciones
IA & Machine Learningmachine-learningfintechfraud-detection

Cómo reducir fraude 73% con Machine Learning: caso de estudio

Caso práctico de implementación de un sistema de detección de fraude financiero con ML para una fintech en LATAM. Arquitectura, features, modelo y resultados en producción.

Numoru EngineeringPublicado el 5 de abril de 202610 min de lectura
Compartir

El problema: fraude creciente en pagos digitales

-73%
Reducción de fraude
A 90 días post-deploy
-74%
Chargebacks
Motor del ROI
+$2.1M
Impacto anualizado neto
Menos pérdida + más conversión
$60-180k
Ticket típico de rollout
Fintech, 3-4 meses

Una fintech en Latinoamérica procesaba más de 2 millones de transacciones mensuales. El fraude representaba el 4.2% del volumen total — más del doble del benchmark de la industria (1.5–2%). Las reglas manuales existentes bloqueaban transacciones legítimas (falsos positivos del 18%) mientras dejaban pasar patrones sofisticados de fraude.

El costo no era solo financiero: cada transacción fraudulenta generaba chargebacks, pérdida de confianza del usuario y riesgo regulatorio.

La solución: detección en tiempo real con ML

Diseñamos e implementamos un sistema de detección de fraude en 3 capas:

Capa 1: Feature engineering

El 80% del valor de un modelo de ML está en las features. Construimos 147 features en 4 categorías:

  • Transaccionales: monto, frecuencia, velocidad entre transacciones, desviación del patrón habitual
  • De dispositivo: fingerprint del dispositivo, geolocalización, cambios de IP, User-Agent
  • De comportamiento: hora del día, día de la semana, patrones de navegación pre-transacción
  • De red: relaciones entre cuentas (mismo dispositivo, misma IP, beneficiarios compartidos)

Las features de red fueron las más discriminativas. Un patrón común de fraude involucra múltiples cuentas "limpia" que convergen en un mismo beneficiario.

Capa 2: Modelo de clasificación

Evaluamos 4 algoritmos y seleccionamos XGBoost por su balance entre rendimiento, interpretabilidad y velocidad de inferencia:

ModeloAUC-ROCPrecisiónRecallLatencia (p99)
Logistic Regression0.890.820.712ms
Random Forest0.930.880.7915ms
XGBoost0.960.920.858ms
Neural Network0.950.900.8645ms

La red neuronal tenía recall similar pero latencia 5× mayor — inaceptable para decisiones en tiempo real.

Capa 3: Sistema de decisión

No todo se decide con ML. El sistema combina:

  1. Reglas deterministas: Bloqueo inmediato para patrones conocidos (tarjetas robadas confirmadas, IPs en blacklist)
  2. Score del modelo: Probabilidad de fraude (0–1)
  3. Umbral dinámico: Ajustado por segmento de riesgo del comercio y monto de la transacción
  4. Revisión manual: Transacciones en la zona gris (score 0.4–0.7) van a un equipo de analistas

Arquitectura de producción

El sistema procesa decisiones en menos de 100ms end-to-end:

Transacción → API Gateway → Feature Store (Redis)
                                    ↓
                            Feature Pipeline (Flink)
                                    ↓
                            Modelo XGBoost (servido con BentoML)
                                    ↓
                            Motor de Decisión → Aprobar / Rechazar / Revisar

Componentes clave:

  • Feature Store en Redis: Features pre-computadas con TTL de 24h para features de ventana temporal
  • Apache Flink: Streaming de features en tiempo real (ventanas de 1h, 24h, 7d)
  • BentoML: Serving del modelo con batching automático y health checks
  • PostgreSQL: Log de decisiones para auditoría y reentrenamiento

Resultados en producción

Después de 4 meses en producción:

MétricaAntesDespuésCambio
Tasa de fraude4.2%1.1%-73%
Falsos positivos18%3.2%-82%
Tiempo de decisión2-5 min (manual)85ms~99.9%
Chargebacks mensuales~8,400~2,200-74%

El ROI se alcanzó en el segundo mes. La reducción en chargebacks y la mejora en conversión (menos bloqueos de transacciones legítimas) generaron un impacto neto positivo de $2.1M USD anualizados.

Lecciones aprendidas

Lo que funcionó

  • Features de red fueron el mayor diferenciador. Los patrones de relación entre cuentas son más difíciles de falsificar que las features individuales.
  • Umbral dinámico por segmento evitó un modelo "one-size-fits-all" que habría sido demasiado agresivo para comercios de bajo riesgo.
  • Monitoreo de drift con alertas automáticas cuando la distribución de features cambia significativamente.

Lo que no funcionó al principio

  • Oversampling agresivo (SMOTE) en el entrenamiento inicial generó un modelo demasiado sensible. Pasamos a focal loss con XGBoost para manejar el desbalance de clases.
  • Features de geolocalización tenían baja discriminación en LATAM por la prevalencia de VPNs y redes móviles con IPs dinámicas.

Lo que haríamos diferente

  • Implementar explicabilidad desde el día 1 (SHAP values por transacción). El equipo de compliance lo necesitaba para justificar rechazos ante reguladores y llegó 6 semanas tarde.
  • Invertir más en synthetic data para entrenar contra patrones de fraude emergentes antes de que aparezcan en producción.
Métricas de fraude — baseline vs stack ML (medición 90 días)

Caso fintech descrito arriba. Mismo volumen y población de actores; el stack ML reemplaza la detección solo por reglas.

0255075100Tasa de fraude %Falsos positivos %Recall dedetección %Chargebacks (k)
  • Baseline pre-ML
  • Post-ML (90 días)

Métricas de cliente anonimizadas.

Impacto de negocio

Business & commercial impact

Cómo Numoru lo productiza

Los rollouts de fraud detection son de los ROI más claros en fintech — reducir pérdidas + chargebacks se ve en el P&L el primer trimestre. Numoru lo vende como engagement de 3-4 meses con threshold de métrica garantizado más un retainer MLOps que mantiene fresco el modelo contra drift adversario.

Ticket fraud-detection por comprador (Numoru 2026, USD)

Fintech (wallets / remesas)
Scoring en tiempo real de flows card & transfer.
$80,000 – 180,000
One-time + $6k / mes MLOps
E-commerce (marketplace)
Riesgo de seller + abuso de refund.
$45,000 – 110,000
One-time + $3,500 / mes
Seguros
Scoring de fraude en claims + NLP de evidencia.
$95,000 – 220,000
One-time + $7k / mes
Bancos (canal digital)
Anomalía session-level + device profiling.
$150,000 – 380,000
RFP + engagement 24 mo
Telco
SIM-swap + subscription fraud.
$55,000 – 140,000
One-time + $4k / mes
Public case studyPagos · Global · 2024

Stripe Radar — benchmarks de detección

Challenge
Publicar impacto de ML de detección sobre cohortes reales de merchants.
Solution
Stripe comparte outcomes agregados de Radar en su blog, incluyendo curvas ROC y reducción de fraude.
Results
Reducción de fraude a 90 días
-40 a -80%
En cohorte de merchants
False-positive rate
<1%
Threshold Radar default
Latencia
<100 ms
En checkout
Public case studyResearch seguridad · Global · 2024

IBM — Cost of a Data Breach (segmento fintech)

Challenge
Reportar costo anualizado de fraude + breach en servicios financieros.
Solution
IBM encuesta 600+ empresas con breach anual, cortando por industria.
Results
Costo promedio breach (fin. svc)
$5.9M
Subió YoY
Costo robo de identidad (US)
$43B / año
Total industria
Share prevenible por ML
30-50%
Estimación experta

Fintech desplegando stack Numoru (12 meses)

Payback: < 1
Assumptions
Volumen transaccional mensual2M
Ticket promedio$38
Tasa de fraude baseline4.2%
Tasa post-rollout1.1%
Revenue perdido por FP$420k / mes
Post-rollout FP perdida$140k / mes
Costo de engagement$140,000 one-time
Retainer MLOps$6,000 / mes
Engagement (one-time)−$140,000
MLOps (12 mo × $6k)−$72,000
Fraude evitado (3.1% × 2M × $38 × 12)+$28,272,000
Conversión recuperada por menos FP (12 × $280k)+$3,360,000
Contribución neta año 1+$31,420,000
Diagnóstico
$6,500one-time
Assessment modelo de 2 sem.
  • Auditoría de métricas baseline
  • Cobertura de features
  • Análisis costo-de-fraude
  • Roadmap + quick wins
Rollout completo
$80,000 – 220,000one-time
3-4 meses a producción.
  • Pipeline + feature store
  • XGBoost + modelos GNN
  • Decision engine + case mgmt
  • Explainability (SHAP)
  • Artefactos de compliance
Retainer MLOps
$3,500 – 10,000/ mes
Mantener filo vs drift adversario.
  • Retraining semanal
  • Monitoreo de drift
  • Red-team adversario
  • Reporting regulatorio

Conclusión

La detección de fraude con ML no es magia — es ingeniería de features, selección cuidadosa de modelo, y un sistema de decisión que combina automatización con supervisión humana.

El componente más valioso no fue el modelo en sí, sino la infraestructura de features en tiempo real que permite reaccionar en milisegundos a patrones que ningún equipo humano podría detectar a escala.

¿Quieres resultados así para tu empresa?

Iniciar conversación
Compartir