Experiment design A/B testing clínica · framework 2026
La decisión más frecuente en clínica privada española sobre cambios operativos (subir precio · cambiar texto recordatorio · ajustar timing confirmación cita · modificar script primer contacto telefónico) se toma habitualmente desde la intuición · referencias informales otras clínicas · o la última cosa leída en algún webinar comercial. El coste de la decisión intuitiva es invisible cuando el cambio acierta · y muy caro cuando falla porque el negocio absorbe el efecto durante meses antes de identificar la causa. Un A/B test bien diseñado · sin pretender rigor académico · permite tomar este tipo de decisiones con base empírica local mínima · evitar replicar fórmulas ajenas que no encajan en el contexto concreto · y construir cultura de aprendizaje iterativa con coste operativo reducido. Este artículo describe un framework accionable adaptado al contexto clínico privado.
Cuándo tiene sentido un A/B test en clínica
- Cambio acotado y reversible · ajuste texto recordatorio · variante script llamada · timing recordatorio (24h vs 48h previo) · cambios donde puede volverse al original sin coste operativo significativo.
- Volumen suficiente para muestreo · decisión con impacto sobre > 200 interacciones mes mínimo · por debajo el ruido estadístico aplastará cualquier efecto real detectable.
- Métrica medible objetivamente · conversion confirmación cita · tasa no-show · tasa apertura mensaje · tasa respuesta · métricas observables sin requerir interpretación subjetiva.
- Coste implementación bajo · variante que se puede activar/desactivar rápidamente · sin requerir cambio estructural sistema · sin requerir formación staff extensa.
- Sin riesgo seguridad paciente · ningún test puede involucrar variación protocolos clínicos · protocolos consentimiento · ni elementos asistenciales · solo aspectos operativos no clínicos.
Cuándo NO tiene sentido un A/B test
- Decisión estratégica de alto impacto no reversible · entrar nuevo vertical · contratar profesional exclusiva dedicación · adquirir equipamiento mayor · estas decisiones necesitan análisis distinto al test comparativo.
- Volumen pequeño (< 100 interacciones mes) · necesitarías esperar 6-12 meses para obtener significancia · contexto cambia entre tanto · resultado pierde validez antes de obtenerse.
- Métrica subjetiva · "el paciente parece más contento" no es medible · si no hay forma cuantitativa registrar diferencia el experimento no aporta señal accionable.
- Variables múltiples cambiando simultáneamente · si el test coincide con cambio profesional · con campaña marketing · con cambio estacional · la causa real efecto observado se vuelve no atribuible.
- Resultado decidido de antemano · si la dirección va a aplicar la variante independientemente del resultado · el test es decoración · invertir tiempo en validación empírica solo cuando hay disposición real seguir el resultado.
Estructura de un A/B test mínimo viable
- Hipótesis explícita formulada antes de empezar · "cambiar X de A a B aumentará la métrica Y en al menos Z%" · sin hipótesis cuantificada no hay forma evaluar si el resultado confirma o refuta.
- Métrica primaria única elegida antes empezar · si decides la métrica importante después de ver los datos vas a encontrar cualquier resultado que prefieras · disciplina seleccionar 1 métrica primaria es esencial.
- División muestral aleatoria o cuasi-aleatoria · alternar días pares vs impares · o asignación por número paciente módulo 2 · o por orden alfabético apellido · método estable y trazable reproducible.
- Duración mínima predefinida · típicamente 2-4 semanas para absorber variabilidad semanal y capturar ciclos pago/no pago pacientes mensuales · parar el test cuando "ya se ve claro" es el sesgo más frecuente y daña conclusiones.
- Análisis posterior con regla decisión definida antes · típicamente "mantener variante B si supera A en al menos X% y el resultado se mantiene estable últimas 2 semanas" · regla escrita evita racionalización post-hoc.
Cálculo orientativo de sample size mínimo
El cálculo formal de potencia estadística excede el alcance práctico que necesita la mayoría de clínicas privadas · pero conviene una regla de pulgar accionable. Para detectar diferencias relativas del 10-20% en métricas con baseline 30-60% (típico tasa apertura mensaje · tasa confirmación cita) se necesitan aproximadamente 400-800 interacciones por variante · para detectar diferencias del 5% se necesitan 2000-4000 interacciones por variante · para detectar diferencias del 2% se necesitan 10000+ interacciones por variante. La implicación práctica es que las clínicas individuales solo pueden detectar diferencias relativamente grandes en plazos razonables · y deben resistir la tentación de declarar diferencias pequeñas como significativas cuando el volumen no lo soporta.
Tres ejemplos reales adaptables hoy
| Test | Variante A | Variante B | Métrica primaria | Duración |
|---|---|---|---|---|
| Timing recordatorio | 24h antes | 48h antes | Tasa no-show | 4 semanas |
| Texto recordatorio | Formal corto | Cercano emoji | Tasa respuesta | 3 semanas |
| Estructura precio | Importe único | Fraccionado 3 pagos | Tasa cierre presupuesto | 6 semanas |
| Script primer contacto | Listado tratamientos | Pregunta necesidad | Conversión a cita | 3 semanas |
| Canal confirmación | SMS | Tasa confirmación | 3 semanas |
Errores frecuentes que invalidan el resultado
- Parar el test antes de tiempo cuando "ya se ve claramente" la variante ganadora · la variabilidad muestral temprana puede mostrar diferencias que desaparecen completamente al acumular más datos · disciplina duración predefinida es crítica.
- Cambiar la variante mid-test · "le añadimos también un emoji a la variante B porque parece funcionar mejor" rompe la integridad comparativa · al final no se sabe qué cambio produjo el efecto.
- Comparar grupos no comparables · asignar variante A a pacientes de mañana y variante B a pacientes de tarde introduce sesgo (perfil paciente distinto · expectativa distinta) que invalida la comparación.
- Concluir que ausencia diferencia significa equivalencia · "no hay diferencia estadística entonces da igual cuál uso" ignora que la ausencia de diferencia puede significar simplemente que no había potencia estadística para detectarla.
- Confundir significancia estadística con relevancia operativa · una diferencia del 1.2% puede ser estadísticamente significativa con muestra muy grande y completamente irrelevante para el negocio · preguntar siempre "¿esta magnitud cambia mi decisión?"
Cómo encaja AI Empire
AI Empire facilita la ejecución operativa A/B tests sobre comunicación paciente · permitiendo activar dos variantes mensaje distintas para segmentos paciente y medir tasa respuesta · tasa confirmación · tasa no-show por variante de forma trazable. La capa de medición está integrada (timestamp interacción · clasificación resultado · cohorte paciente) lo que reduce la fricción típica medir resultado tests manual. Lo que AI Empire no hace · ni debería hacer · es decidir por la clínica qué hipótesis testar · esa decisión corresponde a la dirección y depende del contexto comercial concreto local. Para profundizar revisa el artículo coste no-show clínica · sobre segmentación paciente el artículo RFM segmentación a acción · y sobre arquitectura comunicación el artículo handoff humano chatbot.
Próximo paso
Esta semana elige un único A/B test prioritario · formula la hipótesis explícitamente en una frase · define la métrica primaria única · decide la duración mínima antes de empezar · y escribe la regla de decisión exacta que aplicarás al terminar. Si no consigues escribir estos cuatro elementos en menos de 30 minutos probablemente el test todavía no está suficientemente bien formulado · y conviene refinar antes que ejecutar. Pide una demo si quieres ver cómo AI Empire operacionaliza A/B tests sobre comunicación paciente con medición integrada de tasa respuesta y tasa confirmación por variante.
Disclaimer: este artículo es guía orientativa sobre buenas prácticas experimentación operativa en clínica privada · NO sustituye asesoramiento estadístico profesional para experimentos con potencia clínica o impacto regulatorio · NO autoriza tests experimentales sobre protocolos clínicos · diagnósticos · consentimientos informados o cualquier elemento asistencial · estos requieren marcos regulatorios distintos (comité ético investigación · AEMPS · normativa ensayos clínicos según aplique). Los ejemplos · rangos y tamaños muestra son orientativos · cada test concreto requiere evaluación caso a caso según volumen real clínica · sector vertical · variabilidad métrica base y disposición operativa. AI Empire no proporciona asesoramiento estadístico académico · cualquier conclusión empírica derivada tests internos debe interpretarse con prudencia comercial y validarse en periodos prolongados antes de aplicar como cambio estructural operativo.