Las pruebas A/B engañosas son simples

por Rostyslav Mykhajliw Fundador de TrueSocialMetrics.com ~ 5 min

Clásico

La clásica prueba A/B es una distribución entre diferentes estados. Comencemos con una muestra general que todos usan. Tenemos un sitio con un botón de registro, actualmente es azul, pero queremos probar un nuevo color rojo.

A/B testing

Luego asignamos algo de tráfico y esperamos algo. Hay calculadoras simples para statistical significance.

Opción A: 50k visitas - 500 registro Opciones B: 50k visitantes - 570 registros - ganador

B es un ganador, es claro. Más registros, significancia estadística.

Un nuevo clásico de manzana a naranja

¡Espera un poco! Lo que estamos lanzando algo nuevo. Por ejemplo, estamos agregando un botón de "demostración" para ver una guía paso a paso del producto. A/B testing a new feature

Si seguimos una lógica simple de pruebas A/B, ¡no funciona! Porque no podemos comparar manzanas con naranjas. ¡No podemos comparar nada con algo! Es totalmente incorrecto. Si no hay un botón de demostración, los usuarios pueden obtener una peor experiencia que aquellos que tienen esta opción. Pero esta opción solo puede ayudar a los usuarios que ya están interesados en el producto o que ya se han declarado usuarios del producto recientemente. Incluso si tiene millones de tráfico, no puede decir cómo funciona en unas pocas horas/días porque los resultados pueden posponerse en el tiempo.

Para una nueva funcionalidad se debe liberar linealmente como proceso de liberación enteral. Solo entonces, después de un tiempo, podemos analizarlo y determinar si tuvo algún impacto en la experiencia del cliente o no, pero rastreando las métricas comerciales. Las pruebas A/B NO son aplicables para una nueva funcionalidad.

Pruebas de confianza AA/BB

Regrese a la primera muestra con el botón de registro. Si nuestra suposición es correcta, podemos agregar más opciones A y más opciones B y nada cambiará, porque B aún puede ganar la batalla.

AA/BB testing

Luego mira los resultados:

A1: 50k visitas - 500 registro A2: 50k visitantes - 580 registros - ganador B1: 50k visitantes - 570 registros - ganador B2: 50k visitantes - 500 registros

¡QUÉ! ¡QUÉ! ¡QUÉ! Puede decir que es imposible, pero esta situación muestra una diferencia si la asignación de visitantes tiene efecto en los resultados de las pruebas. Y estos resultados muestran una significación estadística estable del 95% pero confianza baja.

Pruebas adaptativas

Si volvemos al comienzo del artículo, notaremos un gran tráfico de 50k visitantes y 500 transiciones requeridas para recibir resultados significativos. Sin embargo, no todas las páginas tienen estas posibilidades. No todas las empresas emergentes son lo suficientemente buenas para generar tal tráfico, o pueden ser páginas de poco tráfico como configuración/facturación, etc. más o menos. El siguiente inconveniente del enfoque general es que al menos 50 000 visitantes (de 100 000 asignados a la prueba) empeoraron la experiencia del cliente. Así que estamos esperando mucho tiempo y perdiendo clientes debido a la asignación a una prueba de "pérdida". Tiene algún sentido ? En la sanidad los médicos cruzaban los temas del caso, pero en una tabla estaba la vida de las personas. Si hacemos una prueba durante la cual el 50% de los pacientes están muriendo debido a "atención aún no probada". Y es una locura. Aquí hay un tipo, Marvin Zelen, a quien se le ocurrió la idea de las pruebas adaptativas, que ahora se llama Zelen’s design.

En pocas palabras

Imaginemos que tenemos 2 posibilidades: bolas rojas y azules, por lo que estadísticamente es un 50% de probabilidad.

Adaptive test initial state

Por ejemplo, asignamos aleatoriamente al visitante a "azul" y "azul" es una mejor experiencia porque obtuvimos la compra. En este caso, "azul" está ganando, es por eso que agregamos una bola "azul" adicional a la piscina.

Adaptive test added blue ball

Como resultado, la probabilidad cambió "rojo" - 33% y "azul" - 67%

¡Suena bien! Pero el próximo visitante con "azul" no hace nada. Así que "azul" está perdiendo, es por eso que tenemos que quitar una bola "azul" de la piscina y obtuvimos nuestro estado anterior.

Adaptive test final state

Ventajas: + funciona para una pequeña cantidad de tráfico + proporciona una mejor atención a los usuarios de forma adaptativa Contras: - requiere que los desarrolladores trabajen para descubrir pruebas ganadoras/perdedoras en el proceso de prueba

conmociones cerebrales

  • Las pruebas A/B clásicas no funcionan para las funciones nuevas porque no se puede probar nada con algo
  • Por lo general, las pruebas A/B NO son representativas, incluso si sus análisis dicen que lo son.
  • El enfoque AA/BB ayuda a verificar los resultados de las pruebas A/B
  • Las pruebas adaptativas son muy útiles para tráfico pequeño, pero requieren trabajo manual para determinar los objetivos.


Cuando esté listo para el rock sus análisis de medios sociales

dar TrueSocialMetrics intentarlo!


Iniciar versión de prueba
No requiere tarjeta de crédito.






leer más




Películas en Facebook: Formas creativas para promover lanzamientos de DVD
El objetivo principal de las páginas de Facebook de Películas es promover su liberación teatro e impulsar la venta de boletos. Pero cuando el espectáculo ha terminado, el trabajo continúa para una segunda oleada de venir - lanzamientos de disco. Tenía curiosidad por lo que los contenidos creativos en estudios de técnicas cinematográficas utilizan para promocionar sus lanzamientos de disco. Así que miré a las mejores películas del 2014 y se utiliza la característica de segmentación de contenido para analizarlo.


El tipo más viral de pines: Barney en Pinterest
Me tropecé con una técnica interesante usos de Barney para presentar sus prendas y accesorios en Pinterest. Ellos siempre hacen 2 tipos de pines para cada producto: un "producto individual" y un "producto en un entorno". No podía caminar y no comparar la efectividad de ambos métodos de representación del producto. ¿Cuál es más probable que se vuelva a clavado y le gusta - un "producto individual" o un "producto en un entorno" formato?


10 TrueSocialMetrics Ajustes Diminuto para ahorrar más tiempo en su Análisis de Medios Sociales
Si ya está utilizando TrueSocialMetrics para analizar sus páginas de medios sociales (Gracias! ¡Te queremos!) Y está buscando maneras de hacer que la experiencia mejor y más rápido, que ha llegado a la persona adecuada! :) Quiero compartir con ustedes 10 cosas que puede hacer en su cuenta Es cierto que le ayudará a ahorrar un montón de tiempo todos los días y adquiere conocimientos más rápido.


Fast food en Twitter: cuándo publicar, para no perderte nada
Nadie pasa el rato en las redes sociales todo el tiempo, ni siquiera la gente de análisis de redes sociales. Por lo general, las personas se conectan a sus teléfonos para relajarse, relajarse u obtener la última primicia. Y es por eso que diferentes tipos de contenido funcionan mejor en diferentes momentos.