Comprensión de las pruebas médicas: sensibilidad, especificidad y valor predictivo positivo

Titulares como estos que promocionan la comprensión de las pruebas médicas a menudo incluyen afirmaciones de precisión que suenan impresionantes.

Considere esta historia de HealthDay sobre una prueba de aliento experimental que se dice que es “85% precisa” para la detección de cáncer de estómago.

Para muchas personas, una tasa de precisión del 85% probablemente suene bastante bien, y la historia sobre la prueba pareció fomentar la percepción de la precisión. Se especuló que la prueba podría conducir a un «diagnóstico y tratamiento más tempranos y una mejor supervivencia» para las personas con cáncer de estómago.

En su revisión del comunicado de prensa que fue la base de la historia, señalaron que la prueba, si se adopta ampliamente, posiblemente podría conducir a cientos de resultados falsos positivos para cada persona que se identifique correctamente con cáncer de estómago. Esos resultados falsos positivos no se mencionaron ni en el comunicado de prensa ni en la historia que lo repitió. Nuestros revisores pensaron que deberían haber sido:

Si la publicación va a discutir los posibles beneficios no probados, también debe mencionar los daños potenciales de las pruebas de detección, incluidos los falsos positivos y los falsos negativos que conducen a un diagnóstico excesivo o insuficiente. El principal de estos daños sería etiquetar falsamente a las personas sanas como personas que posiblemente tengan cáncer y luego someterlas a pruebas invasivas o incluso a tratamientos que resulten innecesarios.

Sensibilidad y especificidad

¿Qué más se podría haber hecho de otra manera?

Tanto el comunicado de prensa como la noticia se habrían mejorado con la discusión de dos conceptos importantes en las pruebas médicas: sensibilidad y especificidad.

Son el yin y el yang del mundo de las pruebas y transmiten información crítica sobre lo que una prueba puede y no puede decirnos. Ambos son necesarios para comprender completamente los puntos fuertes y las deficiencias de una prueba.

La sensibilidad mide la frecuencia con la que una prueba genera correctamente un resultado positivo para las personas que tienen la afección que se está evaluando (también conocida como tasa de “verdaderos positivos”). Una prueba que es altamente sensible señalará a casi todos los que tienen la enfermedad y no generará muchos resultados falsos negativos. (Ejemplo: una prueba con 90% de sensibilidad arrojará correctamente un resultado positivo para el 90% de las personas que tienen la enfermedad, pero arrojará un resultado negativo, un falso negativo, para el 10% de las personas que tienen la enfermedad y que dieron dar positivo en la prueba.)

La especificidad mide la capacidad de una prueba para generar correctamente un resultado negativo para las personas que no tienen la afección para la que se está probando (también conocida como tasa de “verdaderos negativos”). Una prueba de alta especificidad descartará correctamente a casi todas las personas que no tienen la enfermedad y no generará muchos resultados falsos positivos. (Ejemplo: una prueba con un 90% de especificidad arrojará correctamente un resultado negativo para el 90% de las personas que no tienen la enfermedad, pero arrojará un resultado positivo, un falso positivo para el 10% de las personas que no tienen la enfermedad y que dieron dar negativo en la prueba).

El siguiente gráfico muestra cómo se aplican estos términos a una de las pruebas más utilizadas: una prueba de embarazo.

Es importante reconocer que la sensibilidad y la especificidad existen en un estado de equilibrio. El aumento de la sensibilidad, la capacidad de identificar correctamente a las personas que tienen la enfermedad, generalmente se produce a expensas de una menor especificidad (es decir, más falsos positivos). Del mismo modo, una alta especificidad, cuando una prueba hace un buen trabajo para descartar a las personas que no tienen la enfermedad, generalmente significa que la prueba tiene menor sensibilidad (más falsos negativos).

Otro ejemplo cotidiano

La seguridad del aeropuerto ofrece un buen ejemplo de cómo se desarrollan estas compensaciones en la práctica. Los escáneres en un punto de control de seguridad también pueden alertar sobre artículos inofensivos como hebillas de cinturón, relojes y joyas, esto es, para asegurarse de que no se puedan llevar a bordo del avión artículos verdaderamente peligrosos, como armas. El escáner prioriza la sensibilidad y señalará casi cualquier cosa que parezca peligrosa. Pero eso significa que también tiene menor especificidad y es propenso a falsas alarmas; es mucho más probable que un resultado positivo sea una botella de champú que un artefacto explosivo.

Los mismos problemas surgen cuando se trata de realizar pruebas para detectar enfermedades mortales como el cáncer. Es deseable tener una alta sensibilidad: la omisión de casos de cáncer reales podría provocar retrasos en el tratamiento que afectarían negativamente los resultados. Sin embargo, la especificidad es más importante con las pruebas de cáncer que en un punto de control del aeropuerto: los resultados falsos positivos crean ansiedad y conducen a pruebas de seguimiento innecesarias e invasivas como las biopsias. Aumentan los costos para todos los involucrados y aumentan la probabilidad de sufrir daños. Esos daños pueden ser lo suficientemente importantes como para superar los posibles beneficios de la prueba. La prueba de antígeno prostático específico [PSA] es un buen ejemplo de prueba de baja especificidad que genera muchos resultados falsos positivos).

¿Qué es una «buena» prueba? 

La prueba ideal es aquella que tiene mayor sensibilidad y mayor especificidad, pero el valor de una prueba depende de la situación, dice Hoffman.

En términos generales, «una prueba con una sensibilidad y especificidad de alrededor del 90% se consideraría que tiene un buen rendimiento diagnóstico; las pruebas de esfuerzo cardíaco nuclear pueden funcionar a este nivel», dijo Hoffman.

Pero tan importante como los números, es crucial considerar a qué tipo de pacientes se está aplicando la prueba. Hoffman señaló que incluso una buena prueba no ofrecerá mucha información útil si está probando la población incorrecta.

«Si está analizando a personas que sabe que es muy probable que tengan la enfermedad, es probable que todavía la tengan, incluso si la prueba resulta negativa», dijo.

Lo mismo ocurre con las pruebas positivas en personas que tienen muy pocas probabilidades de tener la enfermedad: “El hecho de que la prueba dé positivo no le dará mucha confianza en que tienen la enfermedad si la prevalencia de la enfermedad es muy baja en pacientes que están en pruebas». Al igual que con un escáner de aeropuerto que busca armas, es muy probable que cualquier resultado positivo sea simplemente una falsa alarma.

El tema de las falsas alarmas es especialmente importante cuando se realizan pruebas de detección de enfermedades, como el cáncer y el VIH, en personas aparentemente sanas que tienen menor probabilidad de padecer la enfermedad. En esos casos, las pruebas se realizan de forma secuencial en un proceso de dos pasos, dijo Hoffman.

“Las pruebas iniciales se seleccionan porque tienen una mayor sensibilidad (> 99% en el caso de las pruebas del VIH)”, dijo. «La expectativa es que estas pruebas no pasen por alto a los pacientes con la enfermedad y que todos aquellos con pruebas positivas (que podrían ser una gran proporción) se someterán a la prueba estándar de oro de diagnóstico altamente específico para confirmar el diagnóstico».

El segundo paso está destinado a descartar los muchos falsos positivos resultantes de la primera prueba.

Diagnóstico versus cribado: una distinción fundamental

Esto nos lleva de nuevo a la prueba de aliento para cáncer de estómago que se discutió en la parte superior de la publicación.

Los investigadores afirmaron que la prueba podría identificar el cáncer de estómago en personas de apariencia saludable que no mostraban signos de enfermedad. Nuevamente, esto se refiere a la detección, que consiste en encontrar casos tempranos y no sintomáticos de la enfermedad en la población general. Eso es diferente del diagnóstico, que es cuando los médicos intentan averiguar exactamente qué está mal en las personas que ya se quejan de síntomas.

Aunque la historia de HealthDay hizo afirmaciones sobre la capacidad de la prueba para detectar el cáncer, el estudio que fue el tema de la historia de HealthDay no se centró en personas sanas. Aproximadamente la mitad de las muestras analizadas provenían de personas que ya se sabía que tenían cáncer y la mayoría de esos casos se encontraban en etapas avanzadas. Si bien la prueba pareció funcionar razonablemente bien en esta población donde la mayoría de las personas tenían cáncer (aproximadamente un 80% de sensibilidad y un 80% de especificidad), la aplicación de la prueba a la población sana probablemente generaría un resultado desastroso.

Nuestros revisores realizaron algunos números hipotéticos en una población sana donde la tasa de cáncer de estómago es más menor, digamos 1 de cada 1,000. (Utilizaron números redondos para fines de explicación). ¡Calcularon que para una prueba con una especificidad del 80 % (que corresponde a una tasa de falsos positivos del 20 %), habría 200 resultados falsos positivos por cada cáncer que se identifique con precisión! Esto significa que 200 personas sufrirían la ansiedad de que les dijeran que pueden tener cáncer de estómago y luego serían derivadas a pruebas invasivas adicionales para confirmar o descartar la posibilidad de cáncer.

Kabla le ofrece las siguientes soluciones

Prueba de PSA Certum

Prueba de PSA Biosynex