miércoles, 9 de noviembre de 2011

¿Cómo son los cimientos sobre los que se fundamenta la psicofarmacología moderna? Revisión de seis décadas de investigación en psicofarmacología

Changes in Clinical Trials Methodology Over Time: A Systematic Review of Six Decades of Research in Psychopharmacology.Brunoni AR, Tadini L, Fregni F. Plos One, 2010; 5(3): e9479

Gracias a Nuria Homedes, editora de Boletín Fármacos, que por cierto es un recurso imprescindible en actualización e información no sesgada sobre uso de medicamentos, me ha llegado el trabajo que hoy comentamos y que me ha resultado de gran interés.
El estudio analiza la evolución de la calidad metodológica desde los inicios de la investigación en psicofarmacología, y es muy relevante ya que este constituye un análisis tanto de los cimientos de la psicofarmacología moderna como de la situación actual en cuanto a la validez interna de los ensayos clínicos. Este asunto es importante porque la calidad de los estudios nos proporciona conocimientos acerca de los límites o el alcance de las conclusiones establecidas. Y esto debería condicionar nuestra actitud frente a verdades establecidas que muchas veces no se entiende que estas verdades provengan de estudios con tantas limitaciones. Es como sobredimensionar el verdadero alcance del conocimiento que los ensayos clínicos generan. Pero vayamos al estudio de hoy…

Vayamos al inicio, a los cimientos de la psicofarmacología humana. 

Después de la Segunda Guerra Mundial hubo una explosión en investigación farmacológica y creció el interés por los ensayos clínicos. Este entusiasmo también se dio en psicofarmacología, cuya era moderna no empezó hasta el año 1949, cuando se reintrodujo litio para su uso en psiquiatría. Más tarde se incorporaron clorpromazina (1954), imipramina (1958) y algunos otros. La aparición de estas nuevas herramientas terapéuticas supuso un cambio no sólo en la práctica psiquiátrica sino también en el campo de la investigación, ya que hasta entonces había habido poca investigación en este campo y se tenía que confrontar el reto de diseñar metodologías específicas para los psicofármacos. Este reto fue el que generó, entre otras cosas, el desarrollo de la psicometría como una forma de cuantificar la sintomatología psiquiátrica y la publicación del Diagnostic and Statistical Manual of Mental Disorders (DSM). Paralelamente el diseño metodológico en la farmacología clínica seguía evolucionando; se introdujeron nuevos diseños que reforzaron los elementos de cohesión y validez interna en los estudios, como el cegamiento, los métodos de aleatorización, o las medidas de impacto.

En la actualidad, según comentan los autores de este estudio en la introducción, la psicofarmacología se enfrenta a nuevos retos importantes. Por ejemplo, aunque se han comercializado multitud de fármacos para las mismas indicaciones, aún teniendo mecanismos de acción diferentes, no parece que ninguno de estos avances neuropsicofarmacológicos entrañe un avance real en la efectividad clínica de estos productos en las afecciones psiquiátricas. O este otro: las variables de resultado que se emplean como indicadores de garantías clínicas (efectividad) son variables subrogadas y escalas de gravedad que no están exentas de cierto grado de subjetividad. Por otro lado, los criterios diagnósticos del DSM están muy encaminados a que los estudios psicofarmacológicos sean operativos, es decir que se requiere la presencia de un mínimo de sintomatología para poder establecer un diagnóstico, pero configura una pseudorealidad (o ficción) que dista mucho de la práctica clínica. Por lo tanto, es lícito y está justificado preguntarse si los ensayos psicofarmacológicos son metodológicamente adecuados y si consideramos que no, hay que preguntarse por qué no se ofrecen soluciones a estos retos, debemos plantearnos qué debemos cambiar, cómo hacer avanzar en definitiva la forma que tenemos de generar conocimiento en psicofarmacología.

Por lo tanto conocer cómo ha sido la calidad metodológica de los estudios en psicofarmacología actuales y en el pasado es necesario para avanzar en el conocimiento futuro. El objetivo de este estudio es examinar los cambios en el diseño metodológico acaecidos en los últimos 60 años revisando estudios publicados en revistas de alto impacto. 

Para ello se desarrolló un checklist basado en revisiones metodológicas de ensayos clínicos anteriores con el objetivo de trabajar los siguientes aspectos:
(1). Características generales (nombre de autores, año de publicación, revista científica y declaración de fuentes de financiación).
(2). Presencia de resúmenes. Se chequeaba la presencia o no de los apartados de antecedentes, métodos y resultados en los resúmenes de los artículos.
(3). Diseño del estudio. Se valoró el número de centros (uni- versus multicéntrico), si hubo período de lavado, si uno de los brazos recibió placebo, el diseño del estudio (2 brazos, 3 brazos, otros), y si el análisis fue por intención de tratar o no.
(4). Participantes. Se registró el tamaño muestral, si se registró el consentimiento informado de los sujetos que formaron parte de los estudios, los criterios de selección (claros/no claros), el método por el cual se valoró la severidad del diagnóstico (juicio personal/ escalas psicométricas), y cómo se realizó la confirmación del diagnóstico (entrevista clínica/ cuestionario estructurado).
(5). Metodología. Si el método de aleatorización fue adecuado (si/no/sesgado), si se informó sobre el cálculo del tamaño muestral, y si la hipótesis principal del estudio se definió de forma adecuada.
(6). Resultados. Si se llevó a cabo un análisis comparativo de las características basales, si se incorporaron variables de efectos adversos, si se describieron los motivos de abandono (adecuado/ inadecuado), y si se realizaron test paramétricos (si/no).
(7). Conclusiones. Se valoró si las conclusiones eran positivas, negativas o eclécticas y si estas conclusiones eran coherentes con los resultados del estudio (consistente/inconsistente/dudoso).
Los criterios empleados para la clasificación de la información se presentan en una tabla que se puede observar en este enlace: http://www.plosone.org/article/info:doi%2F10.1371%2Fjournal.pone.0009479

Se revisaron noventa y cuatro estudios, 24 (26,7%) con clorpromazina, 20 (21%) con litio, 8 (8,9%) con diazepam, 6 (6,7%) con clozapina y otros tantos con lamotrigina, 16 (17,8%) con fluoxetina y 11 (12,2%) con risperidona. La mayoría de los estudios fueron publicados en el BJP (30, un 33%), en el JCP (20 ensayos, 22%), y en el AJP (19 estudios, 21%). No se identificó ningún estudio publicado en el NEJM. Veintidós estudios fueron anteriores al año 1961, 23 se llevaron a cabo en el período de 1962-74, otros 22 ensayos se desarrollaron de 1975-89 y otros 22 de 1990 al 2003.

No se consiguió clasificar la fuente de financiación de 48 estudios (52%). Se clasificaron 36 estudios como de financiación pública y 7 de financiación privada. El tema es que los ensayos más recientes tienen un gran número de autores, y suelen declarar una o incluso varias fuentes de financiación de todo tipo (públicas y privadas). Por lo que muchos de estos casos fueron clasificados como “fuente de financiación no definida”. Pero como este fue el caso de un 52% de los estudios, no se llevaron a cabo más análisis estadísticos sobre este aspecto.
En las tablas 2 y 3 del estudio pueden verse todas las características descritas con sus respectivos análisis.  Ver en el enlace que se ha proporcionado.
En cuanto a la evolución de la publicación de resúmenes, con el tiempo se observó una clara mejoría en la calidad de las publicaciones de todas las secciones que componen un resumen (p<0.001 para todos los análisis). Esto puede verse en la figura 4 del estudio original.

Los criterios de selección de los sujetos de estudio también se han definido cada vez mejor (p<0.001). Algunos ejemplos que los autores encontraron de falta de claridad en los criterios de selección fueron “una ansiedad lo suficientemente severa como para necesitar un tranquilizante”, “los pacientes no tratados que estuviesen más perturbados y agresivos”, “pacientes que necesitasen ECT”, y “cuando la clorpromazina fuera considerada el tratamiento de elección”. También hay una clara evolución en los métodos confirmatorios de diagnósticos previos al ensayo clínico, ya que antes solían basarse en entrevistas clínicas, mientras que los nuevos estudios suelen basarse en entrevistas estructuradas (p<0.01). Lo mismo que en la evaluación de la severidad sintomática que antes se basaba en el “juicio clínico” mientras que en los estudios más recientes se basan en escalas psicométricas (p<0.01).

Asimismo se evidencia una clara evolución en los métodos de cegamiento del tratamiento activo, ya que en los estudios antiguos este en realidad era probable que no se llevase a cabo de forma adecuada, por lo que los estudios más antiguos podrían estar favoreciendo mediante un sesgo de cegamiento a los tratamientos activos.

El cálculo del tamaño muestral se ha empezado a describir en los estudios con el transcurso del tiempo (p<0.01). Quizás una consecuencia de esto es que el tamaño muestral ha ido aumentando (p=0.04 y p=0.03 tomando la variable “año” como continua y como ordinal respectivamente), aunque es también probable que este aumento se deba a estudios puntuales que se han llevado a cabo en periodos recientes y que tienen tamaños muestrales muy superiores al resto, más que ser una tendencia generalizada en todos los estudios recientes. El consentimiento informado de los pacientes también ha ido mejorando con el tiempo (p<0.01).
Durante la revisión también se detectaron estudios que violaron los criterios éticos; por ejemplo en un ensayo clínico en el que se pasaban a los pacientes de litio a placebo sin que estos fuesen informados de esta posibilidad.

Uno de los pocos aspectos que no ha evolucionado con el tiempo es el uso de placebo: el número de estudios controlados con placebo no ha cambiado con el paso de los años (p=0.13 para años tanto como variable continua como ordinal). Otros rasgos diferenciales de los nuevos estudios han sido la incorporación de un periodo de lavado al inicio del estudio, el diseño multicéntrico y el análisis por intención de tratar (p<0.01 para todas las variables).

Seis estudios tuvieron un claro sesgo en la aleatorización y asignación de los sujetos de estudio. Todos estos casos se clasificaron como inadecuados a pesar de que el método que siguieron estaba descrito. El análisis mostró que, aunque sí que hubo una evolución positiva en la descripción del método de aleatorización con el tiempo (p=0.01 y p<0.01 para años como variable continua y ordinal respectivamente), la asignación aleatoria de los sujetos no varió (p=0.39 y p=0.08 para años como variable continua y ordinal respectivamente). Este análisis debe ser contextualizado por el hecho de que el número global de estudios que describieron tanto el método de aleatorización como el método de asignación de los sujetos fue bajo (18% y 10% respectivamente).

En cuanto al cegamiento, 8 estudios no lo llevaron a cabo y 4 compararon intervenciones farmacológicas con intervenciones no farmacológicas por lo que tampoco hubo cegamiento. Un estudio empleó un brazo sin tratamiento, uno se declaró inicialmente como doble ciego pero más tarde los pacientes y médicos descubrieron la asignación porque los comprimidos empleados tenían un tamaño, color y número diferente en uno y otro brazo. En un estudio se realizaban pruebas sanguíneas sólo a los pacientes de uno de los brazos. En otro estudio los sujetos conocían su asignación. Finalmente los 83 estudios restantes emplearon un diseño de doble ciego.
En la sección de resultados, los estudios más recientes informaron mejor sobre comparación de los grupos basales (p<0.01) y efectos secundarios de fármacos (p<0.01), pero no se experimentó ningún cambio en la descripción de los motivos de abandono (p=0.34 y p=0.41 para años como variable continua y ordinal respectivamente). Con el tiempo, se empleó más la expresión estadística p y se detectó un aumento del uso de tests estadísticos paramétricos (p<0.01 para ambos parámetros).

Un ejemplo de otro de los aspectos de calidad metodológica que analizaron los autores: si las conclusiones (cómo presentan su contenido) se corresponden con los resultados y análisis proporcionados por el propio estudio. En un estudio de lamotrigina versus placebo, encontraron que el fármaco activo "se asocia a una eficacia superior", aunque esto sólo era cierto para algunos, pero no para todos los análisis que se llevaron a cabo. Un ejemplo de un estudio de conclusiones inconsistentes fue uno con un tamaño muestral muy bajo, 23 sujetos con manía donde se concluye que "litio es superior en todas las escalas, aunque no hubo diferencias estadísticamente significativas en ninguna de ellas". Los autores justificaban esta conclusión arguyendo que debido a la naturaleza de la enfermedad estudiada y a la naturaleza del psicofármaco, había barreras metodológicas que nunca podrían ser resueltas. Curiosamente, los 17 estudios que desarrollaron conclusiones inconsistentes, como el del ejemplo anterior, tenían sesgos metodológicos importantes.

Se observó que los estudios más recientes mostraron conclusiones más consistentes con los resultados que habían obtenido, en comparación los estudios previos (p<0.01), una asociación que continuó siendo significativa después de introducir  la variable “resultados positivos o negativos” en el modelo (p<0.01). No se evidenció ninguna tendencia hacia la publicación de resultados positivos en comparación con resultados negativos o dudosos (p=0.16).
Los autores hacen las siguientes interpretaciones de los resultados: El estudio muestra cómo efectivamente ha habido un cambio en la calidad metodológica de los estudios en psicofarmacología durante los últimos 60 años de manera que los ensayos clínicos son de más calidad y presentan una validez interna superior.

La inmensa mayoría de las variables de calidad que se han analizado han experimentado una mejoría en el tiempo, incluyendo la descripción del resumen, la expresión de diferencias estadísticas utilizando el valor de la p, el cálculo del tamaño muestral, el registro de eventos adversos, la definición más precisa de los criterios de selección o el análisis por intención de tratar. Los estudios más recientes están menos sesgados que los del pasado en cuanto a los métodos de aleatorización y cegamiento. Además las conclusiones proporcionadas en los estudios nuevos son más consistentes con sus resultados. Los tamaños muestrales cada vez han sido mayores, y el diseño de dos brazos ha ido sustituyendo al de tres brazos. Otros criterios no han cambiado,  por ejemplo el uso de placebo ha permanecido invariable.
Los autores valoran como algo positivo el hecho de que se emplee la psicometría para cuantificar las variables de resultado, sobre todo teniendo en cuenta que esto se hacía según “juicio médico” con anterioridad a las escalas psicométricas.

Cada vez son más numerosos los ensayos multicéntricos y lo que es más relevante: el tamaño muestral. Los motivos que los autores barajan son: (1) aspectos económicos y éticos para incorporar más pacientes de los necesarios para testar la hipótesis principal, (2) por evolución estadística permitiendo estimaciones cada vez más precisas del tamaño muestral, (3) aumento del rigor científico ya que los investigadores deben enunciar la hipótesis principal a priori, (4) preocupación por obtener resultados negativos y que estos se deban a una falta de poder estadístico.

La validez interna de los estudios ha ganado con el tiempo debido a que cada vez más se utiliza más frecuentemente el análisis por intención de tratar, minimizando los sesgos por abandono del tratamiento.

Conclusiones de los autores: La irrupción de la ciencia psicofarmacológica en psiquiatría despertó retos importantes en el campo de la investigación. Algunos de esos retos fueron la precisión en la definición criterios diagnósticos y de las variables de respuesta (a través de la psicometría). Como resultado, la calidad interna de los ensayos clínicos en psicofarmacología ha mejorado en los últimos 60 años, sobre todo en lo que se refiere a aspectos fundamentales de la validez interna como el método de aleatorización, asignación, método estadístico, aspectos éticos y demás. Sólo el uso de placebo ha permanecido invariable con el tiempo. Los cambios acontecidos han mejorado la eficiencia y la validez interna a través de la identificación de sesgos potenciales sistemáticos. Sin embargo hay aún camino por recorrer y aspectos que deben evolucionar, como por ejemplo la construcción de herramientas psicométricas, la definición de criterios diagnósticos y otros aspectos metodológicos. Por lo tanto, a pesar de la mejoría con respecto al pasado, aún no podemos afirmar que estamos realizando ensayos clínicos de óptima calidad.

Comentario al estudio:
Los hechos dilucidados por el trabajo son los expuestos por los autores, pero las lecturas y repercusiones son varias. Decir que la calidad metodológica de los ensayos clínicos en psicofarmacología ha aumentado es lo mismo que decir que el soporte científico que constituye el cimiento de la psicofarmacología moderna está plagado de sesgos metodológicos. Por tomar un ejemplo, sólo recientemente se ha integrado el hecho de que hay abandonos en los ensayos clínicos y se hace un análisis por intención de tratar, algo fundamental en la medición precisa de los resultados; otro resultado manifestado por este trabajo es que en los ensayos clínicos del pasado, la inclusión de los sujetos de estudio y la valoración de los resultados se hacían a “juicio médico”. Esto nos debería poner en posición crítica y de incertidumbre acerca de las intervenciones psicofarmacológicas que se emplean en la actualidad, ya que estas se basan en las del pasado.
Casi todos los aspectos metodológicos importantes en la valoración de la validez interna de los ensayos clínicos han evolucionado positivamente. Pero estamos muy alejados de una situación que los sistemas sanitarios podamos considerar aceptable, por lo siguiente:
1.      El principal comparador de los fármacos activos ha sido, es y ¿seguirá siendo? un placebo. Esto no ha cambiado en 60 años. Los autores apuntan a que se debe a un menor requerimiento en el tamaño muestral porque se amplifica la señal de respuesta y a que no hay consecuencias éticas por emplear placebo a corto plazo en un paciente diagnosticado de trastorno mental grave. Pero hay consecuencias que los sistemas sanitarios no pueden seguir permitiéndose.
Mientras se siga comparando con placebo, se hace muy fácil la proliferación de fármacos nuevos, y muy difícil que los sistemas sanitarios puedan posicionarse en términos de algoritmos de tratamiento óptimos y en términos de financiación. ¿Por qué tenemos que financiar fármacos que no suponen ningún avance terapéutico? Esto se evitaría si sustituimos el placebo por otro comparador (incluso cambiando el diseño por uno de no superioridad), y restringiendo la comercialización de fármacos nuevos que no demuestren un avance. Pero mientras el único requerimiento sea demostrar eficacia frente a placebo, el engranaje comercial está garantizado. Y la supeditación de los sistemas sanitarios –y de los ciudadanos- a este engranaje comercial también. Porque luego los recursos disponibles para encontrar ese posicionamiento terapéutico y económico son muy escasos, y cada vez más (recortes). Es decir, no se invierte en el lugar adecuado (en términos de calidad asistencial) y sí se invierte en el lugar adecuado (en términos de beneficios para la industria farmacéutica).
Lo de que no hay conflictos éticos en utilizar placebos a corto plazo en personas diagnosticadas de trastornos mentales graves es como mínimo, una contradicción.
2.      Si las herramientas psicométricas y de definición de criterios diagnósticos como el DSM nacieron para proporcionar operatividad a la investigación psicofarmacológica, ¿por qué no se restringen estas herramientas al campo de la investigación?, ¿qué sentido tiene emplear algo que tiene un fin operativo y de investigación en algo que tiene que ver con un diagnóstico (que es un proceso de mayor complejidad y que está orientado a la restitución de un desequilibrio, es decir, a obtener un resultado sanitario en el mundo real y no en condiciones experimentales)?
3.      Otro dato revelado por el estudio es que con el tiempo, cada vez se han empleado más tests paramétricos. Esto tiene la ventaja de que es más fácil financiar los estudios (porque requieren un tamaño muestral menor y por tanto el coste para la industria es menor), pero enormes desventajas a la hora de extrapolar resultados a pacientes en el mundo real. En primer lugar esta herramienta estadística no permite expresar resultados en términos de tasas de respuesta o recaídas. Pero esta restricción no se aplica. Se dicotomiza una variable que tiene una naturaleza continua y no dicotómica, de manera que se distorsiona la relevancia clínica real de las tasas de respuesta (Moncrieff & Kirsch, 2005). Esto es premeditado, ya que se magnifica la repercusión clínica de un efecto farmacológico. Recientemente se han reconvertido en un metaanálisis los efectos de los antipsicóticos expresados mediante escalas psicométricas a un impacto clínico real y se ha comprobado que la repercusión clínica real es sustancialmente menor (Lepping, Sambhi, Whittington, Lane, & Poole, 2011). Por lo tanto este aspecto debería ser inasumible por parte de los sistemas sanitarios, y es un elemento de los ensayos clínicos que debería ser optimizado hasta niveles aceptables. Una forma sería la incorporación de variables duras como tasas de suicidio, hospitalizaciones, grado de reinserción social o calidad de vida.
4.      Otro dato llamativo es que aún en la actualidad, el número global de estudios que describen tanto el método de aleatorización como el método de alocación de sujetos no sobrepasa el 20%, y como bien comentan los autores, dos pilares tan importantes en la valoración de la calidad metodológica no se puede entender el motivo de ocultarlos, sobre todo el la actualidad, donde se puede publicar material web adjunto al artículo, y por tanto no hay problemas de límite de espacio.
5.      Otro aspecto que no ha evolucionado en 60 años es la descripción y publicación de los motivos de abandono de los ensayos clínicos, algo que puede proporcionar una información muy valiosa ya que los abandonos son en sí mismos una variable de resultado de gran valor, puede que de mayor valor que las variables psicométricas.
Este estudio es de gran relevancia porque pone en evidencia los retos que debería asumir la investigación en psicofarmacología, sobre todo de cara al uso de estas intervenciones por parte de los sistemas sanitarios. Necesitamos en definitiva que los esfuerzos y la inversión se concentren en maximizar garantías y no tanto en multiplicar moléculas. Además puesto que los cimientos de gran parte de la práctica psiquiátrica están fundamentados en sesgos metodológicos importantes, debemos mantener una actitud crítica acerca de las intervenciones psicofarmacológicas que actualmente “se dan por sentadas”. 

Paco Martínez-Granados

Trabajos citados

Lepping, P., Sambhi, R., Whittington, R., Lane, S., & Poole, R. (2011). Clinical relevance of findings in trials of antipsychotics: Clinical relevance of findings in trials of antipsychotics. The British Journal of Psychiatry , 198, 341-345.
Moncrieff, J., & Kirsch, I. (2005). Efficacy of antidepressants in adults. BMJ (331), 155-157.

LinkWithin

Related Posts Plugin for WordPress, Blogger...