En la búsqueda de la mejor Evidencia disponible, es necesario otorgar un valor jerárquico a la Evidencia disponible, con el objetivo de tener una guía para decidir si aplicar o no una determinada intervención, tratamiento o procedimiento a partir de la cual se pueda emitir una Recomendación basada en la solidez de la Evidencia que la respalda.
El tipo de diseño de los estudios de investigación hace que éstos tengan diferentes probabilidades de incurrir en sesgos o errores sistemáticos que limiten su validez interna, permitiendo establecer según ello una jerarquía y una clasificación de los artículos científicos. La Calidad o Nivel de la Evidencia indica hasta qué punto podemos confiar en que el estimador del efecto es correcto. La Fuerza de una Recomendación indica hasta qué punto podemos confiar en que poner en práctica la recomendación conllevará más beneficio que riesgo (1). Este proceso debería ser Transparente y realizarse de forma Sistemática. (2)
El primer intento confiable para introducir rigor y trasparencia en la jerarquización de la Evidencia fue realizado hace más de 40 años por la Canadian Task Force on Preventive Health Care (CTFPHC). (3,4) La CTFPHC fue creada en el año 1976 a partir de una Conferencia de los Ministros de Sanidad de las diez provincias de Canadá para desarrollar guías de práctica clínica que respaldasen las acciones de salud preventiva. Posteriormente ese método fue adaptado por la United State Preventive Services Task Force (USPSTF), que es un grupo independiente de expertos en prevención y MBE, creado en 1984 en USA. Es el encargado de valorar de forma rigurosa la investigación clínica con el fin de evaluar las medidas preventivas, las pruebas de detección, servicios de asesoramiento, vacunas y medicamentos preventivos. (5) Desde entonces numerosas organizaciones e instituciones, entre las que destacan la US Agency for Health Care Policy and Research (actualmente denominada AHRQ)(6), el Centre for Evidence-Based Medicine de Oxford (CEBM) (7), el Scottish Intercollegiate Guidelines Network (SIGN) (8), el National Institute for Health and Clinical Excellence (NICE) (9,10) y actualmente Grade Working Group (GRADE) (11). Cada una de las instituciones mencionadas ha ido desarrollando sus propios sistemas jerárquicos. Actualmente podemos contabilizar más de cien herramientas, 19 sistemas para evaluar la Calidad de la Evidencia y 7 para graduar las Recomendaciones (12,13).
En la mayoría de las clasificaciones se opta por señalar unos Niveles de Evidencia y Grado de Recomendaciones que sólo tienen en cuenta los estudios sobre intervenciones terapéuticas. La clasificación del Centre for Evidence-Based Medicine de Oxford (CEBM), se justifica por la necesidad de evaluar no sólo las intervenciones terapéuticas y preventivas, sino también aquellas ligadas al diagnóstico, pronóstico, factores de riesgo y evaluación económica (7). Así la propuesta del Centre for Evidence-Based Medicine de Oxford (CEBM) se caracteriza por valorar la Evidencia según el área temática y el tipo de estudio que involucra al problema clínico en cuestión. Esta clasicación tiene la ventaja que nos asegura el conocimiento más ajustado a cada escenario, por su alto grado de especialización. Además aclara cómo afecta la falta de rigurosidad metodológica al diseño de los estudios, disminuyendo su valoración no sólo en la gradación de la Evidencia, sino que también en la fuerza de las Recomendaciones. Presenta algunos inconvenientes para su práctica habitual. Por una parte, vemos como en su estructura se presentan términos epidemiológicos poco amigables y con múltiples aclaraciones que hacen su lectura poco fluida y que rápidamente pueden frustrar a quien se aproxima a ella por primera vez. En su intento por abarcar todos los aspectos con la máxima exhaustividad, pierde la simpleza para hacerla aplicable (14).
El Scottish Intercollegiate Guidelines Network (SIGN) desarrolla guías de práctica clínica basadas en la Evidencia, realizadas para el Servicio Nacional de Salud (NHS) de Escocia y derivan de Revisiones Sistemáticas de la literatura cientíca diseñadas con el objetivo de reducir la variabilidad de la práctica y mejorar los resultados relevantes para los pacientes (8). La propuesta del SIGN, se originó teniendo como foco de interés la temática del tratamiento y los procedimientos terapéuticos. Se diferencia de las anteriores por su particular énfasis en el análisis cuantitativo que aportan las Revisiones Sistemáticas y otorga además importancia a la reducción del error sistemático o sesgo. Como fortaleza, es relevante destacar que considera la calidad metodológica de los estudios que componen las Revisiones Sistemáticas, situación de sumo interés, dada la alta producción anual de éstas. Como debilidad podemos señalar que no considera en la elaboración de las Recomendaciones la realidad científica y tecnológica del momento, pues éstas se crean con una rigidez que deben ser tenidas en cuenta para quienes usan con ortodoxia las recomendaciones para la implementación de la práctica clínica diaria. En 2009, el SIGN tomó la decisión de implementar el enfoque GRADE en su directriz metodológica. (15)
La iniciativa National Institute for Health and Clinical Excellence (NICE) nace del National Health Service del Reino Unido (NHS) y actualmente abarca la valoración de la Evidencia en diferentes escenarios clínicos: tratamiento, diagnóstico, pronóstico y estudios de coste-efectividad. Además incluye el tópico de la experiencia del paciente para informar preguntas de revisión (10). La clasificación de NICE opta por adaptar la clasificación de SIGN para estudios de intervención y la clasificación de Oxford para estudios de pruebas diagnósticas (9,10). Desde el año 2009 utiliza la pauta GRADE para evaluar la calidad de la Evidencia en terapia y procedimientos terapéuticos.
El Grading of Recommendations Assessment, Development and Evaluation (GRADE) surgió como una iniciativa internacional con el propósito de optimizar la evaluación de la calidad de la Evidencia y la graduación de la fuerza de las Recomendaciones, superando las limitaciones de los sistemas de clasificación previos y proponiendo un sistema nuevo que mejora la trazabilidad y la transparencia del proceso (11). El nuevo sistema para guiar los juicios complejos trata de equilibrar la necesidad de sencillez con la necesidad de considerar de forma global y transparente todos los aspectos importantes de la gradación de la Evidencia. (15) El sistema de clasificación GRADE juzga la calidad de la Evidencia para cada variable importante, teniendo en cuenta el diseño del estudio, la calidad, la consistencia y si la Evidencia es directa (16). Para hacer juicios acerca de la fuerza de la Recomendación considera el balance entre beneficios y riesgos, la calidad de la Evidencia, la aplicabilidad y el riesgo basal de la población de interés. (17)
Para clasificar la Calidad de la Evidencia el GRADE Working Group sugiere las siguientes definiciones (18): Alta: es muy poco probable que nuevos estudios cambien la confianza que tenemos en el resultado estimado. Moderada: es probable que nuevos estudios tengan un impacto importante en la confianza que tenemos en el resultado estimado y que puedan modificar el resultado. Baja: es muy probable que nuevos estudios tengan un impacto importante en la confianza que tenemos en el resultado estimado y que puedan modificar el resultado. Muy baja: cualquier resultado estimado es muy incierto.
Actualmente, más de 70 instituciones como la Organización Mundial de Salud (OMS), la Colaboración Cochrane, que es una organización sin ánimo de lucro que reúne a más de 11.500 investigadores de ciencias de la salud voluntarios en más de 90 países que aplican un riguroso y sistemático proceso de revisión de intervenciones en salud y el National Institute of Clinical Excellence (NICE) se adhieren o utilizan GRADE en la realización de sus recomendaciones.
La Academia Americana de Oftalmología (AAO) desarrolló las Guías de Patrones de Práctica Preferidos (PPP) para servir como Guías Clínicas en el cuidado del Paciente, en diferentes áreas asistenciales de la Oftalmología, entre ellas la Cirugía Refractiva. Para Clasificar la Evidencia se utiliza una escala basada en la “Scottish Intercollegiate Guideline Network (SIGN)”. Definiciones y niveles de Evidencia se describen a continuación:
I++: Meta-análisis de alta calidad, revisiones sistemáticas de estudios controlados randomizados (ECR) o ECR con muy bajo riesgo de sesgo.
I+: Meta-análisis bien conducidos, revisiones sistemáticas de ECRs, o ECRs con un bajo riesgo de sesgo.
I-: Meta-análisis, revisiones sistemáticas de ECRs, o ECRs con un alto riesgo de sesgo.
II++: Revisiones sistemáticas de alta calidad de casos y controles o estudios de cohortes; Revisiones de casos y controles y estudios de cohortes de alta calidad con un muy bajo riesgo de sesgo y una alta probabilidad de que la relación sea causal.
II+: Estudios de casos y controles o cohortes bien conducidos con un bajo riesgo de confusión o sesgo y un riesgo significativo que la relación no sea causal.
II-: Estudios de casos y controles o estudios de cohortes con un alto riesgo de confusión o sesgo y un riesgo significativo de que la relación no sea causal.
III: Estudios no analíticos (Ej.; reportes de casos, serie de casos). Las recomendaciones se basan en la calidad del cuerpo de la Evidencia.
La Calidad de la Evidencia definida por “Grading of Recommendations Assessment, Development and Evaluation (GRADE)” es la siguiente:
- Buena calidad (BC): Cuando es poco probable que investigaciones adicionales cambien o modifiquen nuestra confianza en la estimación del efecto.
- Moderada calidad (MC): Es probable que investigaciones adicionales tengan un importante impacto sobre nuestra confianza en la estimación del efecto y puedan cambiar o modificarla.
– Insuficiente calidad (IC): Cuando es muy probable que investigaciones adicionales tengan un importante impacto sobre nuestra confianza en la estimación del efecto y es probable que modifiquen la estimación; cualquier estimación del efecto es muy incierta.
Para las Recomendaciones claves para el cuidado del Paciente usa el GRADE en el que se definen los estadios siguientes:
- Fuertes recomendaciones (FR): Usadas cuando los efectos deseados de una intervención claramente son superiores a los efectos indeseados o claramente no lo son.
- Discretas recomendaciones (DR): Usados cuando las compensaciones o equilibrios son menos seguros debido a la baja calidad de la Evidencia o porque la Evidencia sugiere que los efectos deseables e indeseables estén estrechamente balanceados.
El panel clasificó las Recomendaciones de acuerdo a la importancia para el cuidado del Paciente. Esta clasificación confirma el cuidado que, según los miembros del panel, puede mejorar significativamente la calidad de tratamiento que reciba el Paciente. Los niveles de importancia son:
- Nivel A, definido como el más importante
- Nivel B, definido como moderadamente importante
- Nivel C, definido como relevante pero no crítico
La realización de una Guía de Recomendaciones exige en muchas ocasiones que los miembros del equipo que tiene como objetivo su elaboración tomen Decisiones de Grupo y Consenso. Desde la realización de preguntas clínicas a la elaboración de Recomendaciones. No hay normas en las que basarse para decidir cual es la manera más adecuada de hacerlo. De manera práctica se recurre a los métodos de consenso que se describen a continuación (13).
A) Grupos Focales: Método útil para usar en temas en los que no se dispone de información suficiente para formular una Recomendación.
B) Métodos de Consenso: Ofrecen una alternativa explícita y transparente para el proceso de toma de decisiones. La elección de uno de estos métodos formales que seguidamente describimos, está en función de las ventajas e inconvenientes de la pregunta a responder, de las necesidades del grupo y de la disponibilidad de tiempo. Es importante describir el proceso usado y sus resultados. Los casos en los que el grupo no cumple las condiciones de un grupo de consenso han de quedar reflejados en el documento, detallando los aspectos en los que no ha habido convergencia.
– Técnica de Delphi: Se realizan varios envíos por correo a los participan-tes, en el primero de ellos se pregunta sobre su opinión de un tema determinado. En envíos sucesivos los participantes reciben un resumen de los resultados de las rondas anteriores con la posibilidad de revisar sus opiniones. Los participantes no se relacionan entre sí. Las opiniones de los participantes se agregan mediante métodos estadísticos. Este método tiene la ventaja de que se realiza intercambio de información entre una cantidad importante de personas sin gran coste, tiene el inconveniente de que se pierden los aspectos positivos del debate del grupo.
– Técnica de Grupo Nominal: Es una técnica de identificación y de priorización que permite obtener resultados de manera rápida aunque con menos consenso. Los participantes convocados por correo o de manera presencial elaboran un listado individualmente, la lista de ideas se devuelve a las personas cuando están reunidas para debatir sobre ellas, posteriormente se emite un voto en privado. Es muy importante el papel del facilitador, cada idea se discute por turno y se discuten todas las ideas.
– Conferencia de Consenso: Consiste en un grupo seleccionado de 10 personas que se reúnen para conseguir un consenso, el grupo se complementa con Expertos que no toman parten de las decisiones del grupo. Tras escucharles se retiran y consideran las preguntas a la luz de la Evidencia presentada e intentan alcanzar el consenso. Las partes abiertas y las privadas del proceso son compartidas.
– Método Rand: Técnica de consenso que es una modificación del método de Delphi al que incorpora elementos de la técnica de grupo Nominal. Se considera un método más explícito y reproductible.
Recientemente han sido publicados 2 papers en el British Medical Journal (19,20) realizados por el grupo de trabajo GRADE, en los que desarrollaban los Marcos «de la Evidencia a la Decisión» (EtD) para los diferentes tipos de Recomendaciones. Los Marcos EtD han sido un proyecto desarrollado con financiación de la Unión Europea y han sido creados sobre la base del sistema GRADE. El objetivo de los Marcos EtD es ayudar a usar la Evidencia de una manera estructurada y transparente para informar las decisiones respecto de las Recomendaciones Clínicas, decisiones de Cobertura y recomendaciones o decisiones sobre el Sistema Sanitario o sobre Salud Pública.
Durante los últimos 15 años, el Grupo de Trabajo GRADE ha desarrollado criterios para pasar de la Evidencia a la Recomendación. Estos criterios se han aplicado en numerosas guías clínicas y de salud pública, y su uso ha aumentado la transparencia de las guías y ha proporcionado un método estructurado para determinar la dirección y la fuerza de una recomendación. Los Marcos EtD suponen la evolución de este método para la formulación de Recomendaciones.
Los Marcos EtD tienen una estructura común: formulación de una pregunta, evaluación de la Evidencia y conclusiones.
1) Formulación de la Pregunta:
El primer paso de la transición de la Evidencia a la Recomendación es formular una pregunta de forma clara. La sección de la pregunta de un Marco EtD incluye detalles de la pregunta siguiendo el formato PICO (Problema, Intervención, Comparación, Outcome, en español «Resultado»), (21) la perspectiva desde la cual se consideran las opciones para abordar la pregunta, subgrupos relevantes, antecedentes clave para entender la pregunta y por qué se necesita una Recomendación.
2) Evaluación:
Los Marcos EtD dejan claros los criterios que se usan para valorar las intervenciones y las opciones, los juicios del panel, la Evidencia de los estudios y las consideraciones adicionales utilizadas para informar cada juicio. Puede haber diversos juicios para uno o más subgrupos (pacientes mayores o con una enfermedad más grave) con relación a algunos o todos los criterios. Cuando son relevantes, pueden notificarse también más detalles, como desacuerdos entre los miembros del panel o resultados de las votaciones sobre los juicios donde había discrepancias.
Las instituciones pueden querer adaptar los criterios que vayan a utilizar. Por ejemplo, los encargados de elaborar guías pueden haber evaluado la prioridad de los problemas antes de formular recomendaciones y, por tanto, pueden optar por no incluir la prioridad de un problema como criterio.
Los conflictos de intereses de carácter intelectual y financiero son frecuentes y pueden afectar a los juicios y las Recomendaciones. Los encargados de elaborar guías y las instituciones responsables de las decisiones sanitarias deben considerar los conflictos de intereses cuando se haya formado un panel.
3) Conclusiones:
El proceso de elaborar conclusiones empieza con la revisión por parte del panel de los juicios para todos los criterios de su evaluación, considerando las implicaciones para la recomendación o la decisión. Según la valoración, el panel elabora conclusiones sobre la fuerza de la recomendación o el tipo de decisión. Además, el panel enuncia la recomendación o decisión de una forma concisa, clara y factible, junto con una justificación.
Los paneles de las guías pueden mostrarse reacios a formular una Recomendación a favor o en contra de una opción o intervención. Los paneles no deben dejar de formular recomendaciones solo porque haya personas que tomarían decisiones diferentes. Es más, eso es precisamente un rasgo definitorio cuando se formula una Recomendación débil. Sin embargo, una razón para no recomendar a favor o en contra de una intervención u opción es que las ventajas y las desventajas de la intervención u opción y la comparación estén tan equilibradas que el panel no se ve preparado para inclinarse hacia una dirección u otra.
Diferencias entre Marcos EtD vs sistema GRADE:
Los Marcos EtD difieren de las versiones anteriores de las tablas GRADE de la Evidencia a la Recomendación en varios aspectos. Los nuevos Marcos incluyen nuevos criterios y requieren resúmenes más explícitos y estructurados para tratar cada criterio, más allá de los resúmenes de los hallazgos para los efectos de las intervenciones. Los Marcos incluyen tanto Decisiones como Recomendaciones de cobertura, de sistemas sanitarios y de salud pública, y simplifican la toma de decisiones basada en Recomendaciones. Precisan paneles que especifiquen la perspectiva que se ha adoptado y las diferencias en sus juicios para los criterios específicos en subgrupos relevantes. Ofrecen una estructura más detallada y pueden ayudar a facilitar los debates del panel, a que dichos debates sean más eficientes y a clarificar la evidencia utilizada para informarlos. Además, ayudan a garantizar que las Recomendaciones y las Decisiones deriven de los juicios sobre los criterios relevantes, y hacen que el fundamento de las recomendaciones sea más transparente.
Una potencial limitación de los Marcos EtD es su mayor complejidad respecto de las antiguas tablas GRADE de la Evidencia a la Recomendación. Dado que las decisiones sanitarias son complejas, cualquier sistema para pasar de la Evidencia a la Decisión necesita un equilibrio entre la simplicidad y la completa y transparente consideración de todos los factores importantes. A pesar de que los Marcos EtD son más complejos que los anteriores métodos sugeridos por el Grupo de Trabajo de GRADE, aportan claridad y hacen que los juicios detrás de una decisión sean más explícitos. No obstante, como sucede con el uso de otros métodos, dominar los Marcos EtD requiere práctica y familiarización.
Los Marcos EtD ofrecen un método para estructurar la reflexión que puede ayudar a los encargados de formular Recomendaciones, o de tomar Decisiones, a ser más sistemáticos y explícitos en los juicios que hacen, la información que usan para informar dichos juicios, las consideraciones adicionales que realizan y el fundamento para las recomendaciones y las decisiones. En el caso de los usuarios de Recomendaciones y los afectados por las Decisiones, los Marcos EtD pueden ayudar a garantizar la confianza que pueden depositar en esas Recomendaciones o Decisiones, permitirles valorar su fundamento y facilitar su adaptación en su entorno.
Si tienes alguna pregunta, duda o comentario puedes realizármela en nuestro muro de Facebook:
(1) Marzo-Castillejo M y Alonso-Coello P. Clasificación de la calidad de la evidencia y fuerza de las recomendaciones. Aten Primaria. 2006; 37(1):40-50
(2) National Institute for Clinical Excelence (NICE). Clinical guidelines development methods. [Internet]. London: NICE ; February 2004 (updated March 2005
(3) Canadian Task Force on Preventive Health Care. History and methods. Disponible en: http://www.ctfphc.org
(4) Canadian Task Force on Preventive Health Care. New grades for recommendations from the Canadian Task Force on Preventive Health Care. CMAJ 2003;169:207-8 7. Harris RP, Helfand M, Woolf SH, Lohr KN, Mulrow CD, Teutsch SM for the Methods Word Group, third U.S. et al. Preventive Services Task Force. Current methods of the U.S. Preventive Services Task Force: a review of the process. Am J Prev Med 2001;20(3S):21- 35
(5) U.S. Preventive Services Task Force Ratings: Strength of Recommendations and Quality of Evidence. Guide to Clinical Preventive Services. [Internet] Third Edition: Periodic Updates, 2000-2003. Rockville: Agency for Healthcare Research and Quality. [acceso 24 de marzo de 2005]. Disponible en: http://www.ahrq.gov/clinic/ 3rduspstf/ratings.htm
(6) Agency for Healthcare Research and Quality (AHRQ). EPC Evidence Reports [Internet]. Rockville: AHRQ. Disponible en: http://www.ahrq.gov/clinic/epcindex. htm#methodology
(7) Centre for Evidence-Based Medicine de Oxford. Levels of Evidence and Grades of Recommendation [Internet]. Oxford: Centre for Evidence-Based Medicine de Oxford [acceso 24 de marzo del 2005]. Disponible en http://www.cebm.net/levels_of_evidence. asp
(8) Scotish Intercollegiate Guidelines Network. A guideline developers ́ handbook. Edinburgh: Scottish Intercollegiate Guidelines NetworK; February 2001, updated May 2004 Disponible en:http://www.show.scot.nhs.uk/sign/guidelines/fulltext/50/index.html
(9) National Institute for Clinical Excellence (NICE). Guidelines Development methods. Guideline Development Methods- Chapter 7: Reviewing and grading the evidence [Internet]. London: NICE; February 2004 (updated March 2005) [acceso 24 de marzo del 2005] Disponible en: http://www.nice.org.uk/pdf/GDM_Chap- ter7_0305.pdf
(10) National Institute for Clinical Excellence (NICE). Guidelines Development methods. Guideline Development Methods – Chapter 11 Creating guideline recommendations [Internet]. London: NICE; February 2004 (updated March 2005) [acceso 24 de marzo del 2005] Disponible en: http://www.nice.org.uk/pdf/GDM_Chap- ter11_0305.pdf
(11) The GRADE Working Group. Systems for grading the quality of evidence and the strength of recommendations I: Critical appraisal of existing approaches. BMC Health Serv Res 2004;4:38. http://www.biomedcentral.com/content/pdf/1472-6963-4-38.pdf
(12) West S, King V, Carey TS, et al. Systems to Rate the Strength of Scientific Evidence. Evidence Report/Technology Assessment No. 47 (Prepared by the Research Triangle Institute-University of North Carolina Evidence-based Practice Center under Contract No. 290-97-0011). AHRQ Publication No. 02-E016. Rockville, MD: Agency for Healthcare Research and Quality. April 2002.
(13) Mercè Marzo Castillejo, Cristina Viana Zulaica. Calidad de la Evidencia y grado de Recomendación. Miembros de grupos de la Red Temática de Investigación sobre Medicina Basada en la Evidencia (Expte FIS: G03/090). Guías Clínicas 2007; 7 Supl 1: 6
(14) Manterola C, Zavando D. (Grupo MINCIR). Cómo interpretar los “Niveles de Evidencia” en los diferentes escenarios clínicos. Rev Chil Cir 2009; 61: 582-95
(15) Carlos Manterola, Claudia Asenjo-Lobos y Tamara Otzen. Jerarquización de la evidencia. Niveles de evidencia y grados de recomendación de uso actual. Rev Chilena Infectol 2014; 31 (6): 705-718
(16) Marzo Castillejo m., Viana Zulaica C., Elaboración y Diseño de una GPC. Síntesis de la Evidencia. En Louro González y Marín León I.(coord.) Guías de Práctica Clínica.Casitétides. A Coruña.2006.
(17) Marzo-Castillejo M, Alonso-Coello P, Rotaeche del Campo R. ¿Cómo clasificar la calidad de la evidencia y la fuerza de las recomendaciones?. Aten Primaria. 2006; 37(1):5-8.
(18) Marzo-Castillejo M y Alonso-Coello P. Clasificación de la calidad de la evidencia y fuerza de las recomendaciones. Aten Primaria. 2006; 37(1):40-50.
(19) Alonso-Coello Pablo, Schünemann Holger J, Moberg Jenny, Brignardello-Petersen Romina, AklElie A, Davoli Marina et al. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 1: Introduction BMJ 2016; 353 :i2016
(20) Alonso-Coello Pablo, Oxman Andrew D, MobergJenny, Brignardello-Petersen Romina, Akl Elie A, Davoli Marina et al. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 2: Clinical practice guidelines BMJ 2016; 353 :i2089
(21) W.S. Richardson, M.C. Wilson, J. Nishikawa, et al. The well-built clinical question: a key to evidence-based decisions. ACP J Club., 123 (1995), pp. A12-A13
Imágenes: Cochrane Collaboration, American Academy of Ophthalmology, Tripdatabase, Epistemonikos