La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas
Índice de contenidos
Introducción
La medición es un proceso inherente tanto a la práctica como a la investigación clínica. Mientras que algunas variables son relativamente sencillas de medir (como el peso o la tensión arterial) otras comportan cierto grado de subjetividad que hace especialmente difícil su medición, como la intensidad de dolor o el concepto de calidad de vida. En cualquier caso, el proceso de medición conlleva siempre algún grado de error. Existen factores asociados a los individuos, al observador o al instrumento de medida que pueden influir en la variación de las mediciones. En la medida de la temperatura corporal, por ejemplo, pueden aparecer errores en el registro debidos tanto al estado del paciente, como a defectos en el termómetro utilizado o a la objetividad del observador.La medición es un proceso inherente tanto a la práctica como a la investigación clínica. Mientras que algunas variables son relativamente sencillas de medir (como el peso o la tensión arterial) otras comportan cierto grado de subjetividad que hace especialmente difícil su medición, como la intensidad de dolor o el concepto de calidad de vida. En cualquier caso, el proceso de medición conlleva siempre algún grado de error. Existen factores asociados a los individuos, al observador o al instrumento de medida que pueden influir en la variación de las mediciones. En la medida de la temperatura corporal, por ejemplo, pueden aparecer errores en el registro debidos tanto al estado del paciente, como a defectos en el termómetro utilizado o a la objetividad del observador.
Cualquier estudio epidemiológico debe garantizar la calidad de sus mediciones, no sólo porque condicionará en gran medida la validez de sus conclusiones, sino por la importancia de las decisiones clínicas que se apoyen en esa investigación. La calidad de una medida depende tanto de su validez como de su fiabilidad. Mientras que la validez expresa el grado en el que realmente se mide el fenómeno de interés, la fiabilidad indica hasta qué punto se obtienen los mismos valores al efectuar la medición en más de una ocasión, bajo condiciones similares. El que una medida sea muy precisa no implica, sin embargo, que sea necesariamente válida. Así, si se realizan dos mediciones consecutivas de la presión arterial de un paciente con un esfigmomanómetro mal calibrado los valores obtenidos seguramente serán parecidos, aunque totalmente inexactos.
En los estudios que tratan de evaluar la validez de una medida se comparan sus resultados con los obtenidos mediante una prueba de referencia (gold standard) que se sabe válida y fiable para la medición del fenómeno de interés. Cuando el objetivo se centra en la fiabilidad de una medición, se repite el proceso de medida para evaluar la concordancia entre las distintas mediciones. En un estudio de la fiabilidad pueden valorarse los siguientes aspectos:
- Repetibilidad: indica hasta qué punto un instrumento proporciona resultados similares cuando se aplica a una misma persona en más de una ocasión, pero en idénticas condiciones.
- Concordancia intraobservador: tiene por objetivo evaluar el grado de consistencia al efectuar la medición de un observador consigo mismo.
- Concordancia interobservador: se refiere a la consistencia entre dos observadores distintos cuando evalúan una misma medida en un mismo individuo.
- Concordancia entre métodos de medición: cuando existen diferentes métodos de medida para un mismo fenómeno, es interesante estudiar hasta qué punto los resultados obtenidos con ambos instrumentos son equivalentes.
El Coeficiente de Correlación Intraclase
Para el caso de variables cuantitativas, es frecuente que el análisis de la concordancia se aborde mediante técnicas estadísticas inapropiadas. Con frecuencia ha sido utilizado el cálculo del coeficiente de correlación de lineal (r) de Pearson como índice de concordancia. Sin embargo, ésta no resulta una medida adecuada del grado de acuerdo entre dos mediciones, ya que si dos instrumentos miden sistemáticamente cantidades diferentes uno del otro, la correlación puede ser perfecta (r=1), a pesar de que la concordancia sea nula. Consideremos como ejemplo los datos de la Tabla 1, en la que se comparan las mediciones de tensión arterial con dos instrumentos diferentes. El instrumento B mide sistemáticamente 1mm Hg más que el instrumento A. Al representar gráficamente la correlación entre ambas mediciones, se objetiva que la correlación es la máxima posible (r=1), a pesar de que ninguna de las mediciones ha concordado (Figura 1). No se debe olvidar que el coeficiente de correlación de Pearson no proporciona información sobre el acuerdo observado, y solamente mide la asociación lineal entre dos variables. Así mismo, al calcularse a partir de los pares ordenados de mediciones, si varía el orden también cambia el valor del coeficiente, mientras que un cambio en las escalas de medida no afecta a la correlación pero sí afecta a la concordancia. A su vez, debemos mencionar que la idea de que si el coeficiente de correlación entre dos medidas es significativamente diferente de cero la fiabilidad es buena, es incorrecto. El coeficiente de correlación lineal puede ser muy pequeño y resultar significativo si el tamaño muestral es suficientemente grande. Por último, tampoco la comparación de medias mediante un test t de Student con datos apareados es una técnica adecuada para este tipo de análisis.
Desde el punto de vista matemático, el índice más apropiado para cuantificar la concordancia entre diferentes mediciones de una variable numérica es el llamado coeficiente de correlación intraclase (CCI). Dicho coeficiente estima el promedio de las correlaciones entre todas las posibles ordenaciones de los pares de observaciones disponibles y, por lo tanto, evita el problema de la dependencia del orden del coeficiente de correlación. Así mismo, extiende su uso al caso en el que se disponga de más de dos observaciones por sujeto.
Sin embargo, una de las principales limitaciones del CCI es la dificultad de su cálculo, ya que debe ser estimado de distintas formas dependiendo del diseño del estudio. La forma de cálculo más habitual se basa en un modelo de análisis de la varianza (ANOVA) con medidas repetidas (Tabla 2). La idea es que la variabilidad total de las mediciones se puede descomponer en dos componentes: la variabilidad debida a las diferencias entre los distintos sujetos y la debida a las diferencias entre las medidas para cada sujeto. Esta última, a su vez, depende de la variabilidad entre observaciones y una variabilidad residual o aleatoria asociada al error que conlleva toda medición. El CCI se define entonces como la proporción de la variabilidad total que se debe a la variabilidad de los sujetos.
En la actualidad el valor del CCI puede obtenerse de modo directo con algunos programas informáticos como el SPSS. Otra forma sencilla de obtener el valor del CCI es a partir de una tabla ANOVA para medidas repetidas. Como ejemplo, en la Tabla 3 se representan los datos de un estudio hipotético en el que se tomó la tensión arterial sistólica en 30 pacientes utilizando dos métodos diferentes. Si se representan gráficamente estos datos, indicando el coeficiente de correlación r=0,997 una asociación prácticamente lineal (Figura 2). A partir de la tabla ANOVA correspondiente (Tabla 4), el CCI se puede calcular como:
donde k es el número de observaciones que se toman en cada sujeto. En el ejemplo:
Como toda proporción, los valores del CCI pueden oscilar entre 0 y 1, de modo que la máxima concordancia posible corresponde a un valor de CCI=1. En este caso, toda la variabilidad observada se explicaría por las diferencias entre sujetos y no por las diferencias entre los métodos de medición o los diferentes observadores. Por otro lado, el valor CCI=0 se obtiene cuando la concordancia observada es igual a la que se esperaría que ocurriera sólo por azar. A la hora de interpretar los valores del CCI, toda clasificación es subjetiva, si bien resulta útil disponer de una clasificación como la que proponen otros autores (Tabla 5).
Hasta ahora, se ha presentado la forma más habitual de cálculo del CCI. Para su cálculo en otras situaciones, así como para la obtención de intervalos de confianza, puede recurrirse a referencias más especializadas.
A pesar de ser la medida de concordancia más adecuada par el caso de variables numéricas, el CCI presenta ciertas limitaciones. Junto a la dificultad inherente a su cálculo, el hecho de que se trate de una prueba paramétrica limita su uso al caso en el que se verifiquen las hipótesis necesarias. A saber: variables distribuidas según una normal, igualdad de varianzas e independencia entre los errores de cada observador. Así mismo, el valor del CCI depende en gran medida de la variabilidad de los valores observados: cuanto más homogénea sea la muestra estudiada, más bajo tenderá a ser el valor del CCI. Pero quizás lo que más ha limitado la difusión del uso del CCI en la literatura médica es la carencia de interpretación clínica, que ha propiciado la aparición de otros métodos de análisis, mucho más intuitivo y fácilmente interpretables, que se exponen a continuación.
Análisis de las diferencias individuales: método de Bland y Altman
Un sencillo procedimiento gráfico para evaluar la concordancia entre dos sistemas de medida es el propuesto por Bland y Altman. Dicho procedimiento consiste en representar gráficamente las diferencias entre dos mediciones frente a su media. Utilizaremos para ilustrar dicha metodología las mediciones de tensión arterial sistólica obtenidas por medio de un esfigmomanómetro de mercurio en el brazo y la obtenida por medio de un monitor autoinflable electrónico en el dedo índice. Dichas mediciones fueron realizadas a 159 alumnos de las escuelas universitarias de enfermería de A Coruña y Ferrol.
La correlación existente entre ambas mediciones (r=0,202; p<0.05) se presenta en la Figura 3, donde se objetiva una correlación positiva y estadísticamente diferente de cero. Si se representan en un diagrama de dispersión en el eje de ordenadas las diferencias entre ambos procedimientos, y en el eje de abscisas el promedio de ambas mediciones, se obtiene la Figura 4. En dicha figura objetivamos que muy pocas mediciones han concordado (diferencia igual a cero). Por el contrario, la mayoría de las veces el aparato electrónico digital ha proporcionado valores superiores al esfigmomanómetro de mercurio, de hecho la media de dichas diferencias (electrónico – mercurio) es positiva (22,5). Además, dicha gráfica permite objetivar que la discordancia se incrementa a medida que se obtienen valores más elevados de TAS. Por lo tanto, las diferencias no son homogéneas a lo largo del eje horizontal. La distribución de las diferencias se puede a su vez valorar realizando un histograma de las mismas (Figura 5), donde se objetiva claramente el predominio de diferencias positivas mostrando por lo tanto cómo el aparato electrónico claramente proporciona valores más elevados que el esfigmomanómetro de mercurio. Es evidente por lo tanto que la falta de homogeneidad de las diferencias, así como la magnitud de la misma, invalida la utilización del monitor digital del dedo índice como método en este estudio para tomar la tensión arterial.
Un aspecto muy importante de la metodología de Bland y Altman es que proporciona además unos límites de concordancia a partir del cálculo del intervalo de confianza para la diferencia de dos mediciones. Como es bien sabido, el intervalo de dos desviaciones estándar alrededor de la media de las diferencias incluye el 95% de las diferencias observadas. Estos valores deben compararse con los límites de concordancia que se hayan establecido previamente al inicio del estudio para concluir si las diferencias observadas son o no clínicamente relevantes.
Otros métodos de análisis
Distintos autores han propuesto algunas técnicas alternativas para el análisis de la concordancia para mediciones numéricas, principalmente desde un punto de vista gráfico, que vienen a complementar el método de Bland y Altman. Una propuesta sencilla y muy reciente se basa en construir una gráfica, similar a las de Kaplan-Meier que se utilizan en el análisis de supervivencia, donde en el eje horizontal se representa la diferencia absoluta entre dos mediciones para cada sujeto y en el eje vertical la proporción de casos en los que las discrepancias igualan al menos cada una de las diferencias observadas. La gráfica se construye así igual que en un análisis de supervivencia, donde ningún caso es censurado, y el papel de la variable “tiempo” lo juega aquí la diferencia absoluta entre las mediciones.
Si retomamos el ejemplo anterior (Tabla 3), en la Figura 6 se muestra el análisis de las diferencias individuales según la metodología de Bland y Altman. Del gráfico se deduce claramente que el método B proporciona con frecuencia valores más bajos de tensión arterial, con una diferencia media de -3,23. De modo complementario, en la Tabla 6 se muestra la magnitud, en términos absolutos, de las dos mediciones de tensión arterial en cada paciente, así como el porcentaje acumulado de casos en los que se supera cada una de estas diferencias. A partir de estos datos puede construirse fácilmente la Figura 7, en la que se muestra el desacuerdo existente entre ambos métodos. Dicho gráfico permite evaluar si la diferencia tiene o no alguna relevancia desde un punto de vista clínico. Así, por ejemplo, si establecemos como aceptable un margen de error entre las mediciones de 2 mmHg se obtiene un porcentaje de acuerdo de un 20%, mientras que la concordancia alcanza el 90% si se admiten diferencias de hasta 8 mmHg, lo cual resulta aceptable desde un punto de vista clínico.
Al igual que el método propuesto por Bland y Altman, el principal atractivo de esta alternativa es que permite expresar sus resultados gráficamente, relacionándolos con unos límites de concordancia preestablecidos según criterios clínicos antes del estudio, lo que los hace especialmente atractivos para los profesionales sanitarios. Así mismo, permite contrastar si el grado de acuerdo depende de alguna otra covariable, construyendo gráficos independientes, uno para cada nivel de la variable. Incluso es posible utilizar el test del log-rank para testar la existencia de diferencias significativas entre esas curvas. No obstante, al trabajar con las diferencias absolutas, este método, al contrario que el de Bland y Altman, no permite observar si existe una diferencia sistemática a favor de alguna de las dos técnicas u observadores, y tampoco comprobar si la magnitud de dicha diferencia se modifica en relación a la magnitud de la medida.
En definitiva, el problema del análisis de la concordancia en el caso de variables numéricas puede abordarse según diferentes metodologías. Lejos de recomendar el uso estándar de alguna de estas técnicas, más bien deben considerarse como métodos de análisis que ofrecen información complementaria. En cualquier caso, es conveniente insistir una vez más en la conveniencia de garantizar la validez y fiabilidad de los instrumentos de medida utilizados habitualmente en la práctica e investigación clínica. No debemos olvidar que un estudio bien diseñado, ejecutado y analizado fracasará si la información que se obtiene es inexacta o poco fiable.
Anexo
Bibliografía
- Argimon Pallán JM, Jiménez Vill J. Métodos de investigación clínica y epidemiológica. 2ª ed. Madrid: Harcorurt; 2000.
- Hernández Aguado I, Porta Serra M, Miralles M, García Benavides F, Bolúmar F. La cuantificación de la variabilidad en las observaciones clínicas. Med Clin (Barc) 1990; 95: 424-429. [Medline]
- Sackett DL. A primer on the precision and accuracy of the clinical examination. JAMA 1992; 267: 2638-2644. [Medline]
- Latour J, Abraira V, Cabello JB, López Sánchez J. Métodos de investigación en cardiología clínica (IV). Las mediciones en clínicas en cardiología: validez y errores de medición. Rev Esp Cardiol 1997; 50(2): 117-128. [Medline] [Texto completo]
- Pita Fernández S, Pértega Díaz S. Pruebas diagnósticas. Cad Aten Primaria 2003; 10: 120-124. [Texto completo]
- Fleiss JL. The design and analysis of clinical experiments. New York: Wiley; 1986-
- Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics 1977; 33: 159-174. [Medline]
- Ripolles Orti M, Martín Rioboo E, Díaz Moreno A, Aranguren Baena B, Murcia Simón M, Toledano Medina A, Fonseca Del Pozo FJ. Concordancia en la medición de presión arterial entre diferentes profesionales sanitarios. ¿Son fiables los esfigmomanómetros de mercurio? Aten Primaria 2001; 27(4): 234-43. [Medline] [Texto completo]
- Divison JA, Carbayo J, Sanchis C, Artigao LM. Concordancia entre las automedidas domiciliarias y la monitorización ambulatoria de la presión arterial. Med Clin (Barc). 2001; 116(19): 759. [Medline]
- López de Ullibarri Galparsoro I, Pita Fernández S. Medidas de concordancia: el índice Kappa. Cad Aten Primaria 1999; 6: 169-171. [Texto completo]
- Prieto L, Lamarca R, Casado A. La evaluación de la fiabilidad en las observaciones clínicas: el coeficiente de correlación intraclase. Med Clin 1998: 110(4): 142-145. [Medline]
- Bravo G, Potvin L. Estimating the reliability of continuous measures with Cronbach's alpha or the intraclass correlation coefficient: toward the integration of two traditions. J Clin Epidemiol. 1991; 44(4-5): 381-90. [Medline]
- Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1986; 1: 307-310. [Medline]
- Monti KL. Folded empirical distribution function curves – mountain plots. Am Stat 1995; 49: 342-345. [ISI]
- Krouwer JS, Monti KL. A simple, graphical method to evaluate laboratory assays. Eur J Clin Chem Clin Biochem 1995; 33: 525-527. [Medline]
- Luiz RR, Costa JL, Kale PL, Werneck GL. Assessment of agreement of a quantitative variable: a new graphical approach. J Clin Epidemiol 2003; 56(10): 963-967. [Medline]
- Bland JM, Altman DG. Measurement error and correlation coefficients. BMJ 1996; 313: 41-42. [Medline] [Texto completo]
- Bartko JJ. The intraclass correlation coefficient as a measure of reliability. Psychol Rep 1966; 19: 3-11. [Medline]
- McGraw KO, Wong SP. Forming inferences about some intraclass correlation coefficients. Psychol Methods 1996; 1: 30-46.
Autores
Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Universitario de A Coruña (España)