Therapeutic impact means: relative versus absolute
Médias de impacto terapêutico: relativo versus absoluto
Luis C. L. Correia; Vitor C. A. Correia
Coining the term “statistical significance” was a major historical mistake. I don’t know who had this terrible idea.
Significance comes from the Latin significans, which connotes “value,” “importance.” When we statistically test an association, we do not evaluate the importance of the association, only its veracity. Nor can we claim that a “significant” association is causal, much less the relevance of that causality. Thus, the statistical significance only suggests that it would be very unusual that such an association showed up by chance if the null hypothesis were true.
To make things even more complicated, the human mind works in a more categorical way (yes or no) than quantitative. For example, we are happy with the observation “this treatment reduces mortality,” and very few times we seek to know how much. Therefore, I propose that the term “statistical significance” is urgently replaced by “statistical validity.”
To achieve statistical validity, we show that a phenomenon is true. The second step, then, would be to evaluate the real significance (relevance) of the phenomenon. For this, we need to assess the relative and absolute effect. In this article, we will review the meaning and importance of these measures.
THE SIZE OF THE EFFECT
The human mind is more affective than quantitative. The Nobel Laureate psychologist Daniel Kahneman described the affect bias, which is one of the causes of mistaking risk for injury, we overestimate small risks and underestimate high risks. Aspects related to emotion (affect) interfere in our perception of the reality, as Immanuel Kant said.
We are more afraid of getting on a plane than entering the bathroom to take a shower, despite the risk of death from a fall in the bathroom be far greater than the risk of death by plane crash. We fear more yellow fever than the flu, even though the risk of death from influenza is much greater than death from yellow fever.
When describing a treatment, we usually do not quantify the intrinsic benefit, we just characterize it. We simply say, “this treatment is beneficial,” or “this treatment reduces mortality.” Yes, but how much does it reduce?
When we quantify, we run the risk of overvaluing moderate-impact treatments or underestimate high-impact treatments. And that comes attached to the “affective” and not the quantitative way we analyze our behaviors.
HOW TO MEASURE THE SIZE OF THE EFFECT?
The traditional evidence-based medicine approach emphasizes the absolute reduction of the risk and the number needed to treat (NNT) as the main measures of the size of the effect, to the detriment of the relative reduction of the risk and of the relative risk.
It is common to say, “the relative misleads, what counts is the absolute”. I often use the inheritance example. If I have won 50% of the fortune of an uncle (relative), can I say that I became rich? It seems a lot, but if the fortune is 1 real, I have won only 50 cents. What counts is the absolute.
But that’s only part of the story. The relative is of great importance and essential for medical thinking. In fact, the absolute risk reduction (with which we calculated the NNT - Number Needed to Treat) is not an intrinsic property of the treatment, it is a property of the patient receiving the treatment. For one single treatment, the NNT varies from patient to patient, depending on the baseline risk. Though, we can say that the treatment does not have NNT. Who has NNT is that type of patient who will receive that treatment.
In fact, the intrinsic property of the treatment is the relative risk reduction, which tends to be constant in different risk subgroups. Usually, subgroup analysis does not show an interaction between baseline risk and the relative treatment impact.
A small-effect treatment (relative risk reduction) can provide a great absolute reduction (small NNT) if applied to a population of very high risk. Similarly, a big-effect treatment may have a small absolute reduction (ARR) if applied to a low-risk population. Therefore, the relative reduction (RRR) shows the size of the intrinsic effect of the treatment, while the absolute reduction shows the impact of the treatment on a certain type of patient, with a certain kind of baseline risk. We can say that the RRR translates the effect size and the ARR, the impact of the treatment. Therefore, we must measure the size of the intrinsic effect of the treatment by the relative risk reduction, while the NNT is the concrete impact in a given patient.
If we had the chance to know just one information about a treatment, which would we choose? The relative or the absolute reduction?
The relative, of course. Because knowing the relative reduction, one can calculate the absolute reduction of each patient individually, provided that we know the patient’s absolute risk.
For example, let’s say that the relative risk reduction is 33%. Based on a risk score, we estimate 10% as the patient’s baseline risk. Thus, the absolute risk reduction of this patient is 33% x 10%=3.3% (NNT = 100/3.3=30).
As a reference for the analysis, good treatments show a relative risk reduction of around 30 to 40%.
ANGIOTENSIN-CONVERTING ENZYME INHIBITOR IN HEART FAILURE (ACEI)
It is surprising to note that the ACEI inhibitor treatment in heart failure is of small effect size. According to the clinical trial SOLVD,{Yusuf, 1991 # 125} the relative risk reduction of ACEI is only 16% lower than most cardiological treatments that work. Almost nobody pays attention to it, because the mortality of the disease is high, giving a good NNT. This is a small-effect treatment, but of reasonable impact due to the severity of the disease.
If I say that the absolute reduction in SOLVD was 4.5%, it looks pretty good. However, the picture changes quite a lot if, instead of showing the absolute reduction, we show the numbers of each group. In the placebo group, the mortality rate was 39.7%, and this reduced to 35.2%. Notice that these two numbers are not so different. Many people without enalapril die (slightly more than 1/3 of the patients), but many people continue to die with enalapril (slightly more than 1/3 of the patients). It does not change much. When we look from this perspective, we see that the size of the treatment effect is small.
Moreover, the confidence interval of the relative risk reduction presented in that study of moderate size (2,500 patients) is wide, from 5 to 20%. Therefore, this treatment can provide a relative risk reduction as low as 5%. Yet, the extreme upper confidence interval (20%) is not so different than the spot measure of 16%. As far as the size of the effect, it is important to look at the accuracy of the estimate described by the confidence interval.
I am not downgrading the importance of this treatment in heart failure, even because ACEI also helps to control the symptoms. But it’s important to have the perspective of the size of the effect, alongside the perspective of NNT.
This perspective reduces the affect bias in favor of the ACE inhibitor, helping us to get our “feet on the ground” and allowing better analysis of the risk-benefit trade-off. We will be thriftier when facing certain patients, such as hypotensive (susceptible to syncope) or with a certain degree of renal dysfunction. With no anguish, we will insist less on high doses (which could trigger syncope episodes) when we think of the panacea of a treatment.
It is very interesting to revisit these data from the past. In the cardiology mind, ACEI is a panacea. It was 1988. I was in the second year of the school of medicine when the CONSENSUS study was published in the New England Journal of Medicine, a seminal clinical trial to test of this hypothesis, always cited to support the ACEI effectiveness in congestive heart failure (CHF). But in fact, this is a tiny study (only 253 patients), which was prematurely interrupted with only 118 outcomes (truncated with less than 200 outcomes is a risk of inaccuracy). That study showed a relative risk reduction of 40%. That’s what remained printed in the affective mind of the cardiologists.
One of the best ways to retain learning is to make it happen with emotion. A child burned by touching a hot pot (trauma) will certainly learn that a pot may burn the hand. When CONSENSUS was published, the news about the relative risk reduction of 40% came as such a novelty that thrilled, we retained this information that will be forever ingrained in our minds. Then, SOLVD came, a larger study that showed a more accurate value of 16% relative risk reduction. But it wasn’t the 16% (small effect) that remained in our affective memory, but the 40% that overwhelmed more and overwhelmed first.
NOVEL ORAL ANTICOAGULANTS
There is a common misconception about these drugs. We believe that their biggest advantage is the convenience of not requiring the prothrombin time tests. Usually, we think that the effectiveness of the novel oral anticoagulants is equivalent to the traditional and cheap warfarin. Therefore, we present the two options to the patient: a convenient and high-cost drug versus another less convenient and of low cost.
But this common reasoning rules out an important fact. The biggest advantage of these drugs is not convenience. The biggest advantage is its superior effect compared to warfarin. In reality, these drugs, when used in its optimal dose, are much better than warfarin. This superiority is more important than the so-mentioned convenience.
In fact, it is very difficult to show the superiority of a new treatment in relation to a traditional and effective treatment. And if the new treatment is better than the traditional, this superiority tends to be small. Unlike the usual, the novel anticoagulants are much better than warfarin. In the RELY study, the dose of 150 mg of dabigatran promoted a relative risk reduction of embolic events of 34% in patients with atrial fibrillation, something that is at the same level of good treatment compared to placebo. This is almost unprecedented in the treatment versus treatment comparison. Likewise, the ARISTOTLE study shows that apixaban promotes a relative reduction of 21% when compared to warfarin.
What I mean is that using warfarin instead of a novel anticoagulant is the same as choosing a worse treatment. So, putting convenience versus price as the main trade-off to this kind of shared decision is a mistake. The right trade-off is efficacy versus price, and this efficacy comes with more convenience.
The main focus on convenience, to the detriment of obvious superiority, is an example of mistake due to the lack of perspective of the relative risk reduction.
THE PATIENT’S VIEW
This article has reviewed the main concepts about impact measures. Finally, we should consider that the most relevant measure is more subjective and difficult to quantify. The most relevant measure of the significance of an approach is the patient’s happiness with the final outcome. There’s no point in showing a risk reduction if the patient is free from the outcome, but imprisoned in his/her dissatisfaction.
Relative and absolute risk analysis does not provide all the answers. First, they are probabilistic, not a guarantee. Second, the prevention of the undesired outcome can be mediated by an approach that brings discomfort and patient’s dissatisfaction if it is against his/her values.
In the end, the most important is that our recommendations are primarily influenced by the patient’s preference.
Resumo
A criação do termo “significância estatística” foi um grande erro histórico. Não sei quem teve essa péssima ideia.
Significância vem do latim significans, que conota “valor”, “importância”. Quando testamos estatisticamente uma associação, não avaliamos a importância da associação, apenas sua veracidade. Nem podemos afirmar que uma associação “significante” é causal, muito menos a relevância dessa causalidade. Sendo assim, a significância estatística apenas sugere que seria muito inusitado que tal associação aparecesse por acaso, se a hipótese nula fosse verdadeira.
Para complicar, a mente humana funciona de forma mais categórica (sim ou não) do que quantitativa. Por exemplo, nos contentamos com a observação “este tratamento reduz a mortalidade”, e poucas vezes procuramos saber o quanto. Sendo assim, proponho que o termo “significância estatística” seja com urgência substituído por “validade estatística”.
Ao alcançar validade estatística, mostramos que um fenômeno é verdadeiro. O segundo passo, agora sim, seria avaliar a real significância (relevância) do fenômeno. Para isso precisamos avaliar o efeito relativo e absoluto. Neste artigo, revisaremos o significado e importâncias dessas medidas.
O TAMANHO DO EFEITO
A mente humana é mais afetiva do que quantitativa. O psicólogo laureado com o Nobel, Daniel Kahneman, descreveu o viés de afeto (affect bias), que é uma das causas de confundirmos risco com lesão, superestimarmos riscos pequenos e subestimarmos riscos altos. Aspectos relacionados à emoção (afeto) interferem em nossa percepção da realidade, como já dizia Immanuel Kant.
Temos mais medo de entrar em um avião do que de entrar no banheiro para tomar banho, apesar do risco de morte por queda no banheiro ser muito maior do que o risco de morte por queda do avião. Tememos mais febre amarela do que gripe, mesmo que o risco de morte por gripe seja muito maior do que morte por febre amarela.
Ao descrevermos um tratamento, normalmente não quantificamos o benefício intrínseco, apenas o qualificamos. Nos limitamos a dizer “este tratamento é benéfico” ou “este tratamento reduz mortalidade”. Sim, mas quanto reduz?
Ao faltarmos na quantificação, caímos no risco de supervalorizar tratamentos de moderado impacto ou subvalorizar tratamentos de alto impacto. E isso vem ligado à forma “afetiva” e não quantitativa de analisarmos as nossas condutas.
COMO MENSURAR O TAMANHO DO EFEITO?
A abordagem tradicional da medicina baseada em evidências enfatiza a redução absoluta do risco e o número necessário a tratar (NNT) como as principais medidas de tamanho de efeito, em detrimento da redução relativa do risco e do risco relativo.
É comum dizermos, “o relativo engana, o que vale é o absoluto”. Eu mesmo costumo usar o exemplo da herança. Se ganhei 50% da fortuna de um tio (relativo), posso dizer que fiquei rico? Parece muito, mas se a fortuna for 1 real, ganhei apenas 50 centavos. O que vale é o absoluto.
Porém isso é só uma parte da história. O relativo tem grande importância e é essencial para o pensamento médico. Na verdade, a redução absoluta do risco (com a qual calculamos o NNT – Number Needed to Treat) não é uma propriedade intrínseca do tratamento, é uma propriedade do paciente que recebe o tratamento. Para um mesmo tratamento, o NNT varia de paciente para paciente, a depender de seu risco basal. Podemos dizer, assim, que um tratamento não tem NNT, quem tem NNT é aquele tipo de paciente que receberá aquele tratamento.
Na verdade, a propriedade intrínseca do tratamento é a redução relativa do risco, que tende a ser constante nos diferentes subgrupos de risco. Análises de subgrupo usualmente não mostram interação entre risco basal e impacto relativo do tratamento.
Um tratamento de pequeno efeito (redução relativa do risco) pode proporcionar uma grande redução absoluta (pequeno NNT) se aplicado a uma população de altíssimo risco. Da mesma forma, um tratamento de grande efeito, pode ter uma pequena redução absoluta (RAR) se aplicado a uma população de baixo risco. Portanto, a redução relativa (RRR) mostra o tamanho do efeito intrínseco do tratamento, enquanto a redução absoluta mostra o impacto do tratamento em um certo tipo de paciente, com um certo tipo de risco basal. Podemos dizer que a RRR traduz o tamanho de efeito e a RAR, o impacto do tratamento. Por isso, devemos mensurar o tamanho do efeito intrínseco do tratamento pela redução relativa do risco, enquanto o NNT é o impacto concreto em um dado paciente.
Se tivéssemos a chance de saber apenas uma das informações a respeito de um tratamento, qual escolheríamos: a redução relativa ou redução absoluta?
A relativa, é claro. Pois sabendo a redução relativa, pode-se calcular a redução absoluta de cada paciente individualmente, desde que saibamos o risco absoluto do paciente.
Por exemplo, digamos que a redução relativa do risco é 33%. Com base em um escore de risco, estimamos 10% como risco basal do paciente. Assim, a redução absoluta do risco desse paciente é 33% x 10%=3,3% (NNT = 100/3,3=30).
Como referência para análise, os bons tratamentos apresentam uma redução relativa do risco em torno de 30 a 40%.
INIBIDOR DA ENZIMA CONVERSORA DE ANGIOTENSINA NA INSUFICIÊNCIA CARDÍACA (IECA)
É surpreendente notar que o IECA na insuficiência cardíaca é um tratamento de pequeno tamanho de efeito. De acordo com o ensaio clínico SOLVD,{Yusuf, 1991 #125} a redução relativa do risco do IECA é apenas 16% menor que a maioria dos tratamentos cardiológicos que funcionam. Quase ninguém se toca disso, porque a mortalidade da doença é alta, provocando um bom NNT. Este é um tratamento de pequeno efeito, mas de impacto razoável devido à gravidade dessa doença.
Se eu digo que a redução absoluta no SOLVD foi 4,5%, isso parece muito bom. No entanto, a figura muda bastante se, ao invés de dizer a redução absoluta, mostramos os números de cada grupo: no grupo placebo, a mortalidade foi 39,7% e isso reduziu para 35,2%. Percebam que esses dois números não são tão diferentes. Muita gente sem enalapril morre (um pouco mais que 1/3 dos pacientes), mas muita gente continua morrendo com enalapril (um pouco mais que 1/3 dos pacientes). Não muda muita coisa. Quando olhamos sob essa ótica, vemos que o tamanho do efeito do tratamento é pequeno.
Além disso, o intervalo de confiança da redução relativa do risco apresentado por esse estudo de moderado tamanho (2.500 pacientes) é amplo, vai de 5 a 20%. Portanto, esse tratamento pode oferecer uma redução relativa de risco tão baixa quanto 5%. Já o extremo superior do intervalo de confiança (20%) não é tão diferente do que a medida pontual de 16%. Na medida do tamanho do efeito, é importante observarmos a precisão da estimativa descrita pelo intervalo de confiança.
Não estou aqui querendo reduzir o valor desse importante tratamento na insuficiência cardíaca, até mesmo porque o IECA também ajuda no controle dos sintomas. Mas é importante termos a perspectiva do tamanho do efeito, ao lado da perspectiva do NNT.
Essa perspectiva reduz o affect bias a favor do inibidor da ECA, nos tornando mais “pé no chão” e permitindo uma melhor análise do trade-off risco-benefício. Ficaremos mais parcimoniosos quando diante de certos pacientes, como hipotensos (suscetíveis a síncope) ou com certo grau de disfunção renal. Sem angústia, insistiremos menos nas altas doses (que poderiam desencadear os episódios de síncope) quando pensarmos na panaceia de um tratamento.
É muito interessante revisitar esses dados do passado. Na mente cardiológica, o IECA é uma panaceia. Era 1988, quando eu estava no segundo ano de medicina e foi publicado o estudo CONSENSUS no New England Journal of Medicine, ensaio clínico seminal como teste dessa hipótese, sempre citado como respaldo da eficácia do IECA na insuficiência cardíaca congestiva (ICC). Mas na verdade, este é um minúsculo estudo (apenas 253 pacientes), que foi interrompido precocemente com apenas 118 desfechos (truncado com menos de 200 desfechos é risco de imprecisão). Aquele estudo mostrava uma redução relativa de risco de 40%. Foi isso que ficou na mente afetiva dos cardiologistas.
Uma das melhores formas de reter o aprendizado é fazer com que ele ocorra acompanhado de emoção. Uma criança queimada por tocar em uma panela quente (trauma) vai aprender, com certeza, que panela pode queimar a mão. Quando o CONSENSUS foi publicado, a notícia da redução relativa do risco de 40% veio como tamanha novidade que, emocionados, retemos essa informação, que ficará para sempre impregnada em nossas mentes. Depois veio o SOLVD, estudo maior que mostrou um valor mais preciso de 16% de redução relativa do risco. Mas não foram os 16% (efeito pequeno) que ficaram em nossa memória afetiva, foram os 40% que emocionaram mais e emocionaram primeiro.
NOVOS ANTICOAGULANTES ORAIS
Há um equívoco do pensamento comum em relação a esses fármacos. Consideramos que sua maior vantagem está na praticidade de não precisar dos exames de tempo de protrombina. Normalmente, pensamos que os novos anticoagulantes orais possuem eficácia equivalente à tradicional e barata warfarina. Por isso, usualmente discutimos as duas opções com o paciente: um fármaco prático e de alto custo versus outro menos prático e de baixo custo.
Mas esse pensamento comum desconsidera um fato importante. A maior vantagem desses fármacos não está na praticidade, a maior vantagem está na superioridade de seu efeito em relação à warfarina. Na verdade, esses fármacos, quando usados em uma dose ótima, são muito melhores do que warfarina. Superioridade esta que é mais importante do que a tão mencionada praticidade.
Na verdade, é muito difícil mostrar superioridade de um tratamento novo em relação a um tratamento tradicional que é eficaz. E se o tratamento novo for melhor do que o tradicional, essa superioridade tende a ser de pequena monta. Diferentemente do habitual, os novos anticoagulantes são muito melhores do que warfarina. No estudo RELY, a dose de 150 mg de dabigatran promoveu uma redução relativa do risco de eventos embólicos de 34% em pacientes com fibrilação atrial, algo que fica no mesmo nível dos bons tratamentos comparados a placebo. Isso é quase sem precedentes na comparação de tratamento versus tratamento. Da mesma forma, o estudo ARISTOTLE mostra que a apixabana promove uma redução relativa de 21% quando comparado à warfarina.
O que quero dizer é que usar warfarina ao invés de um novo anticoagulante é o mesmo que optar por um tratamento pior. Portanto, colocar praticidade versus preço, como o trade-off principal desse tipo de decisão compartilhada, é um equívoco. O trade-off correto é eficácia versus preço, e de quebra, essa eficácia ainda vem com mais praticidade.
O enfoque principal da praticidade, em detrimento de evidente superioridade, é um exemplo de erro pela falta de perspectiva da redução relativa do risco.
A VISÃO DO PACIENTE
Este artigo revisou os principais conceitos sobre medidas de impacto. Para finalizar, devemos pensar que a medida mais relevante que existe é mais subjetiva e difícil de quantificar. A medida mais relevante da significância de uma conduta é a felicidade do paciente com o desfecho final. Não adianta demonstrar uma redução de risco se o paciente termina livre do desfecho, porém aprisionado em sua insatisfação.
Análises relativas e absolutas de risco não dão todas as respostas. Primeiro, elas são probabilísticas, não uma garantia. Segundo, a prevenção do desfecho indesejado pode ser mediada por uma conduta que traga desconforto, insatisfação ao paciente, se for de encontro com seus valores.
No final das contas, o mais relevante é que nossas recomendações sejam primariamente influenciadas pela preferência do paciente.
References
1 Yusuf S, Pitt B, Davis CE, Hood WB, Cohn JN. Effect of enalapril on survival in patients with reduced left ventricular ejection fractions and congestive heart failure. SOLVD Investigators. N Engl J Med. 1991;325(5):293-302.
2 CONSENSUS Trial Study Group. Effects of enalapril on mortality in severe congestive heart failure. Results of the Cooperative North Scandinavian Enalapril Survival Study (CONSENSUS). N Engl J Med. 1987;316(23):1429-35.
3 Connolly SJ, Ezekowitz MD, Yusuf S, Eikelboom J, Oldgren J, Parekh A, et al. Dabigatran versus warfarin in patients with atrial fibrillation. N Engl J Med. 2009;361(12):1139-51.
4 Granger CB, Alexander JH, McMurray JJ, Lopes RD, Hylek EM, Hanna M, et al. Apixaban versus warfarin in patients with atrial fibrillation. N Engl J Med. 2011;365(11):981-92.