뉴스페퍼민트

A Waste of 1,000 Research Papers 허공으로 사라진 1,000 건의 연구

Ahn Seong-jin 2019. 5. 24. 14:46

http://newspeppermint.com/2019/05/20/m-slc6a4/


https://www.theatlantic.com/science/archive/2019/05/waste-1000-studies/589684/


Decades of early research on the genetics of depression were built on nonexistent foundations. How did that happen?


In 1996, a group of European researchers found that a certain gene, called SLC6A4, might influence a person’s risk of depression.

1996년, 유럽의 한 연구팀은 SLC6A4 유전자가 우울증에 영향을 줄지 모른다는 연구를 발표했습니다.


It was a blockbuster discovery at the time. The team found that a less active version of the gene was more common among 454 people who had mood disorders than in 570 who did not. In theory, anyone who had this particular gene variant could be at higher risk for depression, and that finding, they said, might help in diagnosing such disorders, assessing suicidal behavior, or even predicting a person’s response to antidepressants.

그 시절에는 이 정도의 발견은 엄청난 것이었습니다. 연구진은 이 유전자의 한 형태가 570명의 일반인 보다 454명의 우울증 환자에게 더 흔히 존재한다는 사실을 발견했습니다. 이론적으로 보자면, 이 유전자를 가진 이는 우울증의 확률이 높을 것이며, 따라서 우울증의 진단과 자살 가능성, 혹은 항우울제에 대한 반응 까지도 예측할 수 있게 되리라 생각했습니다.


Back then, tools for sequencing DNA weren’t as cheap or powerful as they are today. When researchers wanted to work out which genes might affect a disease or trait, they made educated guesses, and picked likely “candidate genes.” For depression, SLC6A4 seemed like a great candidate: It’s responsible for getting a chemical called serotonin into brain cells, and serotonin had already been linked to mood and depression. Over two decades, this one gene inspired at least 450 research papers.

당시에는 유전자 분석이 오늘날처럼 강력하고 저렴하지 못했습니다. 때문에 연구자들은 유전자가 질병이나 특질에 미치는 영향을 알아보기 위해 “후보 유전자”를 미리 고른 뒤 이를 연구했습니다. SLC6A4는 기분과 우울증에 영향을 미치는 세로토닌 분비에 관여하는 유전자였고, 따라서 우울증 연구에 좋은 후보였습니다. 이후 20년 동안 이 유전자 하나에 대해 450편의 논문이 나왔습니다.


But a new study—the biggest and most comprehensive of its kind yet—shows that this seemingly sturdy mountain of research is actually a house of cards, built on nonexistent foundations.

하지만 최근 발표된 가장 포괄적이고 대규모의 연구는 이 유전자에 대해 이루어진 지금까지의 연구가 그저 아무런 근거가 없는, 종이로 지은 집에 불과하다는 사실을 보였습니다.


Richard Border of the University of Colorado at Boulder and his colleagues picked the 18 candidate genes that have been most commonly linked to depression—SLC6A4 chief among them. Using data from large groups of volunteers, ranging from 62,000 to 443,000 people, the team checked whether any versions of these genes were more common among people with depression. “We didn’t find a smidge of evidence,” says Matthew Keller, who led the project.

콜로라도 보울더 대학의 리차드 보더와 그의 동료들은 우울증에 관련이 있다고 알려진, SLC6A4가 포함된 18개의 유전자를 골랐습니다. 이들은 62,000 명에서 443,000 명에 이르는 자원자들의 데이터를 바탕으로 이 유전자들과 우울증의 상관관계를 조사했습니다. “18개의 유전자 모두 우울증과 관계있다는 일말의 가능성도 찾지 못했습니다.” 연구를 주도한 매튜 켈러의 말입니다.


Between them, these 18 genes have been the subject of more than 1,000 research papers, on depression alone. And for what? If the new study is right, these genes have nothing to do with depression. “This should be a real cautionary tale,” Keller adds. “How on Earth could we have spent 20 years and hundreds of millions of dollars studying pure noise?”

지금까지 이 18개의 유전자와 우울증의 관계를 연구한 논문만 1,000 편이 넘습니다. 그 연구들은 다 무엇이었을까요? 이번 연구가 정말로 옳다면, 이 18개의 유전자는 우울증과 아무런 관계가 없습니다. “이건 정말 커다란 문제입니다. 어떻게 우리는 지난 20년 동안, 수 억 달러의 돈을 그저 노이즈를 연구하는 데 써버리게 된 걸까요?”


“What bothers me isn’t just that people said [the gene] mattered and it didn’t,” wrote the pseudonymous blogger Scott Alexander in a widely shared post. “It’s that we built whole imaginary edifices on top of this idea of [it] mattering.” Researchers studied how SLC6A4 affects emotion centers in the brain, how its influence varies in different countries and demographics, and how it interacts with other genes. It’s as if they’d been “describing the life cycle of unicorns, what unicorns eat, all the different subspecies of unicorn, which cuts of unicorn meat are tastiest, and a blow-by-blow account of a wrestling match between unicorns and Bigfoot,” Alexander wrote.

“어떤 유전자가 중요하다고 생각했다가 알고보니 그렇지 않더라는, 그 정도의 문제가 아닙니다.” 이번 연구를 두고 사람들에게 널리 읽힌, 정신과 의사인 스콧 알렉산더의 블로그에 나오는 말입니다. “바로 우리는 상상 만으로 어마어마한 건축물을 지었다는 것이 문제입니다.” 연구자들은 SLC6A4 가 어떻게 감정에 영향을 주며, 그 영향이 나라마다, 그리고 연령, 성별 마다 어떻게 다른지를, 또 다른 유전자와 어떻게 그 영향을 주고 받는지를 연구해왔습니다. 이는 마치 “유니콘의 일생과 식생활, 유니콘의 종류, 유니콘 고기 중 가장 맛있는 부위, 그리고 유니콘과 설인의 싸움을 실시간으로 중계한” 것과 비슷하다고 알렉산더는 썼습니다.


Border and Keller’s study may be “bigger and better” than its predecessors, but “the results are not a surprise,” says Cathryn Lewis, a geneticist at Kings College London. Warnings about the SLC6A4/depression link have been sounded for years. When geneticists finally gained the power to cost-efficiently analyze entire genomes, they realized that most disorders and diseases are influenced by thousands of genes, each of which has a tiny effect. To reliably detect these minuscule effects, you need to compare hundreds of thousands of volunteers. By contrast, the candidate-gene studies of the 2000s looked at an average of 345 people! They couldn’t possibly have found effects as large as they did, using samples as small as they had. Those results must have been flukes—mirages produced by a lack of statistical power. That’s true for candidate-gene studies in many diseases, but Lewis says that other researchers “have moved on faster than we have in depression.”

이번 보더와 켈리의 연구는 “가장 큰 규모의, 가장 제대로 된” 연구지만 “그 결과가 놀랍지는 않다”고 런던 킹스 칼리지의 유전학자인 캐서린 루이스는 말합니다. 지난 수 년 동안 SLC6A4 와 우울증의 연관관계가 의심스럽다는 주장은 지속적으로 제기되어 왔습니다. 전체 게놈을 분석하는 비용이 저렴해지자, 유전학자들은 대부분의 질병이나 장애가 수 천 개 유전자의 영향을 받으며, 하나의 유전자는 극히 작은 영향만을 끼친다는 사실을 알게되었습니다. 이러한 작은 효과를 확실하게 구분하기 위해서는 보통 수십 만 명의 자원자가 필요했습니다. 하지만 2000년대의 후보 유전자를 대상으로 하는 일반적인 연구는 평균 345명의 사람들을 대상으로 이루어졌습니다. 이 정도로 적은 수를 가지고는 그들이 발견한 그런 큰 효과가 나타날 수 없습니다. 곧, 대부분의 연구는 우연이었거나 아니면 통계적 실수가 낳은 기적일 것입니다. 이는 다른 질병에 대한 후보 유전자 연구도 마찬가지일 것입니다. 하지만 루이스는 다른 질병들은 우울증에 비해 이 문제를 빨리 극복했다고 말합니다.


Marcus Munafò of the University of Bristol remembers being impressed by the early SLC6A4 research. “It all seemed to fit together,” he says, “but when I started doing my own studies in this area, I began to realize how fragile the evidence was.” Sometimes the gene was linked to depression; sometimes it wasn’t. And crucially, the better the methods, the less likely he was to see such a link. When he and others finally did a large study in 2005—with 100,000 people rather than the 1,000 from the original 1996 paper—they got nothing.

브리스톨 대학의 마커스 무나포는 SLC6A4가 처음 발견되었을 때의 감동을 기억하고 있습니다. “모든 것이 잘 맞아떨어지는 것처럼 보였습니다. 하지만 이 분야를 직접 연구해보니 그 발견이 얼마나 부실한 것이었는지를 알게 되었습니다.” 이 유전자는 어떨 때는 우울증과 관계가 있었고, 어떨 때는 없었습니다. 문제는 더 나은 연구방법을 사용할수록 둘의 연관관계가 더 사라지는 것처럼 보였다는 것입니다. 2005년 그가 수행한, 10만 명의 사람을 대상으로 한 연구에서 그는 아무런 관계를 발견할 수 없었습니다.


“You would have thought that would have dampened enthusiasm for that particular candidate gene, but not at all,” he says. “Any evidence that the results might not be reliable was simply not what many people wanted to hear.” In fact, the pace at which SLC6A4/depression papers were published accelerated after 2005, and the total number of such papers quadrupled over the next decade. “We’re told that science self-corrects, but what the candidate-gene literature demonstrates is that it often self-corrects very slowly, and very wastefully, even when the writing has been on the wall for a very long time,” Munafò adds.

“내 연구로 사람들이 이 유전자를 포기했을 것 같지만 현실은 전혀 그렇지 않았습니다. 사람들은 연관관계가 확실하지 않다는 연구에는 관심이 없었습니다.” 실제로 SLC6A4 유전자와 우울증의 관계에 대한 연구는 2005년 이후 더 활발하게 이루어졌고, 다음 10 년 동안 논문의 수는 네 배로 늘었습니다. “우리는 과학이 자정작용을 가지고 있다고 말합니다. 하지만 이 후보 유전자 연구를 보면, 그 자정작용이 매우 느리게 일어나며, 엄청난 비용이 들 뿐 아니라, 확실한 결과가 나온 지 한 참 뒤에서야 이루어진다는 것을 알 수 있습니다.”


Many fields of science, from psychology to cancer biology, have been dealing with similar problems: Entire lines of research may be based on faulty results. The reasons for this so-called reproducibility crisis are manifold. Sometimes, researchers futz with their data until they get something interesting, or retrofit their questions to match their answers. Other times, they selectively publish positive results while sweeping negative ones under the rug, creating a false impression of building evidence.

심리학에서 암 연구에 이르는 여러 과학 분야가 이런 문제를 겪고 있습니다. 곧, 하나의 연구 분야 전체가 애초에 잘못된 연구에 기반했을 가능성입니다. 소위 “재현성 위기”는 여러가지 이유로 일어납니다. 때로 연구자들은 데이터를 적당히 만지며 실험 결과에 맞추어 질문을 바꾸기도 합니다. 부정적인 결과를 배제하고 가설과 일치하는 결과들만을 모아 논문에 내기도 합니다.


Beyond a few cases of outright misconduct, these practices are rarely done to deceive. They’re an almost inevitable product of an academic world that rewards scientists, above all else, for publishing papers in high-profile journals—journals that prefer flashy studies that make new discoveries over duller ones that check existing work. People are rewarded for being productive rather than being right, for building ever upward instead of checking the foundations. These incentives allow weak studies to be published. And once enough have amassed, they create a collective perception of strength that can be hard to pierce.

명백한 잘못인 몇 몇 경우 외에는 이런 행동이 조작으로 여겨지지 않습니다. 이는 기존 연구를 확인하는 평범한 연구보다는 새로운 발견으로 이어지는 선정적인 연구를 선호하는 학술지와 이러한 학술지에 논문을 출판하는 것으로 연구자를 평가하는 학계가 공동으로 만들어낸 필연적인 결과입니다. 연구자들은 연구의 근본을 확인하는 진실성이 아니라 새로운 연구를 추가하는 생산성으로 평가 받습니다. 이러한 인센티브 구조 하에서는 불확실한 연구라도 논문으로 나올 수 밖에 없습니다. 이런 연구들이 하나 둘 쌓이면서 쉽게 부정하기 어려운 잘못된 지식이 만들어지게 됩니다.


Terrie Moffitt of Duke University, who did early influential work on SLC6A4, notes that the candidate-gene approach has already been superseded by other methods. “The relative volume of candidate-gene studies is going way down, and is highly likely to be trivial indeed,” she says. Border and Keller disagree. Yes, they say, their geneticist colleagues have largely abandoned the approach, which is often seen as something of a historical embarrassment. “But we have colleagues in other sciences who had no idea that there was even any question about these genes, and are doing this research to this day,” Border says. “There’s not good communication between subfields.” (A few studies on SLC6A4 and depression have even emerged since their study was published in March.)  

SLC6A4 유전자에 관한 중요한 연구를 수행했던 듀크 대학의 테리 모핏은 후보 유전자 방식의 접근은 이미 오래전에 유행이 지나간 연구방법이라고 말합니다. “후보 유전자 기반의 연구는 줄어들고 있으며, 그 중요성을 크게 잃어가는 중입니다.” 하지만 보더와 켈리는 여기에 동의하지 않습니다. 물론 그들도 자신들의 유전학자 동료들은 이 후보 유전자 접근법을 더 이상 사용하지 않으며 어떤 이들은 심지어 이를 과거의 실수로 생각하기도 한다고 말합니다. “하지만 이들 유전자에 문제가 있다는 사실을 전혀 모르는 다른 인접 분야의 연구자들은 지금 이 순간에도 같은 방법으로 연구를 하고 있습니다. 학계의 세부 분야들 사이에 정보 교환이 잘 이루어지지 않는 것이죠.” (사실 보더와 켈리의 연구가 출판된 뒤에도 SLC6A4와 우울증에 대한 몇 건의 연구가 더 등장했습니다.)


The goalposts can also change. In one particularly influential study from 2003, Avshalom Caspi, Moffitt, and others claimed that people with certain versions of SLC6A4 were more likely to become depressed after experiencing stressful life events. Their paper, which has been cited more than 8,000 times, suggested that these genes have subtler influences, which only manifest in certain environments. And if bigger studies found that the genes had no influence, it’s probably because they weren’t accounting for the experiences of their volunteers.

연구 주제가 바뀌기도 했습니다. 2003년 발표된, 압샬롬 카스피와 모핏에 의한 이 분야에 매우 큰 영향을 미친 한 연구는 SLC6A4의 특정한 버전을 가진 이들은 스트레스성 사건을 겪었을 때 우울증에 더 쉽게 걸린다는 결과를 발표했습니다. 8천 번 이상 인용된 그들의 연구는 이 유전자가 매우 작은 영향을 미치며 특정한 환경에서만 발현한다고 이야기했습니다. 또한, 더 규모가 큰 연구에서 이 유전자의 효과가 발견되지 않는다면, 그것은 자원자의 경험을 잘 고려하지 못했기 때문일 것이라 말했습니다.


Border and Keller have heard that argument before. So, in their study, they measured depression in many ways—diagnosis, severity, symptom count, episode count—and they accounted for environmental factors such as childhood trauma, adulthood trauma, and socioeconomic adversity. It didn’t matter. No candidate gene influenced depression risk in any environment.

보더와 켈리는 이러한 주장을 알고 있었고, 이번 연구에서 우울증을 진단, 강도, 증후군 수, 발병 횟수 등으로 다양하게 기록했습니다. 또 아동기와 성인기의 트라우마와 사회경제적 곤궁 또한 기록했습니다. 하지만 이런 조건 하에서도 열 여덟개의 유전자는 모두 우울증과 무관했습니다.


But Suzanne Vrshek-Schallhorn of the University of North Carolina at Greensboro says that Border’s team didn’t assess life experiences with enough precision. “I cannot emphasize enough how insufficient the measures of the environment used in this investigation were,” she says. “Even for measures that fall below gold-standard stress-assessment approaches, they represent a new low.” By using overly simple yes-or-no questionnaires rather than more thorough interviews, the team may have completely obscured any relationships between genes and environments, Vrshek-Schallhorn claims. “We should not get starry-eyed about large sample sizes, when measure validity is compromised to achieve them. We need to emphasize both quality and quantity.”

하지만 노스 캐롤라이나 그린스보로 대학의 수잔 브쉑-스칼혼은 보더의 연구팀이 인생의 역경을 충분한 정도의 정확도로 평가하지 않았다고 말합니다. “이 연구는 환경의 효과를 전혀 제대로 측정하지 않았습니다.” 브쉑-스칼혼은 이들이 제대로 된 인터뷰가 아닌 네-아니오 질문만으로 이를 평가했기 때문에 유전자와 환경의 관계를 전혀 알 수 없게 만들었다고 말합니다. “이번 연구의 규모에 놀랄 것이 아니라, 그 규모를 달성하기 위해 측정의 유효성을 양보했다는 사실을 보아야 합니다. 모든 연구는 양과 질을 모두 보아야 합니다.”


But Border argues that even if there had been “catastrophic measurement error,” his results would stand. In simulations, even when he replaced half the depression diagnoses and half the records of personal trauma with coin flips, the study would have been large enough to detect the kinds of effects seen in the early candidate-gene papers.

하지만 보더는 자신들이 설사 “치명적인 측정 오류”를 범했다 할지라도 이 결과가 여전히 참이라고 말합니다. 그들은 이 연구의 규모는 자신들의 데이터에서 우울증 진단의 절반과 개인적 트라우마의 절반을 무작위로 바꾸어도 여전히 초기 SLC6A4 유전자 연구에서 나타났던 효과가 드러났어야 할 정도로 크다고 말합니다.


Similar debates have played out in other fields. When one group of psychologists started trying to reproduce classic results in much larger studies, their peers argued that any failures might simply be due to differences between the new groups of volunteers and the originals. This excuse has eroded with time, but to Border, it feels familiar. “There’s an unwillingness to part with a previous hypothesis,” he says. “It’s hard to wrap your head around the fact that maybe you were on a wild goose chase for years.”  

다른 분야에서도 이와 비슷한 논쟁이 벌어지고 있습니다. 심리학의 고전적인 결과를 재현하려는 일군의 학자들에게 기존의 학자들은 새로운 실험이 같은 결과를 내지 못하는 이유는 그저 자원자가 다르기 때문일 뿐이라 말합니다. 하지만 이러한 변명은 점점 힘을 잃어가고 있고, 보더에게 이는 익숙한 일입니다. “예전의 가설을 마지못해 붙잡고 있는 것입니다. 자신들이 헛된 목표를 쫓고 있었다는 사실을 인정하는 것은 쉬운 일이 아니지요.”


Keller worries that these problems will be used as ammunition to distrust science as a whole. “People ask, Well, if scientists are publishing crap, why should we believe global warming and evolution?” he says. “But there’s a real difference: Some people were skeptical about candidate genes even back in the 1990s. There was never unanimity or consensus in the way there is for human-made global warming and the theory of evolution.”

켈러는 이런 문제들이 과학 전반에 대한 불신으로 이어지지 않을지를 걱정합니다. “사람들은 이렇게 말할 수 있습니다. ‘과학자들의 논문이 그렇게 엉망이라면 지구 온난화나 진화론도 그런 것 아닐까?’ 하지만 그렇지 않습니다. 90년대에도 후보 유전자를 이용한 방법에 회의적이었던 과학자들이 있었습니다. 반면 인간에 의한 지구 온난화나 진화론에 대한 과학계의 합의는 그와는 비교할 수 없는 정도로 강력합니다.”


Nor, he says, should his work be taken to mean that genes don’t affect depression. They do, and with newer, bigger studies, researchers are finally working out which ones do. If anything, the sordid history of the candidate-gene approach propelled the development of better methods. “I feel like the field of psychiatric genetics felt really burned coming out of the candidate-gene era, and took strides to make sure it won’t happen again.” That includes sharing data openly, and setting standards for how large and powerful studies need to be.

그는 또한 자신의 연구를 우울증에 유전자의 영향이 없다는 것으로 해석해서는 안된다고 말합니다. 우울증에는 유전자의 영향이 있으며, 더 규모가 큰 연구를 통해 연구자들은 우울증에 영향을 미치는 유전자를 찾고 있습니다. 적어도 후보 유전자 접근법은 더 나은 방법을 찾게 만들었습니다. “나는 정신의학 유전학 분야가 후보-유전자 시대를 매우 힘들게 벗어났으며 이 경험을 통해 다시는 이런 일을 겪지 않기위한 진보를 이루었다고 느낍니다.” 여기에는 데이터를 공유하는 일과 얼마나 큰 규모의 연구가 필요한지에 대한 합의를 만든 일이 포함됩니다.


Dorothy Bishop of the University of Oxford argues that institutions and funders that supported candidate-gene work in depression should also be asking themselves some hard questions. “They need to recognize that even those who think they are elite are not immune to poor reproducibility, which leads to a huge amount of waste,” she says.

옥스포드 대학의 도로시 비숍은 후보-유전자 연구를 지원한 기관과 재단 또한 반성의 필요가 있다고 말합니다. “스스로를 엘리트라 여기는 사람들 조차도 엄청난 자원의 낭비로 이어진 재현 불가능한 연구에 자유롭지 않음을 알아야 합니다.”


“We have got to set up a system, or develop a culture, that rewards people for actually trying to do it right,” adds Keller. “Those who don’t learn from the past are doomed to repeat it.”

“우리는 제대로 된 연구를 하는 이들에게 보상을 주는 시스템을 만들고 문화를 정립해야 합니다.” 켈러의 말입니다. “과거로부터 배우지 못하는 이들은 과거를 반복할 수 밖에 없습니다.”


(아틀랜틱, Ed Yong)


We want to hear what you think about this article. Submit a letter to the editor or write to letters@theatlantic.com.