질병관리본부장을 지낸 전병율 차의과학대학 교수는 6일 신종 코로나바이러스 감염증(코로나19)이 내년 가을쯤이나 잡힐 것으로 예상, 그때까지 방역 집중력을 유지해야 한다고 강조했다. 자가 격리자들의 잇단 이탈과 관련해 "스마트 워치 형태의 손목띠, 전자팔찌를 지급해 착용토록 하는 문제도 고려할 필요가 있다"고 제안했다. 그만큼 코로나19 확산을 막는 것이 중요하다는 말이다.
또 호주의 생리학 발견연구소가 '이버멕틴 구충제가 코로나19 바이러스를 소멸시켰다'는 보도와 관련해 "이는 세포 배양된 코로나 바이러스에 대한 실험으로 앞으로 환자에게 직접 투여하는 임상 실험을 통해서 사멸 효과를 따져봐야 한다"며 구충제 등 코로나19에 효과가 있다는 약들을 함부로 복용할 경우 "실제로 사망한 사례도 있다"고 인체 안전성이 확인될 때까지 절대로 먹어선 안된다고 당부했다.
◇ 코로나19 절대 완화된 것 아니다…1년6개월쯤 뒤에나 진정세 기대
전 교수는 이날 CBS라디오 '김현정의 뉴스쇼'와 인터뷰에서 "대구, 경북 지역의 신천지 교회와 관련된 상황에서 생각한다면 많이 나아졌지만 안심하고 일상생활로 돌아갈 수 있다는 걸 의미하는 건 아니다"며 코로나19에 대한 긴장을 풀어서는 안된다고 했다.
그는 "앞으로 수도권 문제가 상당히 위중한 그런 상황으로 진입할 수 있다는 것에 전문가들이 의견 일치를 보고 있다"며 "국민들께서 조금 더 인내심을 갖고 사회적 거리두기 조치에 적극적으로 협조를 해 주시기를 바란다"고 당부했다.
진행자가 "블룸버그 통신에서는 1년 6개월 이야기(더 간다)를 했다, 그 정도 돼야 백신이 나오거나 인구의 60% 이상이 면역이 돼서 괜찮아지는 것(집단 면역)이라고 했다"고 묻자 전 교수는 "그렇다"며 "백신 자체가 임상을 하더라도 1상, 2상을 하다 보면 기본적으로 1년 8개월이라는 기간이 최단 기간이다. 적어도 3상까지 제품화 되기는 최소한 1년 6개월 정도가 소요된다고 봐야한다"고 지적했다.
◇ 구충제 이버멕틴이 '코로나19 바이러스 죽인다?'…세포배양 실험일 뿐, 지금 단계선 복용하면 '죽을수도'
전 교수는 '호주의 생리학 발견연구소 기관에서 세포 배양된 코로나19 바이러스를 이버멕틴 구충제에 노출시켰더니 48시간 안에 모든 물질이 소멸됐다'는 실험 결과에 대해 "이는 세포 배양된 코로나 바이러스에 대한 실험으로 사람에게 적용된 것이 아니다"며 "환자에게 직접 투여하는 임상 실험을 통해서 이버멕틴의 코로나19 바이러스 사멸 효과를 따져볼 필요가 있다"고 설명했다.
이어 "48시간 내 모든 유전 물질이 소멸됐다는데 만약 인체에게 적용한다고 했을 때 어느 정도 용량을 투여해야 되는지, 실제로 효과가 있는지 이런 것들을 확인할 필요가 있는 그런 상황이다"고 했다.
전 교수는 "말라리아 약도 (치료제라고 알려지자) 일부 시민들이 사재기로 구입을 했는데 이게 단순히 타이레놀(처럼) 복용하는 약이 아니다"며 "실제로 사망한 사례들이 있다"고 주의, 또 주의할 필요가 있다고 했다.
◇ 자가격리 엄격히 지켜야…대만·홍콩처럼 '전자 손목띠 착용' 고려할 필요
전 교수는 최근 자가격리자들이 위치추적을 피하기 위해 스마트폰을 집에 놔둔채 외출한 사례가 이어지고 있는 현상과 관련해 "지금과 같은 상황이 반복이 된다면 뭔가 다른 뭔가 다른 규제 장치를 도입을 해야 되는 것이 아닌가"라며 "해외에서는 일종의 전자팔찌 같은 것들을 착용토록 함으로써 제한된 구역을 이탈할 경우 바로 경보가 울리고 담당 직원들 또 공무원들에게 자동 통보가 되는 시스템을 도입을 하고 있다"고 말했다.
그러면서 " 대만은 추진을 하고 있고 홍콩은 입국자 전원에게 위치추적용 손목띠를 착용하도록 하고 있다"는 사례를 들었다.
진행자가 "전자팔찌 하면 성 범죄자들 찾는 전자(발찌를 연상해) 거부하고 인권 문제도 제기될 것이다"고 하자 전 교수는 "(전자팔찌는) 스마트 워치 차는 것과 똑같다, 모양을 스마트워치 형태로 함으로써 사람들이 이걸 전자팔찌라고 인식하지 못하도록 그렇게 한다면 상당한 효과가 있지 않을까"라고 의견을 제시한 뒤 "환자를, 격리대상자를 범죄자로 보는 것이 아닌가 하는 사회적 인식이 있기 때문에 상당히 조심스러운 부분들이 있다"고 했다.
그는 "사회적으로 소외되는 그런 비용을 감안했을 때 개개인에게 이런 스마트워치 형태의 손목띠를 차게 하는 것이 크게 경제적 부담이 되지는 않을 것 같다"며 손목띠 착용은 비용보다는 인식의 문제라고 판단했다.
[아시아엔=편집국]1. 중국 우한 봉쇄 8일 해제, 코로나19 종식 카운트다운 – 신종 코로나바이러스 감염증(코로나19)으로 전 세계에 비상이 걸린 가운데 이 사태의 진원지인 중국 도시 우한(武漢)에 대한 봉쇄 조치가 오는 8일 풀림. 우한의 봉쇄 해제는 중국 지도부까지 전면에 나서 벌여온 ‘코로나19 인민전쟁’의 종식 선언이 카운트다운에 들어갔음을 의미. – 후베이성 정부는 오는 8일 오전 0시를 기해 우한에서 외부로 나가는 교통 통제를 해제한다고 발표. 이에 따라 8일부터 우한 시민들은 건강함을 의미하는 휴대전화의 ‘녹색 건강 코드’를 가지고 있으면 우한 밖에 나가서 자유롭게 이동할 수 있음. – 오는 8일 우한 봉쇄가 풀리면 우한의 기차역과 공항의 운영도 재개될 것으로 예상. 이미 우한시는 110여개 노선 시내버스가 최근 시범 운행을 하는 등 봉쇄 해제 이후 정상화를 앞둔 예행연습을 진행 중. 정상화가 되더라도 모든 교통을 이용하려면 ‘건강 코드’를 제시해야 하고 발열 체크에도 통과해야 함. – 우한은 봉쇄된 지난 1월 23일부터 두 달 보름 동안 코로나19로 신음했던 비운의 도시. 코로나19로 인한 누적 사망자만 2천500여명, 확진자만 5만여명에 달함. 서구 언론들은 중국 정부가 우한의 코로나19 사망 통계를 은폐하고 있다고 주장하고 있어 실제 우한의 피해가 어느 정도인지는 명확히 알기 힘들 정도.
2. 텐센트, 아프리카 음악 스트리밍 시장 공략 ‘시동’ – 중국의 대표 정보기술(IT) 기업 텐센트가 아프리카 음악 스트리밍 시장 공략에 본격적으로 나섬. 융푸수 텐센트 국제사업그룹 부사장은 6일 블룸버그통신과 인터뷰에서 인기 음악 스트리밍 애플리케이션인 ‘죽스(JOOX)’를 앞세워 아프리카 유료 음악 시장을 공략하겠다고 밝힘. – 죽스는 중국에서 인기가 높은 텐센트 `QQ음악’의 동남아시아판으로 최근 수년간 말레이시아와 인도네시아, 태국 등지에서 매년 30~50%씩 급성장. 죽스의 지난 5년간 동남아시아 누적 성장률은 무려 533%. 세계 최대 모바일 게임업체이기도 한 텐센트는 동남아시아에서 죽스의 성공을 아프리카로 확대할 계획. – 죽스는 2015년 음악 스트리밍 서비스 시장이 제대로 형성되기 전 동남아시아 각국을 공략해 성공한 경험을 아프리카에 적용한다는 전략. 아프리카는 세계에서 모바일 인구가 가장 빠르게 성장하는 지역 중 한 곳으로 GSM협회 측은 오는 2025년 전체 인구의 절반인 6억2천300만명이 모바일을 이용할 것으로 보고 있음. – 텐센트는 아프리카 진출을 위해 수백명의 해외 인력 중 60명을 남아프리카공화국에 파견, 연구작업을 진행. 융 부사장은 “아프리카에도 큰 음악 기업들과 음악인들이 많지만, 디지털화가 이뤄지지 못했다”면서 “더 많은 파이를 얻기 위해 (선진국들에서) 경쟁하기보다 (아프리카에서) 새로운 파이를 만들어내겠다”고 말함.
3. 일본, 난치병 투병 시민단체 대표 출신 최연소 여성시장 탄생 – 일본 도쿠시마(德島)현에서 일본 내 최연소 여성 시장이 탄생. 교도통신에 따르면 5일 치러진 도쿠시마현 도쿠시마시(市) 시장 선거에서 무소속인 나이토 사와코(内藤佐和子·36) 후보가 재선을 노렸던 엔도 아키요시(遠藤彰良·64) 현 시장을 꺾고 당선. – 시민단체 ‘마치즈쿠리'(도시만들기) 대표로 활동해온 나이토 당선자는 만 36세로, 2012년 36세 6개월의 나이로 시장이 됐던 고시 나오미(越直美) 전 시가(滋賀)현 오쓰(大津) 시장의 최연소 여성시장 기록을 경신. – 일본 언론은 민속무용 축제인 ‘아와오도리'(阿波踊り) 운영 등 지역 현안이 산적한 상황에서 유권자들이 젊은 여성을 새 시장으로 선택했다고 의미를 부여. 도쿠시마시 출신인 나이토 당선자는 도쿄대 재학 중 난치병인 다발성경화증이 발병해 지금도 약을 먹고 있음. – 그는 학창 시절 투병기인 ‘난치병 도쿄대생’을 2009년 출간해 일본에서 화제의 인물로 주목. 대학 졸업 후에는 귀향해 도쿠시마 시와 현의 심의회 위원 등으로 활동하며 새로운 도시 만들기 사업을 이끌다가 올 1월 “지금 이대로는 고향이 망가질 것”이라고 선언하고 시장 선거에 나섬.
4. 대만 싱크탱크 “중국의 회색지대 침략 전술에 대비해야” – 신종 코로나바이러스 감염증(코로나19) 사태에도 불구하고 양안(중국과 대만)의 긴장이 높아지는 가운데 대만의 싱크탱크가 중국의 ‘회색지대 침략 전술’에 대비해야 한다고 밝힘. 회색지대 침략 전술은 정규군이 아닌 민병대나 민간을 활용해 도발하는 전술을 의미. – 5일 홍콩 빈과일보와 대만 자유시보 등에 따르면 대만 국방부의 싱크탱크 국방안전연구원(INDSR)은 제91기 ‘국방안전주보’에서 지난달 16일 양안의 경계 지역인 진먼(金門)에서 발생한 소규모의 국지적인 선박 충돌은 정규 전쟁이 아닌 비전통적 무력도전으로, 국가 안전에 대한 새로운 도전이라고 밝힘. 진먼현은 중국 푸젠(福建)성과 1.8km밖에 떨어져 있지 않은 대만의 최전방 섬. – 국방안전연구원은 또 양안의 경계를 넘어서는 유사 사건들을 지리적인 측면에서 살펴보면 향후 대만 외곽 도서 지역이 중국의 침략적 행동에 직면할 가능성이 있다고 강조. 중국이 해경과 해상 민병대를 이용해 회색지대의 충돌에서 우위를 점하고 있기 때문. – 앞서 지난달 16일 진먼 해순서 소속 소형 경비정 2척과 진먼현정부의 수산시험소 소속 1척 등 3척이 대만 해역에서 불법 조업한 중국 어선을 몰아내고 불법 어망을 제거하는 동안 10척의 중국 쾌속정이 돌과 빈 술통을 던지고 대만 경비정을 고의로 충돌하기도 함.
5. ‘시크교 사원 테러’ IS 아프간 지도자, 현지 당국에 체포 – 아프가니스탄에서 극단주의 무장단체 이슬람국가(IS)를 이끌던 지도자가 아프간 당국에 의해 체포됐다고 현지 언론과 외신이 5일 보도. 아프간 정보국은 전날 IS 아프간 지부의 리더인 아슬람 파루키(또는 압둘라 오로크자이)와 IS 조직원 19명을 사로잡았다고 밝힘. – 파루키는 지난달 25일 아프간 수도 카불에서 발생한 시크교 사원 테러를 주도한 인물로 알려짐. 당시 테러에서는 괴한의 폭탄 공격과 총기 난사로 25명 이상이 숨졌음. 정보국은 “파루키는 2018년 아부 사이드 바자우리의 사망 후 IS 아프간 지부의 리더를 맡아왔다”며 “그는 아프가니스탄은 물론 파키스탄 일대에서도 활동했다”고 밝힘. – 2014∼2015년부터 아프간에 본격 진출한 IS는 현지에 호라산 지부를 만들어 활동해 옴. 호라산은 이란어로 ‘해 뜨는 곳’을 뜻하며 아프간·파키스탄·인도 일부를 아우르는 지역을 의미. 이슬람 수니파인 IS는 시아파를 배교자로 삼아 처단하지 않는다는 이유로 그간 탈레반과도 종종 대립. – IS는 특히 지난 몇년 간 탈레반이 미국과 평화협상을 하는 상황을 틈타 각종 테러를 자행하며 존재감을 과시. 2019년 8월 카불 서부 결혼식장에서 자살폭탄테러를 감행 63명의 목숨을 앗아감. 지난달 9일에도 아슈라프 가니 대통령의 취임식장 인근에서 로켓 공격을 하기도 함.
6. 중동 코로나19 확진 7만명 넘어 – 중동 지역(터키 제외 13개국+팔레스타인)의 코로나19 확진자가 7만명을 넘음. 각국 보건당국과 언론 보도를 종합하면 5일 0시(테헤란 시각)를 기준으로 중동 내 확진자는 7만2천808명으로 집계. 중동의 전날 대비 확진자 증가율은 지난달 28일 10.0%에서 4일 5.3%로 하락. 이란을 제외한 전날 대비 확진자 증가율도 같은 기간 12.3%에서 6.8%까지 떨어짐. – 이 기간 아랍에미리트(UAE. 222%↑), 카타르(123%↑), 팔레스타인(123%↑), 이스라엘(110%↑), 쿠웨이트(104%↑)가 배 이상 늘어 증가율이 두드러짐. UAE와 카타르, 이스라엘은 인구 100만 명당 검사 건수가 1만∼2만 건으로, 중동에서 코로나19 감염 검사를 가장 적극적으로 하는 곳. – 지난 한 주간 걸프 지역 6개국의 확진자(6천453명)는 107% 증가해 중동 전체 평균을 크게 웃돌음. 중동에서 의료 체계가 상대적으로 앞선 이들 걸프 지역의 확진자가 늘어난 것은 귀국한 자국민 감염자에서 비롯된 2차 이상 감염이 확산했고 정부가 공격적으로 검사를 시작했기 때문으로 해석. – 이들 국가가 지난달 말부터 이동제한, 통행금지, 국제선 중단과 같은 조처를 본격화한 만큼 다음 주 감염 추이를 관찰하면 이런 강제 조처의 효과를 해석할 수 있을 전망.
40년 전 소설에 우한 바이러스가 등장한다는 점,실제 우한에서 약32㎞떨어진 곳에'우한 바이러스 연구소'가 있다는 점,또 이 연구소가 코로나19의 염기서열 규명 작업에 참여했다는 점 등이 알려지면서 네티즌들 사이에서는 음모론이 퍼지며 해외에서 이미 큰 호응을 받으며 영국과 독일 아마존에서 종합1위,네덜란드,프랑스와 스페인,일본,이탈리아에서 소설1위,미국 아마존에서 종합3위를 기록하고 있습니다.
딘 쿤츠는 미국의 초대형 베스트셀러 작가로 매년2000만부 이상 팔리고38개국 언어로80여개국에 번역돼5억부 이상의 판매고를 기록하고 있습니다.
현재까지 발표한 작품 중16권의 소설이 베스트셀러1위에 올랐고 미국언론은 딘 쿤츠에 대해“스티븐 킹이 소설계의 롤링스톤스라면 딘 쿤츠는 비틀스‘라고 극찬하기도 했습니다.
훌륭한 스토리와 필력!진정한 공포는 괴물이 아니라 인간의 정신 속에서 발견된다는 것을 보여준다.
-USA투데이
딘 쿤츠는 위대한 서스펜스 작가다.
문장에 이처럼 리듬감을 부여하는 베스트셀러 작가는 그 외에는 없다.
대중 소설의 규범 안에서 도덕적 의무를 다하는 이야기를 창조하는 딘 쿤츠에게 큰 찬사를 보낸다.
(서울=연합뉴스) 한성간 기자 = 미국 식품의약청(FDA)의 승인을 받아 안전성이 입증된 구충제 이버멕틴(Ivermectin)이 신종 코로나바이러스 감염증(코로나19) 바이러스를 48시간 이내에 죽인다는 세포배양 실험 결과가 나왔다.
호주 모니쉬(Monash)대학 생의학발견연구소(BiomedicineDiscoveryInstitute)의 카일리 왜그스태프 박사는 세포 배양된 코로나19 바이러스가 이버멕틴에 노출되자 48시간 안에 모든 유전물질이 소멸됐다는 실험 결과를 발표했다고 사이언스 데일리가 4일 보도했다.
단 한 번 투여된 용량에도 24시간 후 코로나19 바이러스의RNA가 상당 부분 줄어들었으며 48시간이 지나자RNA전부가 완전히 사라졌다고 왜그스태프 박사는 밝혔다.
그러나 이는 세포 배양 실험에서 나온 결과이기 때문에 코로나19 환자에게 직접 투여하는 임상시험이 필요하다고 그는 설명했다.
이버멕틴은 널리 사용되고 있는 안전한 약이지만 어느 정도 용량을 투여해야 코로나19 감염 환자에게 효과가 있는지를 우선 확인할 필요가 있다고 그는 강조했다.
이버멕틴이 코로나19 바이러스에 작용하는 기전은 알 수 없으나 다른 바이러스에 작용하는 메커니즘을 보면 바이러스가 숙주 세포의 방어력을 '약화'시키지 못하게 차단한다고 왜그스태프 박사는 밝혔다.
이버멕틴은 구충제로 승인된 약이지만 에이즈, 뎅기열, 독감, 지카 바이러스를 포함, 광범한 종류의 바이러스에도 효과가 있는 것으로 시험관실험에서 나타나고 있다고 그는 덧붙였다.
compared with a mortality rate of less than 1% from influenza. There is an urgent need for effective treatment. Current focus has been on the development of novel therapeutics, including antivirals and vaccines. Accumulating evidence suggests that a subgroup of patients with severe COVID-19 might have a cytokine storm syndrome. We recommend identification and treatment of hyperinflammation using existing, approved therapies with proven safety profiles to address the immediate need to reduce the rising mortality.
Current management of COVID-19 is supportive, and respiratory failure from acute respiratory distress syndrome (ARDS) is the leading cause of mortality.
Secondary haemophagocytic lymphohistiocytosis (sHLH) is an under-recognised, hyperinflammatory syndrome characterised by a fulminant and fatal hypercytokinaemia with multiorgan failure. In adults, sHLH is most commonly triggered by viral infections
Cardinal features of sHLH include unremitting fever, cytopenias, and hyperferritinaemia; pulmonary involvement (including ARDS) occurs in approximately 50% of patients.
A cytokine profile resembling sHLH is associated with COVID-19 disease severity, characterised by increased interleukin (IL)-2, IL-7, granulocyte-colony stimulating factor, interferon-γ inducible protein 10, monocyte chemoattractant protein 1, macrophage inflammatory protein 1-α, and tumour necrosis factor-α.
Predictors of fatality from a recent retrospective, multicentre study of 150 confirmed COVID-19 cases in Wuhan, China, included elevated ferritin (mean 1297·6 ng/ml in non-survivorsvs614·0 ng/ml in survivors; p<0·001) and IL-6 (p<0·0001),
As during previous pandemics (severe acute respiratory syndrome and Middle East respiratory syndrome), corticosteroids are not routinely recommended and might exacerbate COVID-19-associated lung injury.
However, in hyperinflammation, immunosuppression is likely to be beneficial. Re-analysis of data from a phase 3 randomised controlled trial of IL-1 blockade (anakinra) in sepsis, showed significant survival benefit in patients with hyperinflammation, without increased adverse events.
A multicentre, randomised controlled trial of tocilizumab (IL-6 receptor blockade, licensed for cytokine release syndrome), has been approved in patients with COVID-19 pneumonia and elevated IL-6 in China (ChiCTR2000029765).
All patients with severe COVID-19 should be screened for hyperinflammation using laboratory trends (eg, increasing ferritin, decreasing platelet counts, or erythrocyte sedimentation rate) and the HScore
(table) to identify the subgroup of patients for whom immunosuppression could improve mortality. Therapeutic options include steroids, intravenous immunoglobulin, selective cytokine blockade (eg, anakinra or tocilizumab) and JAK inhibition.
TableHScore for secondary HLH, by clinical parameter
generates a probability for the presence of secondary HLH. HScores greater than 169 are 93% sensitive and 86% specific for HLH. Note that bone marrow haemophagocytosis is not mandatory for a diagnosis of HLH. HScores can be calculated using anonline HScore calculator.
*Defined as either haemoglobin concentration of 9·2 g/dL or less (≤5·71 mmol/L), a white blood cell count of 5000 white blood cells per mm3or less, or platelet count of 110 000 platelets per mm3or less, or all of these criteria combined.
PM is a clinical training fellow within the Experimental Medicine Initiative to Explore New Therapies network and receives project funding unrelated to this Correspondence. PM also receives co-funding by the National Institute for Health Research (NIHR) University College London Hospitals Biomedical Research Centre. DFM chairs the NIHR and Medical Research Council funding committee for COVID-19 for therapeutics and vaccines. DFM reports personal fees from consultancy for ARDS for GlaxoSmithKline, Boehringer Ingelheim, and Bayer; in addition, his institution has received funds from grants from the UK NIHR, Wellcome Trust, Innovate UK, and others, all unrelated to this Correspondence. DFM also has a patent issued to his institution for a treatment for ARDS. DFM is a Director of Research for the Intensive Care Society and NIHR Efficacy and Mechanism Evaluation Programme Director. All other authors declare no competing interests.
Interleukin-1 receptor blockade is associated with reduced mortality in sepsis patients with features of macrophage activation syndrome: reanalysis of a prior phase iii trial.
…clearly, the coronavirus has changed its internal structure to adapt to the new species of their host (to be more precise, about 20% of the internal structure of the coronavirus was mutated), but maintained enough such that it is still true to its origin species.
In fact, research has shown COVID-19 has mutated repeatedly in ways to boost its survival. In our fight to defeat the coronavirus, we need to find not just how the virus can be destroyed, but how the virus mutates and how those mutations can be addressed.
In this article, I will…
Provide a surface-level explanation of what RNA nucleotide sequences are
Use K-Means to create genome information clusters
Use PCA to visualize the clusters
…and derive insights from each of the analytics procedures we perform.
What are genome sequences?
Feel free to skip over this part if you have a basic understanding of RNA nucleotide sequences.
Genome sequencing, commonly compared to “decoding,” is the process of analyzing deoxyribonucleic acid (DNA) taken from a sample. Within every normal cell are 23 pairs of chromosomes, structures that house DNA.
The curled double helix structure of DNA allows it to unwind into a ladder shape. This ladder is made out of paired chemical letters called bases. There are only four of these present in DNA: adenine, thymine, guanine, and cytosine. Adenine joins only with thymine, and guanine joins only with cytosine. These bases are represented with A, T, G, and C, respectively.
These bases form a code of sorts that instructs the organism how to construct proteins — it is the DNA that essentially controls how the virus acts.
The process of DNA into RNA into protein creation.Source. Image free to share and use commercially.
Using specialized equipment, including sequencing instruments and specialized tags, the DNA sequences of specific fragments are revealed. Information obtained from this undergoes further analysis and comparison to allow researchers to identify changes in genes, associations with diseases and phenotypes, and identify potential drug targets.
The genome sequence, a long string of ‘A’s, ‘T’s, ‘G’s, and ‘C’s, represents how the organism reacts to its environment. Mutations to an organism are created by altering the DNA. Looking at the genome sequence is a strong way to analyze coronavirus mutations.
Get to know the data.
The data, which can be found on Kagglehere, looks like this:
Each one of the rows represents one mutation of the bat virus. First, just take a minute to admire how incredible nature is — within a few weeks, the coronavirus has already created 262 mutations of itself to increase survival rates.
Some important columns:
query acc.verrepresents the original virus identifier.
subject acc.veris the identifier for a virus mutation.
% identityrepresents what percent of the sequence is the same as the original virus.
alignment lengthrepresents how many items in the sequence are the same, or aligned.
mismatchesrepresents the number of items that the mutation and the original differ on.
bit scorerepresents a measure to represent how good an alignment is; the higher the score, the better the alignment.
Some statistical measures of each of the columns (this can be handily called in Python withdata.describe()):
Looking at the% identitycolumn, it is interesting to see the minimum alignment percent a mutation has with the original virus — about 77.6 percent. The rather large standard deviation of 7 percent for% identitymeans that there is a wide range of mutation. This is supported by amassivestandard deviation inbit score— the standard deviation is larger than the mean!
A good way to visualize data is through a correlation heatmap. Each cell represents how correlated one feature is with another.
A lot of the data is highly correlated with each other. This makes sense since most of the measures are variations of each other. One thing to take note of ifalignment length’s high correlation withbit score.
Using K-Means to Create Mutation Clusters
K-Means is an algorithm forclustering, a method in machine learning to find groups of data points in the feature space. The goal of our K-Means is to find clusters of mutations, so we can derive insights on the nature of the mutations and how to address them.
However, we still need to choose the number of clustersk. While this is as simple as plotting out the points in two dimensions, this is unachievable in higher dimensions (if we want to retain the most information). Methods like the elbow method to choosekare subjective and inaccurate, so instead, we will use the silhouette method.
The silhouette method is a score given tokclusters on how well the clusters suit the data. Thesklearnlibrary in Python makes implementing both K-Means and the silouhette method very simple.
It seems that 5 clusters seems to be the best for the data. Now, we can determine the cluster centers. These are the points in which each cluster is centered around, and represent a numerical evaluation of (in this case) the 5 main types of mutations.
Note: The features have been standardized to put them all on the same scale. Otherwise, columns would not be comparable.
This heatmap represents each cluster’s attributes, by column. Because the points were scaled, the actual annotated values do not quantitatively mean anything. However, scaled values in each column can be compared. You can get a visual sense for the relative attributes of each of the mutation clusters is. If scientists were to develop a vaccine, it should address these main clusters of virii.
In the next section, we will visualize the clusters using PCA.
PCA for Cluster Visualization
PCA, or Principal Component Analysis, is a method of dimensionality reduction. It selects orthogonal vectors in multidimensional space to represent axes, such that the most information (variance) is retained.
With popular Python librarysklearn, implementing PCA can be done in two lines. First, we can check the explained variance ratio. This is the percent of statistical information that is retained from the original dataset. The explained variance ratio, in this case, is0.9838548580740327, which is astronomically high! We can be assured that whatever analyses we take from PCA will be true to the data.
Each new feature (principal component) is a linear combination of several other columns. We can visualize how important a column is to one of the two principal components with a heatmap.
It is important to understand what having a high value in the first component means — in this case, it is characterized by having a higher alignment length (is closer to the original virus), and component 2 is largely characterized by having a shorter alignment length (mutated farther from the original value). This is also reflected by the larger difference inbit score.
It is clear that there are 5 main strands of the virus mutation. We can take away lots of insights.
Four of the virus mutations are on the left side of the first principal component, and one on the right side. A signature of the first principal component is a highalignment length. This means that a higher value for a first principal component means a higheralignment length(is closer to the original virus). Lower values of component 1, thus, are farther genetically from the original virus. Most of the virus clusters vary largely from the original virus. Hence, scientists attempting to create a vaccine should be aware that the virus mutatesalot.
Conclusion
Using K-Means and PCA, were able to identify five main clusters of mutations in the coronavirus. Scientists developing vaccines for the coronavirus can use the cluster centers to gain knowledge about characteristics of each cluster. We were able to visualize the clusters in two dimensions using principal component analysis, and found that the coronavirus has a very high rate of mutation. This may be what makes it so deadly.
Note from the editors:Towards Data Scienceis a Medium publication primarily based on the study of data science and machine learning. We are not health professionals or epidemiologists, and the opinions of this article should not be interpreted as professional advice. To learn more about the coronavirus pandemic, you can clickhere.
댓글을 달아 주세요