Lab Med Qual Assur 2022; 44(4): 212-215
Published online December 31, 2022
https://doi.org/10.15263/jlmqa.2022.44.4.212
Copyright © Korean Association of External Quality Assessment Service.
Eunkyoung You1 , Jong-Ho Park2
, Chang-Hun Park3
, and Kyoung-Jin Park3
1Department of Laboratory Medicine, Inje University Busan Paik Hospital, Inje University College of Medicine, Busan; 2Clinical Genomics Center, Samsung Medical Center, Seoul; 3Department of Laboratory Medicine, Samsung Changwon Hospital, Sungkyunkwan University School of Medicine, Changwon, Korea
Correspondence to:Kyoung-Jin Park
Department of Laboratory Medicine, Samsung Changwon Hospital, Sungkyunkwan University School of Medicine, 158 Paryong-ro, Masanhoewon-gu, Changwon 51353, Korea
Tel +82-55-233-6099
E-mail kjpark21@skku.edu
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Background: The variant call format (VCF) is currently used to store information on genetic variants. Variant description from the VCF is not unique or standardized. A recent survey indicated that more than half of the clinical laboratories in Korea have not performed VCF normalization procedures in their bioinformatics pipeline during routine analysis. We evaluated the effect of variant normalization on variant nomenclature using two tools.
Methods: Two binary alignment map files (GNG-21-01 and GNG-21-04) and validated variant descriptions (single-nucleotide variations [n=51] and insertions/duplications/deletions [n=13]) were provided by the Korean Association of External Quality Assessment Service. Variant calling and annotation were performed using Torrent Suite and snpEff, respectively. The vt-normalize and Genome Analysis Toolkit (GATK) LeftAlignAndTrimVariants (LAATV) were used to evaluate the effect of VCF normalization.
Results: The accuracy of the nomenclature of un-normalized variants was 99% (63/64); one variant of NM_173630.3(RTTN): c.725_727dupGAG was incorrectly described as c.724_726dupGGA. The variant description was corrected through VCF normalization. The normalization results obtained using vt-normalize and GATK LAATV were comparable.
Conclusions: VCF normalization may not generate completely correct nomenclature but contributes to more accurate annotation of variants. VCF normalization should be introduced into bioinformatics pipelines in clinical laboratories to ensure more reliable annotations of variants.
Keywords: Variant call format, Variant, Normalization, Nomenclature
유전 변이의 정확한 명명(nomenclature)은 유전질환의 진단을 위해 중요할 뿐만 아니라 임상유전체검사의 정도관리 및 표준화 측면에서 필수적이다. 부정확한 변이 명명으로 인해 병원성 변이(pathogenic variants)를 놓칠 수 있으며, 양성 변이(benign variants)를 잘못 선별하여 변이 해석의 오류를 초래할 수도 있다. 따라서 임상유전체검사 결과를 보고하거나 또는 유전 변이 데이터를 공유할 때 표준화된 변이 명명을 사용하는 것은 매우 중요하다.
Variant call format (VCF)은 차세대염기서열분석을 통해 생성한 유전 변이를 보관하는 파일형태 중 하나로, 다양한 유전 변이를 표현하는 표준 파일형식이다[1]. VCF에는 유전 변이의 위치(genomic position), reference allele, alternative allele 등의 정보가 포함되어 있어 이를 기반으로 유전 변이 명명이 이루어진다. 그런데 다중염기변이(multiple-nucleotide polymorphism)의 경우, 같은 변이라도 여러 방식으로 표현할 수 있기 때문에, 여러 VCF 파일을 비교하기 위해서는 표준화된 표현방식이 요청된다(Fig. 1). 여러 방식으로 표현될 수 있는 변이에 대해 트리밍(trimming)과 정렬(alignment) 과정을 적용하여 서로 비교 가능한 형태로 만드는 과정을 VCF 정규화(VCF normalization)라고 한다[2-4].
최근 국내 임상유전체검사실의 생물정보학적분석 파이프라인에 대한 현황 조사결과에 따르면, 절반 이상의 검사실(52%, 12/23)에서는 VCF 정규화를 시행하지 않는다고 보고한 바 있다[5]. 또한 VCF 정규화를 시행하는 경우에는 Genome Analysis Toolkit (GATK) LeftAlignAndTrimVariants (LAATV)와 vt-normalize 툴킷을 이용하는 경우가 각각 13% (3/23), 22% (5/23)로 확인되었다[3-5]. GATK-LAAVT를 이용하는 정규화는 삽입/중복/결손에 대해서 왼쪽 정렬을 시행하는 과정과 중복염기서열에 대해 왼쪽과 오른쪽에서 트리밍을 시행하는 과정으로 구성되어 있다[3]. 또한 vt-normalize에 의한 정규화는 삽입/중복/결손에 대한 정렬과 양측 트리밍으로 구성된다는 점에서 GATK-LAAVT와 유사하지만, 복합형 변이에 대해서도 왼쪽 정렬을 시행한다는 점에서 차이가 있다[4].
본 연구에서는 VCF 정규화 시행 여부에 따라 유전 변이 명명의 정확도가 달라지는지 평가하고자 한다. 이를 통해 임상유전체검사실 분석파이프라인에 VCF 정규화 과정 도입의 필요성을 확인하고, 임상유전체검사의 정도관리 및 정확도 개선에 기여하고자 한다.
대한임상검사정도관리협회로부터 유전 변이(단일염기변이[n=51], 삽입/중복/결손[n=13]) 정보가 검증된 binary alignment map (2021년 신빙도조사 GNG-21-01, GNG-21-04; Thermo Fisher Scientific, Waltham, MA, USA) 파일을 획득하여 Torrent Suite ver. 5.10 소프트웨어(Thermo Fisher Scientific)를 이용하여 VCF 파일을 생성하였다. snpEff (v4_3_GRCh37.p13.RefSeq; http://pcingola.github.io/SnpEff/)를 이용하여 Human Genome Variation Society 권장사항에 따라 염기변이를 기술하였고, vt-normalize와 GATK LAATV (GATK ver. 4.1.2.0; Broad Institute, Cambridge, MA, USA)를 이용하여 VCF 정규화를 수행하였다[3,4,6]. 대한임상검사정도관리협회로부터 정보가 검증되지 않은 변이의 대립유전자 빈도가 15% 미만인 경우와 predicted mRNA 모델 기반으로 생성되는 경우는 변이 분석대상에서 제외하였다. 검증된 변이 64개에 대해 정규화를 시행하지 않고 생성한 변이 명명과 VCF 정규화 시행 후 생성한 변이 명명을 비교하여 정확도 차이가 있는지 비교하였다. 변이의 형태는 integrative genomics viewer (IGV)를 통해 시각적으로 확인하였다.
전체 937개의 변이(단일염기변이[n=822], 삽입/중복/결손[n=115])를 생성하였으며, VCF 정규화 과정을 통해 대략 1.0% (n=9/937) (vt-normalize 단독: 0.9% [8/937], GATK LAATV 단독: 0.9% [8/937], vt-normalize와 GATK LAATV: 0.7% [7/937])의 변이 명명이 달라지는 것을 확인하였다. 정규화 방법 차이(vt-normalize vs. GATK LAATV)로 인해 명명이 달라지는 변이는 2개로 확인되었다(Table 1).
Table 1 . Variant nomenclature changed based on the results of variant call format normalization.
Chr | Position | Ref | Alt | Gene | Transcript | Pre-normalization | GATK LAATV | vt-normalize | Validation |
---|---|---|---|---|---|---|---|---|---|
chr5 | 74021847 | ACTCAAA | A | NM_001281302.1 | c.1921_1926delTTTGAG | c.1922_1927delTTGAGT | c.1922_1927delTTGAGT | No | |
chr14 | 51375699 | TA | TAA | NM_002863.4 | c.2178-28dupT | c.2178-27dupT | c.2178-27dupT | No | |
chr16 | 88793089 | CA | CG | NM_001142864.2 | c.3699+33T>C | c.3699+33T>C | c.3699+33_3699+ 34delTGinsCC | No | |
chr18 | 67863851 | C | CTCC | NM_173630.3 | c.724_726dupGGA | c.725_727dupGAG | c.725_727dupGAG | Yes | |
chr2 | 179634391 | TATT | TT | NM_001267550.1 | c.8902+13_8902+ 14delAT | c.8902+28_8902+ 29delTA | c.8902+13_8902+ 14delAT | No | |
chr6 | 65016997 | AGA | A | NM_001142800.1 | c.6079-24_6079- 23delTC | c.6079-4_6079-3delTC | c.6079-4_6079-3delTC | No | |
chr6 | 70983674 | ATAAA | A | NM_001851.4 | c.1065+72_1065+ 75delTTTA | c.1065+102_1065+ 105delTATT | c.1065+102_1065+ 105delTATT | No | |
chr11 | 86658278 | ACAA | A | NM_012193.3 | c.*3903_*3905delTTG | c.*3908_*3910delGTT | c.*3908_*3910delGTT | No | |
chrX | 31165667 | AAAAGAAAGAA | AAAAGAA | NM_004006.2 | c.10554-42_10554- 39delTTCT | c.10554-36_10554- 33delCTTT | c.10554-36_10554- 33delCTTT | No |
Abbreviations: Chr, chromosome; Ref, reference allele; Alt, alternative allele; GATK, Genome Analysis Toolkit; LAATV, LeftAlignAndTrimVariants..
검증된 64개의 변이만을 대상으로 분석했을 때, 정규화 시행 전 생성된 변이 명명의 오류는 1.6% (1/64: 단일염기변이[n=0/51], 삽입/중복/결손[n=1/13])로 확인되었다. 정규화 시행 전 변이 명명에서 오류를 보인 변이 NM_173630.3(
본 연구에서는 VCF 정규화의 필요성을 확인하기 위해 vt-normalize와 GATK LAATV를 이용하여 VCF 정규화를 시행하여 변이 명명에 미치는 영향을 평가하였다[3,4]. VCF 정규화 과정의 적용을 통해 명명의 차이가 발생하는 변이의 비율은 상대적으로 낮지만, 정규화 시행 전 오류를 보였던 변이 명명이 정규화 적용을 통해 정확하게 교정된 결과는 주목할 만하다. VCF 정규화는 정확한 변이 명명을 생성하기 위한 과정이 아님에도 불구하고, 여러 방식으로 표현될 수 있는 변이의 명명을 하나의 방식으로 표현하는 공통된 알고리즘 적용을 통해 변이의 정확한 명명에 기여하는 것으로 추정된다.
정규화 방법의 차이에 따라 명명이 달라지는 변이의 빈도는 1.0% (n=9/937)로 확인되었다. 또한 검증된 64개의 변이만을 대상으로 분석했을 때 정규화 방법(vt-normalize vs. GATK LAATV)에 따른 차이는 없었다. 기존 연구에 따르면 vt-normalize를 통해 정규화되는 삽입/중복/결손의 빈도는 GATK LAATV보다 3.4% 더 많은 것으로 보고된 바 있다[2]. 본 연구에서는 대상 변이의 개수가 적을 뿐만 아니라 정규화 효과(effectiveness)를 평가하여 방법에 따른 불일치(disagreement)의 정도를 비교한 것이 아니므로, 본 연구결과와 기존 연구결과의 직접적인 빈도 비교는 적절하지 않을 것으로 판단된다.
본 연구는 VCF 정규화 작업이 변이 명명의 정확도에 미치는 영향을 평가하기 위한 대상 변이의 개수가 64개에 불과하다는 점에서 한계가 있다. 또한 다양한 단일염기변이와 삽입/중복/결손을 포함하였음에도 불구하고 horizontally complex variant와 vertically complex variant와 같은 복합형 변이의 명명에 대해서는 평가하지 못했다. 삽입/중복/결손에 대해서만 정렬과정을 시행하는 GATK-LAAVT와 달리 vt-normalize는 복합형 변이에 대해서도 정렬시키는 과정이 포함되어 있으므로 추후에는 복합형 변이를 포함하여 vt-normalize와 GATK LAATV의 성능 차이를 비교하는 연구가 필요하다[3,4].
그럼에도 불구하고 본 연구는 국내 임상유전체검사실의 절반 이상에서 수행하지 않는 VCF 정규화 도입의 필요성을 제안하는 근거 자료를 생성했다는 점에서 의의가 있다. VCF 정규화 과정을 통해 정확한 변이 명명을 보장할 수 있는 것은 아니라는 사실 또한 주지할 필요가 있다. 정확한 변이 명명을 제공하기 위해서는 VCF 정규화 과정과 별도로 IGV를 통한 변이의 형태 확인하고, Mutalyzer (https://mutalyzer.nl/), VariantValidator (https://variantvalidator.org/), 또는 VarSome (https://varsome.com/) 등을 통해 변이 명명을 재확인하는 과정이 생략되어서는 안 된다. 추후 VCF 정규화 과정의 최적화 및 도입을 통해 Sanger 염기서열분석을 통한 변이 검증의 비용을 절감하면서도 임상유전체검사의 정도관리 및 정확도 개선에 기여할 수 있을 것으로 기대된다.
이 연구는 대한임상검사정도관리협회의 2022년도 학술연구과제 연구비 지원으로 수행되었다(과제번호: 2022-06).
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |