Lab Med Qual Assur 2023; 45(4): 180-186
Published online December 31, 2023
https://doi.org/10.15263/jlmqa.2023.45.4.180
Copyright © Korean Association of External Quality Assessment Service.
Kyoung-Jin Park1 and Jong-Ho Park2
1Department of Laboratory Medicine, Samsung Changwon Hospital, Sungkyunkwan University School of Medicine, Changwon; 2Clinical Genomics Center, Samsung Medical Center, Seoul, Korea
Correspondence to:Kyoung-Jin Park
Department of Laboratory Medicine, Samsung Changwon Hospital, Sungkyunkwan University School of Medicine, 158 Paryong-ro, Masanhoewon-gu, Changwon 51353, Korea
Tel +82-55-233-6099
E-mail kjpark21@skku.edu
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Background: Genome Reference Consortium Human Build 38 (GRCh38) was released with improvements, such as accuracy and completeness, over human genome 19 (hg19). However, GRCh38 has not been widely adopted because realignment is time-consuming and computationally expensive. To address this issue, faster and more convenient liftover tools have been developed to convert genome coordinates between assemblies. This study investigated the differences in genetic variants detected according to reference genome selection. Additionally, we investigated the accuracy of liftover tools for the conversion to GRCh38 from hg19.
Methods: Four FASTQ files (GNG-22-01, GNG-22-02, GNG-22-04, and GNG-22-05) and validated variant descriptions (n=144) were provided by the Korean Association of External Quality Assessment Service. The variants detected based on the alignment to hg19 were compared to those based on the alignment to GRCh38. The liftover tools, such as CrossMap, NCBIRemap, and UCSCliftOver, were used to convert the genome coordinates from hg19 to GRCh38.
Results: Among the variants identified based on the hg19 alignment, 2% (3/144) were not detected based on the GRCh38 alignment: NM_000219.6 (KCNE1): c.112A>G (p.Ser38Gly), NM_005429.5(VEGFC): c.1256_1258delTGA (p.Met419del), NM_004415.4(DSP):c.741T>G (p.Ala247=). The accuracy of CrossMap, NCBIRemap, and UCSCliftOver was 100% (10,725/10,725), 99.99% (10,724/10,725), and 100% (10,725/10,725), respectively.
Conclusions: This study suggests that liftover tools might be one of the practical alternatives for genome conversion in cases where realignment approaches are not possible. Further clinical studies are warranted to compare the performance of liftover tools and realignment approaches.
Keywords: Alignment, Liftover, Genome Reference Consortium Human Build 38, Human genome 19, CrossMap, NCBIRemap, UCSCliftOver
차세대염기서열데이터 분석의 가장 첫 단계는 참조유전체(reference genome)에 대한 정렬(alignment)이며, 염기서열 정렬에 사용되는 참조유전체의 정확성과 완결성은 차세대염기서열분석의 유전변이 보고의 정확성에 중요한 영향을 미친다. 2001년 인간 참조유전체가 처음 보고된 이후, 현재까지 Genome Reference Consortium (GRC)에서 5번의 참조유전체 build 업데이트를 발표하였다. 현재 임상유전체분석에 주로 이용되는 참조유전체는 2009년에 발표된 GRC human 37 (GRCh37, hg19)이지만, 2013년에 발표된 GRC human 38 (GRCh38, hg38)이 염기서열 업데이트 측면(염기서열 개수, GC 함량, 엑손 개수)에서 hg19보다 정확성과 품질이 개선된 참조유전체이다[1,2].
GRCh38 임상 검증에 대한 최근 논문에 따르면, hg19보다 GRCh38을 적용할 때 더 정확하고 일관성 있는 유전체 데이터를 생성할 수 있다고 보고되었다[3,4]. 참조유전체 선택의 임상적 중요성을 가장 잘 보여주는 예는 Factor V Leiden allele (FVL) c.1601G>A p.(Arg534Gln)으로, FVL 동형접합형인 경우 정맥혈전의 위험도를 40–80배 증가시키는 변이이다[5,6]. 참조유전체 hg19를 정렬하는 파이프라인에서는 FVL 변이 대립유전자(alternative allele)가 아니라 정상 대립유전자(reference allele)가 검출(calling)되어, FVL을 놓치게 될 위험이 발생한다는 것이 잘 알려져 있다[2,3]. 또한 hg19를 사용할 경우 임상적으로 유의미한
참조유전체 hg19를 GRCh38로 변경하여 적용하기 위해서는 데이터 분석 첫 단계부터 GRCh38로 재정렬을 시행(re-alignment to GRCh38)하거나 리프트오버 도구(liftover tools, 매핑 파일을 이용하여, 염기서열 어셈블리 간 위치를 hg19에서 GRCh38로 변환하는 도구)를 사용할 수 있다. 재정렬 작업을 통해 가장 정확한 변이 정보를 얻을 수 있지만, 시간과 비용에 대한 부담으로 인해 임상검사실에서 쉽게 선택할 수 있는 접근법이 아니다[8]. 최근 이러한 문제를 해결하기 위해 생물정보학적 리소스가 반드시 필요하지 않으면서 임상검사실에서도 쉽게 접근 가능한 리프트오버 도구가 개발되었다[8,9].
본 연구에서는 검증된 외부정도관리물질을 이용하여 참조유전체(hg19 vs. GRCh38) 선택에 따라 검출되는 유전변이 차이가 발생하는지 평가하고자 한다. 또한 리프트오버 도구 CrossMap, UCSCliftOver, NCBIRemap의 변환 정확도를 비교 평가하고자 한다.
대한진단검사정도관리협회(‘대한임상검사정도관리협회’에서 변경)로부터 4개의 FASTQ 파일(2022년 신빙도조사 GNG-22-01, GNG-22-02, GNG-22-04, GNG-22-05; Illumina, San Diego, CA, USA)을 획득하여 bwa-0.7.17(참조유전체 hg19: hs37d5.fa와 hg38: hg38.fa 각각 적용), picard-tools-2.19.0, GenomeAnalysisTK-4.2.0.0를 이용하여 binary alignment map과 variant call format (VCF) 파일을 생성하였다(Fig. 1). FASTQ 파일에는 대한진단검사정도관리협회로부터 사전 검증된 변이 144개(hg19에 정렬할 때)가 모두 포함되어 있다(단일염기변이: n=130, 삽입/중복/결손: n=14). 검증된 변이 144개의 명명은 2022년 신빙도조사사업 공통보고서를 참조하였다(http://eqas.keqas.org/). 리프트오버 도구를 적용하기 위해 VCF로부터 변이 정보를 추출하여 browser extensible data 파일을 생성하였다. 리프트오버 도구는 CrossMap (http://asia.ensembl.org/Homo_sapiens/Tools/AssemblyConverter?db=core), NCBIRemap (https://www.ncbi.nlm.nih.gov/genome/tools/remap), UCSCliftOver (https://genome.ucsc.edu/cgi-bin/hgLiftOver)을 이용하였다. FASTQ 파일에 대해 참조유전체 GRCh38을 정렬하여 분석한 유전변이를 정답(ground-truth)으로 하여 리프트오버 도구를 이용하여 hg19에서 GRCh38로 참조유전체를 변경 적용하여 검출한 유전변이를 비교하여 리프트오버 도구의 변환 정확도를 비교하였다(Fig. 1).
대한진단검사정도관리협회로부터 정보가 검증되지 않은 변이의 경우, 염기서열 깊이(depth of coverage)가 30× 미만인 경우와 예측 전사체(predicted messenger RNA) 및 비암호화 전사체(non-protein-coding transcript)에 있는 변이는 분석대상에서 제외하였고, 암호화 전사체(protein-coding transcript)에 있는 변이만을 대상으로 하였다. 특히 검증된 변이 144개 각각에 대해 참조유전체(hg19 vs. GRCh38) 선택에 따른 변이 검출에 차이가 발생하는지 평가하였다. snpEff (v4_3_GRCh37.p13.RefSeq)를 이용하여 Human Genome Variation Society 권장사항에 따라 염기변이를 기술하여 비교하였다. 변이의 형태는 Integrative Genomics Viewer (IGV)를 통해 시각적으로 확인하였다.
참조유전체 hg19에 정렬한 분석 파이프라인을 통해 사전 검증된 변이 144개를 포함하여 10,966개의 변이를 생성하였다. 참조유전체 GRCh38에 정렬한 분석 파이프라인을 통해서는 검증된 변이 141개를 포함하여 10,725개의 변이를 생성하였다. 대한진단검사정도관리협회로부터 사전 검증된 변이 144개 중에서, 제외된 변이 3개는 NM_000219.6(
참조유전체 GRCh38에 정렬한 파이프라인을 통해서 얻은 10,725개의 변이를 리프트오버 도구를 통해 얻은 변이와 비교했을 때, CrossMap과 UCSCliftOver는 전체 변이의 변환에 모두 성공한 반면, NCBIRemap은 1개 변이 NM_007075.3(
최근 참조유전체 사용 현황에 대한 국외 조사에 따르면, 28곳의 검사실 중 2곳의 임상검사실에서만 GRCh38 참조유전체 적용 파이프라인으로 변경 적용하였다[7]. 절반 이상의 검사실에서 GRCh38로 변경 적용 계획이 없다고 응답하였는데, hg19를 고수하는 주된 이유는 시간과 비용, 인력이 충분하지 않은 반면, 당장은 GRCh38로의 변경에 따른 이점이 크지 않을 것으로 생각하기 때문이라고 응답하였다[7]. 한편, 국내 임상유전체검사실 생물정보학적 파이프라인에 대한 설문에 따르면, 대부분의 검사실에서 hg19를 참조유전체로 사용하여 유전체분석을 진행하고 있으며, 한 임상검사실에서만 hg19가 아닌 GRCh38을 참조유전체로 이용한다는 단면적 현황파악에 대한 발표가 있었다[10]. 하지만 최근 국내에서도 국가바이오빅데이터구축사업(https://www.kobic.re.kr/ngp/process)과 같은 국가지원프로젝트에서는 전장유전체분석에 hg19가 아닌 GRCh38를 참조유전체로 사용할 것을 요청하고 있어 국내 검사실에서도 GRCh38 참조유전체의 임상 도입을 위한 준비가 필요할 것으로 보인다.
현재 사용 중인 참조유전체인 hg19를 지속적으로 사용할 경우, 또는 GRCh38로의 변경 적용하는 경우에는 각각의 장단점이 있다. 예를 들어, hg19를 지속적으로 사용할 경우, 기존 분석과의 일관성이 유지된다는 점에서 안정성이 있고, 시간과 비용 및 분석파이프라인에 대한 추가 투자가 필요하지 않다는 장점이 있다[7]. 하지만 hg19를 지속적으로 사용할 경우, 임상적으로 유의미한 변이를 놓칠 위험과 부정확한 변이 해석의 위험 가능성에 대한 연구논문이 발표되고 있으며, 향후에는 외부에서 제공되는 리소스들에서 hg19 지원을 중지할 가능성이 있다는 단점이 있다[3,5,6]. 반면, GRCh38로의 변경 적용 시에는 참조유전체의 정확성과 완결성 개선에 따른 정확도 향상의 장점이 있으며, 유전 변이 해석에 자주 이용되는 외부 리소스 업데이트 시에도 해당 리소스를 지속적으로 사용 가능하다는 장점이 있다[2,7]. 하지만 GRCh38로의 변경 적용을 위한 생물정보학적분석 파이프라인의 검증이 필요하다는 단점이 있다[7].
본 연구에서는 GRCh38 참조유전체의 임상 도입을 위한 준비의 첫 단계로 참조유전체(hg19 vs. GRCh38) 선택에 따라 검출 여부가 달라지는 변이의 존재를 확인하였다. 검증된 변이 144개 중 3개에서 참조유전체 종류에 따라 검출 여부가 달라지는 현상이 발생하였으며, hg19에 정렬하는 파이프라인에서는 검출된 반면, GRCh38에 정렬한 파이프라인에서는 확인되지 않았다.
첫째, GRCh38를 참조유전체로 정렬한 경우 검출되지 못한 NM_000219.6(
둘째, GRCh38에 정렬한 경우 검출되지 않은 NM_005429.5 (
셋째, NM_004415.4(
본 연구에서는 리프트오버 도구 종류에 따라 참조유전체 GRCh38로 변경 성공률에 대해서도 평가하였으며, 리프트오버 도구 적용을 통해 참조유전체 GRCh38로 변경 성공률은 3개의 리프트오버 도구 모두에서 99.99% 이상으로 상당히 높은 비율을 보였다. NCBIRemap를 통한 변환에 실패한 NM_007075.3(
본 연구는 참조유전체 선택(hg19 vs. GRCh38)에 따른 변이 보고의 차이를 평가하기 위한 대상 변이의 개수가 제한적이라는 점에서(검증된 변이 144개) 한계가 있다. 하지만 전반적으로 참조유전체 GRCh38 적용에 대한 논의가 부재한 국내 상황에서 본 연구는 첫 번째 GRCh38 적용 결과라는 점에서 의의가 있다. 또한 본 연구에서는 실제 임상유전체 데이터를 직접 생성한 것이 아니라 외부정도관리 신빙도조사 프로그램에서 제공된 FASTQ 파일을 이용하여 분석하였다. 참조유전체 변경 도입의 필요성 및 리프트오버 도구의 정확성을 검증하기 위해, 추후 실제 임상유전체 데이터를 이용한 대규모 검증 연구가 필요하다.
요약하면, 본 연구에서는 국내에서 처음으로 참조유전체 선택(hg19 vs. GRCh38)에 따른 변이 보고의 차이를 평가하여 GRCh38의 임상 적용을 위한 기초 연구를 시행하였다. 뿐만 아니라 처음부터 GRCh38을 생물정보학적 파이프라인에 적용하여 분석한 유전변이를 정답으로 하여, 리프트오버 도구(CrossMap, UCSCliftOver, NCBIRemap)의 변환 정확성을 비교 평가하였다. 참조유전체 hg19를 이용하여 얻은 유전변이를 리프트오버 도구를 통해 변환할 때, 모든 변이가 GRCh38 정렬을 통한 결과와 일치하는 것은 아니라는 사실을 주지할 필요가 있다. 그럼에도 불구하고 리프트오버 도구는 생물정보학적 리소스에 대한 추가 투자를 계획하기 어려운 임상검사실에서는 선택할 수 있는 실용적인 대안 중 하나가 될 수 있다. 추후 여러 리프트오버 도구의 조합 사용과 참조유전체의 염기서열 영역에 대한 사전 검토를 통해 GRCh38 재정렬 과정의 비용을 절감하면서 유전변이 보고의 정확도 향상에 기여할 수 있을 것으로 기대된다.
이 연구는 대한진단검사정도관리협회의 2023년도 학술연구과제 연구비 지원으로 수행되었다(과제번호: 2023-10).
View Full Text | PubReader |
Abstract | Print this Article |
E-mail alert | Export to Citation |
Article as PDF | Open Access |