Lab Med Qual Assur 2024; 46(3): 167-173
Published online September 30, 2024
https://doi.org/10.15263/jlmqa.2024.46.3.167
Copyright © Korean Association of External Quality Assessment Service.
Chang-Hun Park1,2 and Hee Young Kwon3
1Department of Laboratory Medicine and Genetics, Soonchunhyang University Bucheon Hospital, Soonchunhyang University College of Medicine, Bucheon; 2Department of Laboratory Medicine, Samsung Changwon Hospital, Sungkyunkwan University School of Medicine; 3Clinical Research Support Center, Industry-Academy Cooperation Foundation, Masan University, Changwon, Korea
Correspondence to:Chang-Hun Park
Department of Laboratory Medicine and Genetics, Soonchunhyang University Bucheon Hospital, Soonchunhyang University College of Medicine, 170 Jomaru-ro, Wonmi-gu, Bucheon 14584, Korea
Tel +82-32-621-6725
E-mail 89581@schmc.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Platelet function tests (PFTs) are essential for predicting bleeding tendencies and assessing the effectiveness of antiplatelet agents. The VerifyNow System is a quick and simple PFT, but warning messages (WMs) due to biological factors may reduce its effectiveness. This study aimed to quantify the frequency of WMs and evaluate the performance of machine learning (ML) models for predicting these WMs. Data were retrospectively collected from patients who underwent VeryNow System testing from October 2019 to April 2023. The patients were classified into WM-positive (WMPOS) and WM-negative (WMNEG) groups. Significant variables between two groups were selected for feature analysis. Prediction models were developed using XGBoost, random forest (RF), support vector machine, and logistic regression algorithms. A receiver operating characteristic (ROC) curve analysis with five-fold cross-validation was performed using Python (Python Software Foundation, USA). A total of 6,998 data were collected from 6,438 patients, with 0.8% (55/6,998) classified as WMPOS. Significant differences were observed in sex, alanine transaminase levels, alkaline phosphatase levels, total bilirubin levels, creatinine levels, prothrombin time, white blood cell count, and hematocrit count between the two groups. The area under the ROC of the four models for predicting the WMPOS showed excellent or good (0.8–1.0) performance. Both XGBoost and RF models achieved accuracy, precision, recall, and F1 scores exceeding 0.99. Machine learning models were used to predict the WMs of PFT and showed good performance, potentially enhancing the efficiency of PFT. However, further research is needed to apply ML in clinical laboratories.
Keywords: Platelet function tests, VerifyNow, Machine learning, Performance
혈소판기능검사는 출혈의 원인을 진단하고 멍듦과 같은 광범위한 출혈 성향을 예측하며 항혈소판 요법의 치료효과 판정에 사용될 수 있다[1]. 혈소판기능검사의 역사는 Duke법에 의한 출혈시간이 혈소판의 기능을 평가하는 최초의 검사법이었고 1960년대에 Born에 의한 혈소판 풍부 혈장에서의 혈소판 응집을 평가하는 광투과식응집측정기(light transmission aggregometry, LTA)법이 혈소판 기능을 진단하는 중요한 검사법으로 자리 잡았다[2]. 일반적으로 LTA법을 이용한 혈소판기능검사는 복잡하고 전문적이며 검사시간이 많이 소요된다. 2000년 초부터 LTA법에 비해 훨씬 간단하고 결과가 정량적으로 보고되는 혈소판기능검사 기기들이 개발되고 도입되었다[2-4]. 그 중 VerifyNow System (Werfen, Bedford, MA, USA)은 aspirin, P2Y12 receptor blocker, glycoprotein (GP) IIb/IIIa inhibitor의 치료효과 및 저항성을 확인할 수 있으며 전혈에서 카트리지를 이용하여 쉽고 빠르게 측정할 수 있는 장점이 있다[4].
VerifyNow System은 여러 가지 환경적 변수에 의해 경고 메시지(warning message, WM)가 발생할 수 있다. 검사 중 발생하는 WM은 검사결과에 영향을 주어 재검률을 높이고 약제 내성 또는 혈소판 기능 이상 등의 조기진단을 어렵게 할 수 있다.
본 연구에서는 VerifyNow Aspirin Assay (Werfen) 검사 중 발생할 수 있는 WM의 발생빈도를 확인하고 이와 관련된 요인들을 후향적 데이터를 분석하여 확인해 보았다. 그리고 이러한 데이터를 바탕으로 기계학습기법을 이용하여 WM의 발생을 예측할 수 있는 예측모델을 만들고 성능을 평가했다.
2019년 10월 1일부터 2023년 4월 30일까지 삼성창원병원에서 신속 혈소판기능검사가 의뢰된 20세에서 60세까지의 환자를 대상으로 후향적으로 데이터를 수집하였다. 데이터는 신속 혈소판기능검사가 의뢰된 시점의 성별, 나이, 내원경로(외래/입원/응급실), 진료과, 검사실 검사결과가 수집되었다. 검사실 검사항목을 선정하기 위해서 혈소판 기능에 영향을 줄 수 있는 것으로 알려진 다양한 질환을 리뷰하였다[5-8]. 그리고 이와 관련된 검사항목(단백질, 알부민, aspartate aminotransferase [AST], alanine transaminase [ALT], alkaline phosphatase [ALP], 총 빌리루빈, 혈액요소질소, 크레아티닌, 포도당, prothrombin time [PT], activated partial thromboplastin time [aPTT], 백혈구 수, 적혈구용적률, 그리고 혈소판 수)을 선정하고 검사결과를 수집하였다. 수집된 정보 중 결측치가 있는 경우 연구대상에서 제외하였다. 본 연구는 삼성창원병원의 연구심의위원회 승인을 받았다(SCMC 2023-03-010).
연구대상자로부터 3.2% sodium citrate가 항응고제로 들어있는 진공채혈튜브(Becton, Dickinson and Company, Franklin Lakes, NJ, USA)에 수집된 혈액 검체는 잘 혼합한 후 실온에 30분 이상 방치 후 VerifyNow Aspirin Assay를 시행하였으며, 채혈 후 4시간 이내에 검사를 완료하였다. 혈소판의 응집 정도는 aspirin reaction unit (ARU)로 보고하며, 550 ARU 미만(low)은 혈소판 기능 이상 또는 항혈소판제제 복용 의심, 619–550 ARU는 경계(borderline), 620 ARU 이상(high)은 혈소판 기능 정상으로 판정하였다. 제조사의 사용자 매뉴얼을 바탕으로 GPIIb/IIIa 억제제의 복용력, 낮은 헤마토크릿, 낮은 혈소판 수, 선천성 혈소판 이상의 유무와 같이 환자의 상태와 관련된 WM을 보이는 경우를 WMPOS (WM-positive) 그룹으로 정의하고 WMNEG (WM-negative) 그룹과 비교 분석하였다.
WMPOS 예측모델을 구축하기 전에 특징 선택(feature selection)을 통해 변수를 선별하였다. 특징 선택은 두 그룹 간 통계적으로 의미 있는 차이를 보인 변수로 선별하였고 변수들 간 상관관계를 평가하기 위해 공선성(collinearity)을 확인하였다. XGBoost (XGB) [9], random forest (RF) [10], support vector machine (SVM) [11], 그리고 logistic regression (LR) [12] 알고리즘을 이용하여 WMPOS를 예측하기 위한 기계학습모델을 구축하였다. 불균형 데이터(imbalanced data)로 인한 편향된 학습을 방지하기 위해 상대적으로 적은 수의 그룹에 대해 오버 샘플링(oversampling)을 이용하였다. 기계학습모델은 5겹 교차검증(five-fold cross validation)을 이용하여 검증하였다. 그리고 기계학습모델의 성능을 평가하기 위해 receiver operating characteristic (ROC) 곡선 분석을 이용하여 area under the ROC (AUROC), 정확도(accuracy), 정밀도(precision), 재현율(recall), F1 score를 확인하였다. AUROC 결과값에 따라 excellent (0.9–1), good (0.8–0.9), fair (0.7–0.8), poor (0.6–0.7), 그리고 failed (0.5–0.6)로 평가하였다. WMPOS 예측모델 중 XGB, RF와 같은 트리 기반 모델(tree-based model)의 경우 변수 중요도(feature importance)를 확인하기 위해 mean decrease in impurity (MDI)를 계산하였다. 공선성, 기계학습모델링, 5겹 교차검증, ROC 곡선분석, MDI 계산은 scikit-learn-the machine learning library [13]와 함께 Python (Python Software Foundation, Wilmington, DE, USA)을 이용하였다. Heatmap과 ROC 곡선은 matplotlib library [14]를 이용하여 그렸다.
그룹간 정성적 또는 정량적 자료는 빈도(% [n/N]) 또는 중간값과 사분범위(interquartile range, IQR)을 구하였다. 통계분석법은 정성적 변수의 경우 Fisher’s exact test, 정량적 변수의 경우 Mann-Whitney U test를 이용하였다. 공선성은 Pearson correlation과 point biserial correlation을 이용하여 확인하였다. 오버 샘플링은 SMOTE-NC (synthetic minority oversampling technique for nominal and continuous features) [15]를 이용하였다. 통계 처리는 Python (Python Software Foundation)과 IBM SPSS ver. 20.0 (IBM Corp., Armonk, NY, USA)을 사용하였다. 유의수준은 0.05 이하로 정하였다.
총 6,438명의 환자로부터 6,998건의 VerifyNow Aspirin Assay 결과를 수집하였다. 전체 환자의 성비(male:female ratio)는 1:2.29이었고 나이는 중간값 46세(IQR, 37–53세)였다. 전체 6,438명 중 82.2% (5,291/6,438)는 외래에서, 15.8% (1,017/6,438)는 입원 중, 3.4% (217/6,438)는 응급실에서 VerifyNow Aspirin Assay가 의뢰되었다. 전체 6,998건의 검체 중 ARU가 low, borderline, high를 보인 비율은 각각 59.2% (4,143/6,998), 24.1% (1,688/6,998), 15.9% (1,112/6,998)였고 WMPOS 그룹은 0.8% (55/6,998)이었다.
WMPOS 그룹은 WMNEG 그룹에 비해 여성의 비율(92.7% vs. 69.7%, P<0.001)과 PT international normalized ratio (INR) (1.06 vs. 1.03, P=0.001)의 중간값이 의미 있게 높았고, ALT (12 U/L vs. 15 U/L, P=0.003), ALP (59 U/L vs. 68 U/L, P<0.001), 크레아티닌(0.6 mg/dL vs. 0.7 mg/dL, P=0.004), 백혈구 수(5.84×109/L vs. 6.5×109/L, P=0.011), 적혈구용적률(25.9% vs. 39.8%, P<0.001)의 중간값이 의미 있게 낮았다. 총 빌리루빈은 두 그룹 간 중간값은 같았으나 WMPOS 그룹에서 의미 있게 낮은 값의 분포를 보였다(P=0.005). 그룹 간의 기본적인 특징은 Table 1로 정리하였다.
Table 1 . Baseline characteristics and laboratory data according to the results of the VerifyNow Aspirin Assay
Variable | Total | WMNEG | WMPOS | P-value |
---|---|---|---|---|
No. of data | 6,998 | 6,943 | 55 | – |
Age (yr) | 45 (37–53) | 45 (37–53) | 47 (39–50) | 0.969 |
Male:female ratio | 1:2.3 | 1:2.3 | 1:12.8 | <0.001 |
Protein (g/dL) | 7.2 (6.8–7.5) | 7.2 (6.8–7.5) | 7.1 (6.9–7.5) | 0.877 |
Albumin (g/dL) | 4.6 (4.3–4.8) | 4.6 (4.3–4.8) | 4.5 (4.3–4.8) | 0.080 |
AST (U/L) | 19 (16–24) | 19 (16–24) | 17 (15–21) | 0.058 |
ALT (U/L) | 15 (11–24) | 15 (11–24) | 12 (9–19) | 0.003 |
ALP (U/L) | 68 (54–88) | 68 (55–88) | 59 (44–71) | <0.001 |
Total bilirubin (mg/dL) | 0.4 (0.3–0.6) | 0.4 (0.3–0.6) | 0.4 (0.2–0.5) | 0.005 |
BUN (mg/dL) | 11.9 (9.5–14.8) | 12.0 (9.5–14.8) | 10.8 (8.7–13.7) | 0.116 |
Creatinine (mg/dL) | 0.7 (0.6–0.8) | 0.7 (0.6–0.8) | 0.6 (0.5–0.7) | 0.004 |
Glucose (mg/dL) | 100 (92–114) | 100 (92–114) | 99 (93–115) | 0.928 |
PT (INR) | 1.03 (0.98–1.08) | 1.03 (0.98–1.08) | 1.06 (1.02–1.12) | 0.001 |
aPTT (sec) | 31.2 (28.8–33.6) | 31.2 (28.8–33.6) | 31.2 (29.0–34.1) | 0.735 |
WBC (×109/L) | 6.49 (5.31–8.06) | 6.5 (5.31–8.07) | 5.84 (4.47–7.70) | 0.011 |
Hematocrit (%) | 39.7 (36.7–42.9) | 39.8 (36.8–42.9) | 25.9 (23.0–36.8) | <0.001 |
Thrombocytopenia (%) | 3.2 (224/6,998) | 3.2 (221/6,943) | 5.5 (3/55) | 0.257 |
Values are presented as number, median (interquartile range), or % (number/total numbers) unless otherwise stated.
Abbreviations: WMNEG, warning message-negative in the VerifyNow Aspirin Assay; WMPOS, warning message-positive in the VerifyNow Aspirin Assay; AST, aspartate aminotransferase; ALT, alanine aminotransaminase; ALP, alkaline phosphatase; BUN, blood urea nitrogen; PT, prothrombin time; INR, international normalized ratio; aPTT, activated partial thromboplastin time; WBC, white blood cell count.
특징 선택과 공선성 확인을 통해 8개의 변수(성별, ALT, ALP, 총 빌리루빈, 크레아티닌, PT INR, 백혈구 수, 적혈구용적률)가 선별되었다(Fig. 1). 기계학습모델의 성능을 검증하기 위해 5겹 교차검증과 함께 ROC 곡선을 그렸다(Fig. 2).
WMPOS를 예측하기 위한 XGB, RF, SVM, 그리고 LR 모델의 AUROC는 각각 0.9998±0.0001, 0.9999±0.0001, 0.9026±0.0036, 그리고 0.8921±0.0041으로 훌륭한 또는 좋은(excellent or good) 성능을 보였다. 정확도는 XGB 모델에서 0.9968±0.0008, RF 모델에서 0.9964±0.0009, SVM 모델에서 0.7919±0.0071, 그리고 LR 모델에서 0.7846±0.0058이었다. 정밀도는 XGB 모델에서 0.9971±0.0008, RF 모델에서 0.9970±0.0014, SVM 모델에서 0.8223±0.0097, 그리고 LR 모델에서 0.8104±0.0097이었다. 재현율은 XGB 모델에서 0.9965±0.0011, RF 모델에서 0.9958±0.0005, SVM 모델에서 0.7451±0.0197, 그리고 LR 모델에서 0.7432±0.0035이었다. F1 score는 XGB, RF, SVM, 그리고 LR 모델에서 각각 0.9968±0.0008, 0.9964±0.0009, 0.7815±0.0096, 그리고 0.7753±0.0049였다. 기계학습모델의 예측성능은 Table 2에 요약하였다.
Table 2 . Performance metrics of the models, including the AUROC, accuracy, precision, recall, and F1 scores, for predicting the WMPOS group by VerifyNow Aspirin Assay
ML | AUROC | Accuracy | Precision | Recall | F1 score |
---|---|---|---|---|---|
XGB | 0.9998 | 0.9968 | 0.9971 | 0.9965 | 0.9968 |
RF | 0.9999 | 0.9964 | 0.9970 | 0.9958 | 0.9964 |
SVM | 0.9026 | 0.7919 | 0.8223 | 0.7451 | 0.7815 |
LR | 0.8921 | 0.7846 | 0.8104 | 0.7432 | 0.7753 |
The variables selected through feature selection for predicting WMPOS are sex, alanine transaminase, alkaline phosphatase, total bilirubin, creatinine, prothrombin time (international normalized ratio), white blood cell count, and hematocrit count.
Abbreviations: AUROC, the area under the receiver operating characteristic; WMPOS, warning message-positive; ML, machine learning; XGB, XGBoost; RF, random forest; SVM, support vector machine; LR, logistic regression.
XGB, RF 모델에서 변수 중요도가 계산되었다(Fig. 3). MDI는 XGB 모델에서 적혈구용적률이 가장 높았다. 그 이후 크레아티닌, 성별, PT INR, 총 빌리루빈, ALP, ALT, 백혈구 수의 순서였다. RF 모델에서도 적혈구용적률이 가장 높았다. 그 이후 총 빌리루빈, PT INR, 크레아티닌, ALP, ALT, 성별, 백혈구 수의 순서였다.
본 연구에서는 후향적 데이터를 분석하여 신속 혈소판기능검사 중 하나인 VerifyNow System의 WM 발생률을 확인하였고(0.8%, 55/6,998), 특징 선택으로 선정된 성별, ALT, ALP, 총 빌리루빈, 크레아티닌, PT INR, 백혈구 수, 적혈구용적률 항목을 기준으로 WM 예측모델을 만들었다.
VerifyNow System과 같은 신속 혈소판기능검사는 2–4시간 이내에 검사가 시행되어야 한다. 게다가 검사비용이 고가이기 때문에 WMs의 발생을 예측하여 적절한 대체 검사법을 이용한다면 신속히 결과를 내거나 비용 효율성을 높일 수 있다. 본 연구에서는 WMs를 보인 55건 중 52건에서 동일한 검체로 collagen-epinephrine 카트리지와 함께 platelet function analyzer-100/200 (Siemens Healthcare, Marburg, Germany) 검사가 추가로 시행되었고 19.2% (10/52)에서 혈소판 기능 이상 또는 항혈소판제제 복용 의심을 확인할 수 있었다.
기계학습은 기존 통계분석방법의 확장으로 간주된다[16]. 일반적으로 지도(supervised) 접근방식에서는 알고리즘이 이미 분류된 훈련(training) 데이터로부터 분류되지 않은 테스트(test) 데이터에 대해 예측이나 결정을 내리게 된다. 기계학습의 개념은 1967년부터 시작되었으나 혈액응고 또는 지혈 분야에서는 최근에 종종 보고되고 있으며, 대부분 질병 예후의 예측과 검사결과의 해석과 관련되어 있다[17-19]. 하지만 본 연구와 같이 혈소판기능검사의 효율성 개선을 위한 기계학습의 적용은 없었다. 본 연구를 위해 적용할 알고리즘을 선택하기 위해 각각 알고리즘의 이론적으로 정의된 장점을 고려할 수도 있지만, 실제로는 데이터에 적합한 알고리즘을 직접 적용하고 비교하여 선택할 필요가 있다[16]. 본 연구에서는 혈소판기능검사에서 WMs의 발생을 예측하는 데 XGB, RF, SVM, 그리고 LR 알고리즘을 적용해 보았고 전반적으로 성능은 우수하였다. 그 중 XGB와 RF 모델은 모든 성능평가 항목에서 0.99 이상의 결과를 보여 WMs 발생의 선별에 적합한 모델로 생각되었다(Table 2).
본 연구는 몇 가지 한계점이 있다. 첫 번째, 사용된 데이터는 후향적으로 수집되었고 항혈소판 제제 투약력과 선천성 혈소판 질환의 유무 등 환자의 질환과 관련된 데이터가 부족하다. 이것은 기계학습모델의 예측 성능을 저하시킬 수 있다. 두 번째, 기계학습모델은 블랙박스(black-box) 특성을 가진다. 이것은 내부 분석 기전을 이해하기 어렵게 만들어 예측 불가능하고 치명적인 위험을 초래할 가능성이 있다[20]. 하지만 트리 기반 모델의 경우 변수 중요도를 계산할 수 있다. 본 연구에서는 적혈구용적률의 변수 중요도가 가장 높은 것으로 확인되었다. 적혈구용적률은 제조사가 제시한 WMPOS의 원인이다. 앞에서 살펴본 한계점은 추후 환자의 임상정보를 포함한 전향적 연구를 통한 데이터 수집으로 기계학습모델을 개선할 필요가 있다.
결론적으로, 본 연구는 신속 혈소판기능검사의 효율성 개선에 기계학습 알고리즘을 적용 가능하다는 점에서 의미가 있다. 본 연구를 통해 XGB와 RF 모델이 VerifyNow system의 경고메시지 예측에 우수한 성능을 보였고 전향적 연구를 통한 검증이 필요하겠다.
본 연구는 대한임상검사정도관리협회 2023년 학술연구비(2023-7)와 순천향대학교 부속 부천병원 연구비 지원으로 수행하였다.
View Full Text | PubReader |
Abstract | Print this Article |
E-mail alert | Export to Citation |
Article as PDF | Open Access |