의학적 의사결정을 알리는 임상 데이터 마이닝용 두 번째 커널 머신

Scientific Reports 13권, 기사 번호: 10459(2023) 이 기사 인용

432 액세스

6 알트메트릭

측정항목 세부정보

기계 학습을 활용한 의료 의사 결정에는 모델 절약 달성, 신뢰할 수 있는 예측 보장, 높은 계산 효율성으로 실시간 권장 사항 제공이라는 세 가지 주요 과제가 있습니다. 본 논문에서는 의료 의사 결정을 분류 문제로 공식화하고 이러한 문제를 해결하기 위한 MKM(모멘트 커널 머신)을 개발합니다. 우리 접근 방식의 주요 아이디어는 각 환자의 임상 데이터를 확률 분포로 처리하고 이러한 분포의 순간 표현을 활용하여 필수 정보를 유지하면서 고차원 임상 데이터를 저차원 표현으로 변환하는 MKM을 구축하는 것입니다. 그런 다음 이 기계를 다양한 수술 전 임상 데이터 세트에 적용하여 수술 결과를 예측하고 의학적 의사 결정에 정보를 제공합니다. 이는 기존 방법에 비해 훨씬 적은 계산 능력과 분류 시간이 필요하면서도 유리한 성능을 제공합니다. 또한, 우리는 합성 데이터 세트를 활용하여 개발된 순간 기반 데이터 마이닝 프레임워크가 노이즈 및 누락 데이터에 강력하다는 것을 입증하고 맞춤형 의료 의사 결정을 지원하기 위해 만족스러운 예측을 생성하는 효율적인 방법을 제공하는 모델 간결성을 달성합니다.

주요 의학적 개입인 수술은 일반적으로 다른 치료법으로 결과가 만족스럽지 못한 경우 고려됩니다. 전자 건강 기록(EHR) 데이터와 같은 환자의 수술 전 임상 데이터를 기반으로 수술 후 부작용을 예측하는 것은 의사와 환자 모두에게 의사 결정을 알리는 데 매우 중요합니다1,2. 최근 몇 년 동안 임상 데이터의 가용성과 컴퓨팅 성능이 향상되면서 임상 데이터에서 정보를 추출하는 기계 학습(ML) 기술의 개발이 크게 촉진되었습니다. 특히, ML 알고리즘은 EHR을 통한 수술 후 결과의 수술 전 예측을 위한 AI 지원 의료 절차에서 상당한 진전을 이루었습니다3,4. 일반적인 ML 문제는 각 입력 데이터 포인트 \({\textbf{X}}\)를 원하는 출력 \({\textbf{y}}\)에 매핑하는 적절한 함수를 찾는 데 중점을 둡니다. 즉,

이 작업은 진단, 치료, 활력 징후 및 실험실 수치를 포함하여 규모가 크고 다양한 유형의 데이터가 혼합된 임상 기록이 포함된 데이터 세트의 경우 특히 어렵습니다5.

지난 10년 동안 수술 후 사건 예측을 통해 의학적 의사 결정을 지원하기 위해 수많은 ML 지원 방법이 제안되었습니다. 예를 들어, 체중 감량 수술의 경우 재입원율을 추정하기 위한 로지스틱 회귀(LR) 및 포아송 회귀(PR) 적용, 예측을 위한 신경망(NN) 및 그래디언트 부스팅 머신(GBM)의 활용 등 주목할만한 기여가 있습니다. 위장 누출 및 정맥 혈전색전증7,8, 비만 수술 후 30일 재입원 위험을 예측하는 슈퍼 학습기 알고리즘 개발9,10. 가능한 수술 후 사건을 평가하는 것 외에도 ML 방법은 전암성 또는 전암성 병변과 같은 의료 이미지의 이상을 식별하기 위해 널리 적용되었습니다. 주요 사례는 관상동맥 심장 질환 및 심부전 환자의 사망률 예측을 위한 딥 러닝 접근 방식부터15 관상 동맥 질환이 의심되는 환자의 조기 혈관 재개통 예후를 위한 정량적 이미지 특징 추출 방법까지 다양합니다16. 알고리즘적으로 심층 신경망은 대규모 데이터 세트에서 숨겨진 구조를 발견하고 적절한 조건에서 만족스러운 결과를 얻을 가능성이 높기 때문에 의학 연구자와 실무자에게 매력적이었습니다17. 이러한 연구 중 ML 기술을 의학 연구에 통합하는 것은 여러 면에서 성공했지만 일반적으로 희박성과 불규칙성과 같은 이질적인 구조와 대규모 임상 데이터로 인해 계산 효율성이 낮다는 문제가 있습니다18. 일반적으로 ML 알고리즘의 복잡성은 데이터 크기에 따라 시간과 메모리 사용량이 기하급수적으로 증가합니다. 또한 더 나은 성능을 생성하기 위해 심층 신경망은 계산 효율성 외에도 잡음에 대한 견고성과 모델 절약성을 더욱 희생합니다19.

0\) is a constant controlling the sparsity of the solution. Moreover, \(\bar{{\textbf{K}}}^{(j)} = \Gamma {\textbf{K}}^{(j)} \Gamma\) and \(\bar{{\textbf{L}}} = \Gamma {\textbf{L}} \Gamma\) are centered Gram matrices with the entries \({\textbf{K}}_{m,n}^{(j)} = k(p_{j,m},p_{j,n})\) and \({\textbf{L}}_{m,n} = l(y_m,y_n)\) defined by using some kernel functions k and l, where \(y_i\) denotes the class label of the \(i^{\textrm{th}}\) patient and \(\Gamma = {\textbf{I}}_N - \frac{1}{N} {\textbf{1}}_N {\textbf{1}}^{\top }_N\) is the centering matrix. Moreover, for memory and computational efficiency, we use Block HSIC Lasso24 in our experiments./p>