AI 학습 의료 데이터, 사이버 공격에 전방위 취약 [지금은 과학]

[아이뉴스24 정종오 기자] 의료 인공지능(AI) 모델 학습에 사용되는 데이터의 소유자인 개인들이 사이버 공격을 당했을 때 신원이 노출될 위험이 있다는 연구 결과(논문명: Disparate privacy risks from medical AI)가 25일 네이처에 실렸다.

소수 집단은 데이터 유출 위험에 불균형적으로 더 많이 노출될 수 있다고 연구팀은 지적했다. 독일 뮌헨공대 등 연구팀은 개인 정보 보호 위험에 초점을 맞춰 의료 AI 모델을 시험했다.

연구팀은 의료영상, 심전도, 전자 건강 기록 등 실제 임상 데이터로 구성된 7개의 대규모 데이터 세트를 사용했다. 데이터 제공자 중 가장 취약한 환자를 파악했다.

의료 인공지능 모델 학습에 사용되는 데이터의 소유자인 개인이 사이버 공격을 당했을 때 신원이 노출될 위험이 있다는 연구 결과가 나왔다. [사진=GEMINI]

그 결과 개인 수준에서는 의료 AI 공격(Membership Inference Attack, MIA)의 표적이 된 환자들이 거의 오류 없이 성공적으로 공격당했음을 확인했다. 집단 수준에서는 희귀질환 환자, 소수 인종 집단, 사회경제적 지위에 속한 사람, 드문 성별을 가진 사람들이 데이터 세트에서 과소 대표되는 집단으로 확인됐다.

MIA는 특정 개인의 데이터가 AI 모델의 학습에 사용됐는지를 역추적해내는 기법을 말한다. 의료 데이터의 특성상 학습 참여 여부 자체가 특정 환자의 병력이나 민감한 건강 상태의 유출로 직결된다.

AI 모델이 인코딩하는 데이터가 특수할수록(양성 종양이나 고밀도 유방 조직 이미지 등) 이런 집단과 개인은 개인정보 침해 공격에 더 취약하고 불균형적으로 노출되는 것으로 나타났다.

연구팀은 의료 AI 공격의 성공률이 모델의 용량과 규모에 비례해 증가한다는 사실도 발견했다. 일부 모델은 거의 완벽한 공격 성공률을 보였다.

연구팀은 MIA와 같은 개인정보 침해 공격이 현재 생각보다 훨씬 효과적으로 개인을 표적으로 삼을 수 있음을 보여준다고 강조했다. 개인정보 위험의 차이가 기존의 의료 불평등을 심화시켜 소수 집단이 AI 시스템에 대한 신뢰를 잃게 할 수 있다고 경고했다.

박한우 영남대 디지털융합비즈니스대학원 교수는 “이번 연구는 MIA를 통해 AI 모델만 접근할 수 있어도 특정 환자의 데이터가 학습에 사용되었는지를 높은 정확도로 추론할 수 있다”며 “특히 희귀질환자나 소수 집단처럼 데이터가 적은 보건 약자일수록 이러한 위험이 더 커질 수 있음을 실증적으로 보여줬다”고 평가했다.

이는 현재 우리나라에서 논의 중인 디지털헬스법에서 가명정보 활용을 확대하려는 정책에도 중요한 시사점을 제공한다고 설명했다. 박 교수는 “이번 연구가 의료 데이터 활용을 위축시키거나 가명 정보 활용을 제한해야 한다는 주장으로 해석하는 것은 바람직하지 않다”며 “의료AI 산업은 양질의 데이터가 축적되고 공유될 때 발전할 수 있는데 과도한 규제는 오히려 혁신을 저해할 가능성이 있다”고 지적했다.

가명정보를 사용할 것인가 말 것인가의 문제가 아니라 어떻게 안전하게 활용할 것인가에 초점을 맞춰야 한다는 거다.

박 교수는 “위험 기반(risk-based) 접근으로 의료정보 정책에 대한 고민이 필요하다”며 “희귀 질환 데이터나 소수 집단처럼 재식별 가능성이 큰 경우에는 더 강화된 보호조치를 적용하고, 상대적으로 위험이 낮은 경우에는 데이터 활용을 적극적으로 지원하는 차등적 거버넌스가 중요하다”고 진단했다

김남국 울산의대·서울아산병원 융합의학과 교수는 “이번 연구에서 핵심이 된 MIA는 특정 개인의 데이터가 AI 모델의 학습에 사용됐는지를 역추적해내는 기법”이라며 “의료 데이터의 특성상 학습 참여 여부 자체가 특정 환자의 병력이나 민감한 건강 상태의 유출로 직결되기에 치명적”이라고 설명했다.

김 교수는 “이번 연구는 현재 대형언어모델(LLM) 등의 학습 과 추론(Inference) 과정에서 나타나는 기술적 한계, 안전장치(Guiderail) 부재, 보안 우회(Bypass) 기술의 발전과 맞물려 시사하는 바가 있다”며 “희귀 질환 등의 취약한 소수 집단의 위험성이 높은 만큼 이 연구는 다양한 데이터 주입 공격이나 모델 추출 공격 등 더욱 다양한 형태의 고도화된 공격 기법(Attack methods)으로 확장해 검증할 필요가 있다”고 덧붙였다.

/정종오 기자([email protected])

AI 학습 의료 데이터, 사이버 공격에 전방위 취약 [지금은 과학]

관련 논문 네이처에 발표

주요뉴스

댓글 쓰기 ^제목 AI 학습 의료 데이터, 사이버 공격에 전방위 취약 [지금은 과학]

댓글-

뉴스톡톡 _{인기 댓글을 확인해보세요.}

정렬 인기순 최신순

관련 논문 네이처에 발표

관련기사

주요뉴스새로고침

댓글 쓰기 제목 AI 학습 의료 데이터, 사이버 공격에 전방위 취약 [지금은 과학]

뉴스톡톡 인기 댓글을 확인해보세요. 정렬 인기순 최신순

주요뉴스

댓글 쓰기 ^제목 AI 학습 의료 데이터, 사이버 공격에 전방위 취약 [지금은 과학]

뉴스톡톡 _{인기 댓글을 확인해보세요.}

정렬 인기순 최신순