Skip to content

gmrmsy/CLAP_D

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

뇌졸중 후 언어장애 진단을 위한
딥러닝 기반 언어 기능 평가 서비스 개발

실어증(Aphasia)과 마비말장애(Dysarthria)는 뇌졸중, 외상성 뇌손상, 신경퇴행성 질환 등으로 인해 발생하는 대표적인 언어장애로, 환자의 의사소통 능력과 삶의 질에 중대한 영향을 미칩니다. 현재 대부분의 언어 평가 방식은 언어치료사나 신경과 전문의의 청지각적 판단에 의존하고 있으며, 이는 다음과 같은 한계를 가집니다.

  • 검사자의 주관성이 개입될 가능성
  • 시간과 인력 소모가 크며 반복적 평가가 어려움
  • 장애의 정량적 분석 및 추적이 제한적임

이에 따라, 딥러닝 기반의 자동 언어 평가 모델을 개발함으로써 보다 객관적이고 효율적인 진단 도구를 제공하고자 합니다. 특히 음성 데이터를 활용한 정량적 분석은 의료 현장에서의 실용성과 신뢰성을 동시에 확보할 수 있는 기술적 대안이 될 수 있습니다.


본 연구의 궁극적인 목적은 실어증 및 마비말장애 환자의 언어 능력을 정량적으로 평가하고 분류할 수 있는 딥러닝 기반 모델을 구축하는 것입니다. 이를 통해 다음과 같은 세부 목표를 달성하고자 했습니다.

  • 자동화된 언어 평가 시스템 개발
    • 환자의 음성 데이터를 기반으로 언어장애의 정도를 분석
    • 발화 속도, 음소 오류, 조음 정확도 등 다양한 언어적 특징을 추출
  • 딥러닝 기반 분류 및 예측 모델 구축
    • CNN, RNN, Transformer 등 최신 딥러닝 아키텍처를 활용하여 장애 심각도 예측
  • 설명 가능한 AI(XAI) 적용
    • 의료진이 모델의 판단 근거를 이해할 수 있도록 시각화 및 설명 기능 제공
    • 환자 및 보호자에게도 결과에 대한 직관적 피드백 제공
  • 언어재활 및 치료 계획 수립 지원
    • 평가 결과를 기반으로 맞춤형 언어재활 프로그램 설계
    • 치료 경과 추적 및 효과 분석 가능

다음과 같은 목표를 달성함으로 기대할 수 있는 효과는 다음과 같습니다.

  • 의료진의 진단 효율성 향상
    • 반복적 평가 및 모니터링이 가능하여 진단 정확도 향상
    • 의료 인력의 부담 경감 및 진료 시간 단축
  • 환자 맞춤형 치료 제공
    • 장애 정도에 따른 정밀한 치료 계획 수립
    • 치료 효과의 정량적 추적 가능
  • 사회적 비용 절감 및 삶의 질 향상
    • 조기 진단 및 개입을 통한 장기적 치료 비용 절감
    • 환자의 사회 복귀 및 의사소통 능력 회복 지원

검사 개요

해당 검사는 두 가지 영역에서 각 5개, 6개의 항목을 갖고 있습니다.
CLAP_A: 실어증으로 인한 인지-언어 연결 능력(듣기·이해·표현)을 평가하는 항목
CLAP_D: 마비말장애로 인한 발성·조음 및 구강 근육 사용 능력을 평가하는 항목

검사구분 검사 종류명 상세내용
CLAP_A 듣고 따라 말하기 평가자가 들려주는 단어,문장을 똑같이 따라 말하는 항목
CLAP_A 끝말 맞추기 평가자가 제시하는 문장의 끝말을 말하여 맞추는 항목
CLAP_A 물건 이름 말하기 평가자가 제시하는 그림을 보고 물건의 이름을 말하는 항목
CLAP_A 동물 이름 말하기 제한시간 안에 동물 이름을 최대한 많이 말하는 항목
CLAP_A 그림 보고 이야기 하기 평가자가 제시하는 그림을 보고 최대한 상세히 그림을 설명하는 항목
CLAP_D '아' 소리내기 '아' 발음과 소리를 최대한 길게 유지하는 항목
CLAP_D '퍼' 반복하기 제한시간 안에 '퍼' 발음을 최대한 많이 소리내는 항목
CLAP_D '터' 반복하기 제한시간 안에 '터' 발음을 최대한 많이 소리내는 항목
CLAP_D '커' 반복하기 제한시간 안에 '커' 발음을 최대한 많이 소리내는 항목
CLAP_D '퍼터커' 반복하기 제한시간 안에 '퍼터커' 발음을 최대한 많이 소리내는 항목
CLAP_D 또박또박 말하기 평가자가 제시한 단어,문장을 또박또박 말하는 항목

위의 항목 중 '퍼'반복하기, '터'반복하기, '커'반복하기, '퍼터커'반복하기, 또박또박 말하기를 담당하여 모델을 개발하였습니다.

'퍼'반복하기, '터'반복하기, '커'반복하기, '퍼터커'반복하기

1. 데이터 전처리 코드 보기

각 검사의 발음은 다르지만 일정하게 반복되는 소리를 찾는다는 것에 공통점이 있습니다. 때문에 각 발화 패턴의 모델을 따로 학습해서 사용하는것보다 하나의 모델로 모든 항목을 검사할 수 있을꺼라 생각했습니다. 이에 각 항목의 데이터들로 모두 모델학습을 진행한 후 예측한 값과 실제 값의 상관계수로 성능을 확인하도록 계획하였습니다.

2. 모델 구현 및 학습 코드 보기

Image
해당 검사는 일정 발화의 반복을 세는 검사이기 때문에 음성데이터이지만 멜 스펙트로그램의 일정 패턴을 그림으로서 세는 태스크라 생각했습니다.
때문에 CNN 레이어와 FCL를 활용하여 발화의 횟수를 예측하는 모델을 구축하였습니다.

이를 통하여 모델이 예측한 발화의 횟수와 실제 횟수와의 상관계수가 0.815로 유의한 결과를 나타냄을 확인할 수 있었습니다.
Image

또박또박 말하기

1. 데이터 선정 코드 보기

해당 검사는 25항목으로 각 항목 점수의 분산이 전체적으로 낮게 형성되어있습니다. 그렇다는것은 target이 고루 분포되지 않았다는 것이고 모델은 편향된 target에 대한 데이터를 편향되게 학습하게 됩니다. 때문에 이 문제를 해결하기 위해 모든 데이터를 이용하여 학습하는 동시에 분산이 높은 5개 항목을 선정하여 학습을 진행하였습니다.

2. 데이터 전처리 및 증강 코드 보기

모델이 각 음성과 텍스트 데이터의 ____를 통해 검사 점수를 예측 할 수 있어야 된다 생각했습니다. 때문에 검사자의 발화 음성과 평가자의 제시 텍스트 두 데이터가 인풋데이터로 두 데이터 모두 전처리를 진행하였습니다.
또한 편향된 target값을 제외한 데이터를 증강하여 모델이 최대한 다양한 target값을 학습할 수 있도록 하였습니다.

3. 모델 구현 및 학습 코드 보기

Image
두 인풋데이터를 융합하면서 두 데이터의 유사성을 판별해야했기 때문에 검사자의 음성을 Query, 평가자의 텍스트를 Key로 하여 MultiHaea-Attention을 모델에 적용하는 것이 적합하다 생각했습니다.
이렇게 위와 같은 그림의 구조를 초안으로 모델을 설계했고 아래와 같이 코드를 작성하여 모델을 구축했습니다.

이를 통하여 모델이 예측한 검사점수와 실제 검사점수와의 상관계수가 0.953로 유의한 결과를 나타냄을 확인할 수 있었습니다. Image

About

A deep learning project for automated speech and language assessment in post-stroke aphasia and dysarthria.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors