Pancreas : 췌장
https://github.com/ozan-oktay/Attention-Gated-Networks
GitHub - ozan-oktay/Attention-Gated-Networks: Use of Attention Gates in a Convolutional Neural Network / Medical Image Classific
Use of Attention Gates in a Convolutional Neural Network / Medical Image Classification and Segmentation - GitHub - ozan-oktay/Attention-Gated-Networks: Use of Attention Gates in a Convolutional Ne...
github.com
출판연도 : 2018년
질문 지점 모음
1. adaptive pooling 이란 무엇인가? 안좋은가?
1. 개요 및 연구동기
우리는 다양한 모양과 크기의 대상 구조에 초점을 맞추는 방법을 자동으로 학습하는 의료 영상 용도의 새로운 attention gate 모델을 제안한다. AG로 훈련된 모델은 특정 작업에 유용한 특징을 학습하면서 관련없는 영역을 억제하는 방법을 암시적으로 학습한다. AG는 최소한의 계산 오버헤드로 U-Net 과 같은 표준 CNN 구조에 쉽게 통합되는 동시에 모델 민감도와 예측 정확도를 높일 수 있다.
Attention UNet은 다중 클래스 이미지 분할을 위해 두 개의 대형 CT 복부 데이터 세트에서 평가된다. 실험 결과에 따르면 AG는 계산 효율성을 유지하면서 다양한 데이터 세트와 훈련 크기에 걸쳐 UNet 의 예측 성능을 지속적으로 향상시키는 것으로 나타났다. 제안된 아키텍처의 소스코드는 공개적으로 제공된다.
대량의 의료 이미지를 수동으로 조밀하게 라벨링하는 것은 지루하고 오류가 발생하기 쉬운 작업이기 때문에 의료 이미지 분할 연구가 필요하다.
CNN 방식은 이미지 분할의 사실상 표준이 되었고 FCN, UNet은 일반적으로 많이 사용되는 두 가지 구조이다. 표현력은 좋지만 결국 계단식 구조에 의존하는 경향이 있다. 이러한 구조에서는 유사한 특징이 모델 내에서 반복적으로 추출된다.
이러한 문제를 해결하기 위해 attention gate를 제안한다. 제안하는 구조는 적은 오버헤드로 정확도를 높인다. 또한 많은 모델 매개변수를 요구 하지 않는다. 이를 통해 다중 모델 프레임워크를 사용하지 않아도 된다. 본 논문에서는 이전 연구에서의 attention [1,11] 의 설계를 일반화할 수 있는 이미지 그리드 기반의 gating을 제안한다. 우리의 접근 방식은 주의 기반 밀집 예측에 사용될 수 있다.
본 논문의 기여
1. 우리는 attention 방법이 지역적 경계에 더 구체적으로 반응하도록 하는 그리드 기반 gating 을 제안함으로써 [11] 에서 제안된 방법을 한 단계 더 발전시켰다. 이는 전역 특징 벡터를 기반으로 한 gating 에 비해 성능이 향상된다. 또한 adaptive pooling을 수행하지 않기 때문에 밀집된 예측에 사용될 수 있다.
2. 제안하는 기술은 분류 작업과 분할작업에서 사용될 수 있다.
3. 복잡한 경험적 방법을 요구하지 않고 보편적인 UNet을 확장시켜 개발했다.
2. Methodlogy
CNN 은 공개 벤치마크 데이터세트에 대한 의료 이미지 분석에서 기존 접근 방식보다 성능이 뛰어났다. (중략) 본 논문에서는 UNet 기반의 구조를 기반으로 attention 모델을 구축한다. 그림 1에 대략적인 구조를 나타냈다.
맵 그리드는 CNN에서 점차 다운샘플링된다. 이러한 방식으로 분할 프레임워크는 객체 위치파악과 후속 분할단계를 나눠서 접근한다. 여기서는 attention gate 를 통합하여 동일한 목표를 달성할 수 있음을 보여준다. 이를 위해서는 여러 모델을 훈련하고 많은 수의 추가 모델 매개변수를 필요로 하지 않는다. 다단계 CNN 에서의 위치파악모델과 달리 AG는 네트워크 간에 ROI를 잘라내지 않고 관련 없는 배경에서 필요한 feature 를 암시적으로 찾는다.
attention coefficient $a_i \in [0,1]$ 은 그림 3(a) 에 표시된 것처럼 특정 작업과 관련된 활성화만 보존하기 위해 두드러진 영역을 식별하고 나머지는 억제한다. AG의 출력은 입력 특징 맵과 주의 계수의 elementwise multiplication 이다.
이는 다차원 attention coefficients를 사용하여 문장 임베딩을 학습하는 [29]에서 영감을 받았다.
참고로 확인해볼법한 레퍼런스
[29] Shen, T., Zhou, T., Long, G., Jiang, J., Pan, S., Zhang, C.: Disan: Directional self-attention network for rnn/cnn-free language understanding. arXiv preprint arXiv:1709.04696 (2017)
'컴퓨터과학' 카테고리의 다른 글
[논문읽기] Feature Weighting and Boosting for Few-Shot Segmentation (1) | 2025.07.28 |
---|---|
[논문읽기] LDMVFI: Video Frame Interpolation with Latent Diffusion Models (0) | 2024.11.01 |
medical image viewer 모으는 페이지 (0) | 2023.11.15 |
[AI경진대회] 경진대회 서치를 위한 페이지 모음 (0) | 2023.11.14 |
[NLP] article 모음 (0) | 2023.11.14 |