논문 정리 (7) 썸네일형 리스트형 WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering Preview논문에서는 whole slide image 암 진단 및 예후 예측에 많이 활용되고 있는 분야라고 설명을 하고 있습니다. 병리학자들이 Whole Slide Image(WSI)로부터, 정확하고 신뢰할 수 있는 진단 결과를 얻기 위해서는 많은 경험과 노력이 필요하며, WSI의 거대한 크기와 이질적인 특징들은 병리학적 판독 과정에 시간적인 소모가 많이 소요됩니다. 본에서는 Visual Question Answering(VQA) 방법을 통해 WSI를 해석하는 새로운 프레임워크인 WSI level의 VQA를 제안한다고 합니다. WSI-VQA는 다양한 종류의 WSI level에 대한 질문을하고 응답을 받는 형태로 병리학자들이 인간 - 기계의 상호 작용을 통해서 등급을 분류한다던가 생존 예측을 한다던가 종.. [간단리뷰]Unet++ Unet++의 구조적인 특징을 논문에서는 Unet의 구조에서 Nested된 구조를 가지고 있고, 의료 영상을 조금더 잘 Segmentation을 하기 위한 목적으로 만들어진 모델이라고 합니다. 우선 위에서 설명한 것과 같이 Unet의 구조에서 Nested된 구조를 가지고 있기 때문에 Unet과 유사한 구조를 가지고 있고, 기존 Unet에 비해서 조금더 깊어지고, 각 layer에서 나온 feature들 간의 loss를 계산한다는 점이 기존 Unet과의 차이 점입니다. Unet++를 이해하기 위해서는 우선 Unet에 대해서 알아야합니다. Unet은 기본적으로 Encoder-Decoder의 구조를 가지고 있습니다. Encoder에서는 down-sampling을 진행하고, decoder 부분에는 Up-.. [review]PETALS: Collaborative Inference and Fine-tuning of Large Models PETALS: Collaborative Inference and Fine-tuning of Large Models 논문 링크 : https://arxiv.org/pdf/2209.01188.pdf github : https://github.com/bigscience-workshop/petals 1. Introduce 최근 LLM(Large Language Model)의 추세는 모델의 크기가 커지는 추세임을 알 수 있습니다. 최근에 출시된 LLaMA2는 175B의 크기인 GPT-3나 GPT-4에 비해서는 작지만 일반적인 장비로 모델을 개발하는 사람들에게는 해당 모델도 매우 큰 모델이라고 할 수 있습니다. 최근에 출시된 모델은 LLaMA2 뿐만 아니라 BLOOM-176B, OPT-175B 등등 많은 모델들이 .. YOLOV1 이번에 살펴볼 논문은 YOLO입니다. YOLO는 현재 v8까지는 나왔습니다. 그리고 v8은 논문 준비중이라고 합니다 !! 이번에 살펴볼 YOLO는 v1 논문입니다. 우선, 이전에 Faster RCNN에서는 Region Proposal이 Network가 됨으로 GPU 가속으로 인한 학습이 가능해졌고, 하나의 네트워크로 학습이 가능해 졌습니다. anchor box를 처음으로 도입했으며, end-to-end학습이 가능하게 되었습니다. 하지만, Faster RCNN에도 몇가지 한계가 있었습니다. Anchor Box의 개수가 적다. 3개의 Sub NetWork로 구성되어져 있어 느리다 라는 단점이 있습니다. SSD에서는 위의 문제를 해결하기 위해서 아래와 같은 방법을 사용했습니다. 위의 anchor box 부족의.. Faster R-CNN Fast R-CNN은 R-CNN에 있던 학습 속도와 inference 속도의 개선과 classification에 사용했던 머신러닝을 softmax로 대체하면서 end-to-end 학습이 가능하게 되었습니다. 또한 RoI Pooling을 적용해서 서로 다른 크기의 Object들을 FC layer에 맵핑 가능해졌습니다. Fast R-CNN에서는 Region Proposal을 Selective Search를 계속 사용했습니다. Faster R-CNN에서는 Region Proposal를 하나의 NetWork로 만듬으로 gpu를 통한 학습이 가능하게 되었고, 이를 RPN(Region Proposal Network)라고 부릅니다. Faster R-CNN에서는 RPN에서 출력한 Bounding Box를 사용해서 Fe.. Fast R-CNN Fast R-CNN은 기존에 R-CNN의 단점들을 보완한 모델입니다. Fast R-CNN은 크게 3가지를 개선했습니다. 첫 번째, Fast inference 기존에 R-CNN은 Region Proposal(Selective Search)를 사용해서 Object가 있을 것이라고 추정되는 2천 개에 영역들을 CNN 네트워크에 입력으로 넣어서 학습을 했습니다. 따라서 영상 1개가 입력으로 CNN 네트워크를 통과하는 시간이 오래 걸리기 때문에 학습을 수행하는 시간도 오래 걸리지만, 영상 1개에 대한 Inference 시에도 Region Proposal을 사용해서 Object가 있을 만한 영역을 2천 개가량 추출해서 네트워크를 통과하기 때문에 Inference 시에도 많은 시간이 걸리게 됩니다. 따라서 Fast .. R-CNN 우선, R-CNN에 대해서 말하기 전에 객체 탐지란 무엇인지 알아보겠습니다. 객체 탐지란 컴퓨터 비전과 이미지 처리와 관련된 컴퓨터 기술이며, 이는 디지털 이미지와 비디오의 특정한 계열의 시맨틱 한 객체의 인스턴스를 감지하는 것입니다. 객체 탐지의 분야로는 얼굴 검출, 보행자 검출 등의 분야가 있습니다. 이미지 인식 분야는 크게 Classification, Localization, Object Detection, Instance Segmentation으로 나누어 집니다. 여기서 Classification과 Localization의 경우, 이미지 내에 1개의 Object가 있을 경우에 객체 인식에 해당되며, 여러 Object가 있을 경우 Object Detection, Instance Segmentatio.. 이전 1 다음