본문 바로가기

Large Language Model

(6)
Numbers every LLM Developer should know github : https://github.com/ray-project/llm-numbers "구글에서 전설적인 엔지니어인 제프 딘이 '모든 엔지니어가 알아야 할 숫자들”이라는 문서를 작성했습니다. LLM 개발자들이 역 앤벨로프 연산과 유사한 숫자 셋을 가지고 있다는 것은 유용하다는 것을 알 수 있습니다. 여기에서 우리는 Anyscale에서 사용하는 특정 숫자, 숫자가 중요한 이유 및 이점을 활용하는 방법을 공유합니다. Notes on the Github version Last updates: 2023-05-17 숫자의 정확성에 문제가 있다고 생각되면 문제를 제기하십시오. 이 문서에 있어야 할 숫자가 더 있다고 생각하십니까? 저희에게 알리거나 PR을 제출하십시오. 다음으로 여기에 추가해야 할 것은 서로 ..
LLaMA Open and Efficient Foundation Language Models LLaMA는 메타에서 등장했습니다 !! 라마는 7B ~ 65B 크기의 LLM 모델을 학습을 했습니다. 조단의에 토큰 수를 사용했습니다. LLaMA의 13B 모델이 GPT-3 (175B)의 모델을 이겼다고합니다. LLaMA-65B 모델은 Chinchilla-70B, PaLM-540B와 비슷한 수준이라고합니다. LLaMA를 많이 사용하는 이유가 바로 OpenSource Community에 연구 용도로만 공개했습니다. LLaMA를 공개함으로 해서 많은 Chatgpt와 같은 모데들이 등장하고 있습니다. LLaMA는 Transformer의 Decoder 구조만을 사용해서 학습을 했습니다. Transformer에서의 normalization을 pre-normaliza tion을로 변경해 학습을 했습니다(lay-no..
Language Model are Few-Shot Learners 이번 글은 Language Model are Few-Shot Learners라는 GPT-3의 논문에 대해서 간략하게 살펴보겠습니다. GPT-3 논문에 Abstract를 살펴보면, 다음과 같습니다. 기존에는 PLM을 finetuning하여 모델을 학습시켜 사용했습니다. PLM이 출연해서 어떤 task를 학습하는데 있어서 굉장히 많은 양의 데이터가 필요해지지 않게 되었습니다. 하지만 여전히 천 ~ 만 단위 이상의 데이터 셋이 필요하고, 사람의 경우 적은 예제나 instruuction만으로도 작업이 가능한것에 비해서 딥러닝 모델은 많은 양에 데이터가 필요합니다. Autoregressive LM의 크기를 키워 방대한 데이터로 학습을하면 사람과 같이 적은 예제와 instruction만으로도 작업이 가능하게 됨을 ..
Large Language Model의 역사 2003년에는 Neural Network 기반의 언어 모델이 발표되었습니다. 이전에는 context로 다음 token의 확률을 계산하는 모델로 요즘 모델들의 근간이 되는 모델입니다. 10년간의 공백후 word2vec이 등장했습니다. skipgram과 cbow를 이용해서 word의 representation을 학습을 합니다. 의미가 가까우면 가까운 공간에 의미가 멀면 먼 공간에 위치 하도록 학습을 합니다. 문맥상의 token과 유사한 token으로 임베딩을 합니다. skipgram은 어떤 token으로 주변에 어떤 token이 있는 지를 예측하는 모델이고, cbow는 주변 token으로 중간 token으로 예측을 하는 방법입니다. 2015년에는 문장을 embedding 하는 것을 학습하는 방법인 Skip-..
LLM 트랜드-02 LLM 학습을 하기 위해서는 몇 가지 문제점이 존재합니다. 모델의 크기가 크다는 점입니다. 위의 그래프에서는 ELMo 모델이 출시했는데 해당 모델의 경우 9400만 개의 parameter를 가지고 있습니다. 2017년도에 Transformer 모델이 공개되었고, OpenAI에서 Transformer의 Decoder만을 사용해서 GPT를 만들었습니다. 이때의 Parameter가 약 1억 1천만 개의 Para meter를 사용했습니다. 이후, 구글에서 Bert 모델을 출시했는데, Large 모델 기준으로 3억 4천만 개를 가지고 있습니다. 이후 OpenAI가 출시 한 GPT-2의 경우 15억 개의 Parameter를 가지고 있습니다. 이후, NVIDIA에서 83억 개의 Parameter를 가지는 Megatr..
LLM 트랜드-01 LLM이란 .. ? Large Language Model은 P(text)를 계산할 수 있는 큰모델이다. LLM의 가장 큰 특징은 text(글, 문장) 확률로 계산을 할 수 있는 모델입니다. 그리고 Large 즉, 큰 모델에 해당됩니다. 현재까지 LLM은 transformer의 구조를 사용하고 있습니다. 그렇다고 LLM이 transformer 구조에 한정이 되는 것은 아닙니다. LLM 모델 중에는 RNN 구조인 IWKB Language 모델도 있습니다. 하지만 일반적으로 Transformer 구조를 가지고 있는 LLM 모델의 성능이 좋습니다. 아래 그림은 Transformer의 모델의 구조입니다. Transformer의 구조는 아래와 같이 Encoder-Decoder 구조를 가지고 있습니다. Transfo..