본문 바로가기

Biomedical&AI

[LLM] koalpaca 강의

반응형

https://github.com/Beomi/KoAlpaca

 

GitHub - Beomi/KoAlpaca: KoAlpaca: Korean Alpaca Model based on Stanford Alpaca (feat. LLAMA and Polyglot-ko)

KoAlpaca: Korean Alpaca Model based on Stanford Alpaca (feat. LLAMA and Polyglot-ko) - GitHub - Beomi/KoAlpaca: KoAlpaca: Korean Alpaca Model based on Stanford Alpaca (feat. LLAMA and Polyglot-ko)

github.com

KoAlpaca를 만드신 선생님의 간단한 KoAlpaca 강의를 들었다.

 

Pretrain model

- 데이터를 직접 수집하여 만든 모델, 모델 사이즈가 큼

 

Finetuning model

-pretrain model을 DAPT(domain-adaptive pretraining)를 진행하여 만들어진 모델

(e.g KoAlpaca)

 

[DAPT(domain-adaptive pretraining) 설명 링크]

http://dsba.korea.ac.kr/seminar/?mod=document&uid=1456 

 

[Paper Review] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

1. Topic Adaptive Language Model Pretraining (DAPT, TAPT) 2. Overview BERT로 대표되는 최신 Language Model은 많은 데이터를 사용하여 pretrain 후 풀고자 하는 task에 맞추어 fine-tuning을 진행합니다. 하지만 general domain

dsba.korea.ac.kr

 

[내가 했던 질문]

Q. 데이터는 보통 웹에서 크롤링하여 오는데 웹사이트나, 그 글을 쓴 글쓴이가 저작권을 주장하면 어떻게 되는지?

A. 한국, 미국 둘 다 저작권 문제가 해결된 판례가 있음.

- 온라인에서 로그인 없이 볼 수 있는 데이터의 경우 저작권 문제가 없다고 하심.

 

와... 이분은 천재다...

-> 내 스스로에 대해 많이 현타가 왔다...

 

요즘은 "개발자"+"모델링능력" 이렇게 2가지를 가지고 있는 게 먹고살기 좋을듯한 느낌이었다.

'Biomedical&AI' 카테고리의 다른 글

CSF tapping  (0) 2023.05.20
응급실 이야기  (0) 2023.05.20
나의 연구철학 (2023.04 ver)  (0) 2023.04.23
Authorship 기준  (0) 2023.04.12
Generative AI 연구미팅  (2) 2023.03.26