728x90

huggingface 5

[HuggingFace Tutorial/Ch6] Tokenizers 라이브러리 2

QA pipeline 구현해보기QA pipeline - question & context를 순서대로 배치시켜 쌍(pair)로 토큰화함 - 해당 logit을 확률로 변환하기 위해 softmax를 적용해야 하지만, 그 전에 context 아닌 token index를 masking해야 함- 입력: [CLS] question [SEP] context [SEP] 이므로, 질문 & SEP을  masking해야 함.- 그러나 일부 모델에서는 컨텍스트에 답이 없음을 나타내기 위해 사용할수도 있으므로 [CLS] 토큰은 마스킹하지 않고 그대로 유지- 나중에 softmax를 적용할 것이기 때문에 마스킹(masking)하려는 로짓을 큰 음수로 변경(-10000 사용) start / end prob의 argmax 취할 수 있으..

AI-자연어처리 2024.09.04

[HuggingFace Tutorial/Ch7] 1. Token Classification (NER) 실습

주요 NLP 태스크들토큰 분류 (Token Classification)마스킹된 언어 모델링 (Masked Language Modeling)요약 (Summarization)번역 (Translation)인과적 언어 모델링 사전학습 (Causal Language Modeling Pretraining like GPT-2)질의응답 (Question Answering)다뤄보기 1. 토큰 분류(token classification)- "문장의 각 토큰에 레이블을 지정"하는 것으로 정형화될 수 있는 모든 문제   Named entity recognition (NER): 문장에서 개체명(혹은 엔터티, 예: 사람, 위치 또는 조직) 찾기 Part-of-speech tagging (POS): 문장의 각 단어에 대한 특정 품..

AI-자연어처리 2024.09.03

[HuggingFace Tutorial/Ch6] Tokenizers 라이브러리 1

보통 미세 조정 과정에서 사전 학습된 모델과 동일한 토크나이저를 사용모델을 처음부터 학습하고 싶을 때?다른 도메인이나 언어의 말뭉치로 사전 학습된 토크나이저를 사용하는 것은 일반적으로 차선책(suboptimal).  corpus에서 새로운 토크나이저를 학습하는 방법과 이를 언어 모델을 사전 학습하는데 사용하는 방법 있음.transformers 라이브러리에서 fast tokenizer 제공하는 Tokenizers 라이브러리 확인 기존 토크나이저에서 새로운 토크나이저 학습하기사전 언어모델에 적응된 새로운 tokenizer 만들고 싶을 경우: 모델 학습처럼 기존 토크나이저에 corpus 학습 시킬 수 있음= 대부분의 transformer model은 subword tokenization 알고리즘을 이용하는데,..

AI-자연어처리 2024.09.03

[Huggingface Tutorial/Ch3] 사전학습 모델 파인튜닝하기

hugging face NLP course pt3. Fine-tuning a pretrained model: https://huggingface.co/learn/nlp-course/chapter3/1?fw=ptwikidocs 번역본: https://wikidocs.net/1668001. 데이터 처리 작업허브에서 데이터셋 로딩Huggingface -> datasets 라이브러리에서 오픈소스 데이터셋 자유롭게 다운가능 (구조화된 raw text dataset)fine-tuning 위해서는 raw text -> batch 형태로 변경해야 함  * 지나치게 큰 데이터 한 번에 학습X, batch라는 소규모 데이터로 변경하여 모델에게 학습하기datasets 라이브러리: Hub에서 데이터셋 다운로드 & 임시저장(c..

AI-자연어처리 2024.03.29

[Huggingface Tutorial/Ch2] Transformers 라이브러리 사용하기

Transformers 라이브러리 특징- 사용 용이성- 유연성: 모든 모델이 pytorch의 nn.Module, tensorflow의 tf.keras.Model 클래스로 표현- 단순성: 라이브러리의 추상화 거의 없음. All in one file Pipeline 내부 실행 과정 알아보기1. 전처리(Preprocessing)Tokenizer 이용 전처리* Tokenizer입력을 토큰이라고 부르는 단어나 하위 단어, 또는 심볼(예-구두점)로 분할각 토큰을 하나의 정수에 매핑모델에 유용할 수 있는 부가적인 입력 추가모든 전처리는 모델이 사전학습될 때와 동일한 방식으로 수행되어야 함 -> 사용하고자 하는 모델의 checkpoint 이름을 사용해 연결된 tokenizer를 불러와야 함.  * Transformer..

AI-자연어처리 2024.03.26