ably.do/gpt.py

import os
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling
from datasets import Dataset

# Konfiguracja
os.environ["TOKENIZERS_PARALLELISM"] = "false"
MODEL_NAME = "gpt2"
SPECIAL_TOKENS = ["[CITATION_START]", "[CITATION_END]"]

def prepare_simple_dataset():
    return [
        {"text": "[CITATION_START] Kodeks Pracy, Art. 1 [CITATION_END] Tekst artykułu..."},
        {"text": "[CITATION_START] Kodeks Pracy, Art. 2 [CITATION_END] Inny tekst..."}
    ]

def main():
    # Inicjalizacja tokenizera
    tokenizer = AutoTokenizer.from_pretrained(
        MODEL_NAME,
        mean_resizing=False
    )
    tokenizer.add_special_tokens({"additional_special_tokens": SPECIAL_TOKENS})
    tokenizer.pad_token = tokenizer.eos_token

    # Przygotowanie danych
    data = prepare_simple_dataset()
    dataset = Dataset.from_dict({"text": [d["text"] for d in data]})

    # Tokenizacja z prawidłowymi etykietami
    def tokenize_function(examples):
        tokenized = tokenizer(
            examples["text"],
            truncation=True,
            padding="max_length",
            max_length=128,
            return_tensors="pt"
        )
        tokenized["labels"] = tokenized["input_ids"].clone()
        return tokenized

    tokenized_dataset = dataset.map(tokenize_function, batched=True)

    # Model i data collator
    model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
    model.resize_token_embeddings(len(tokenizer))
    
    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer,
        mlm=False
    )

    # Konfiguracja treningu
    training_args = TrainingArguments(
        output_dir="./results",
        num_train_epochs=1,
        per_device_train_batch_size=2,
        remove_unused_columns=True,
        logging_steps=1,
        report_to="none"
    )

    # Trainer
    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=tokenized_dataset,
        data_collator=data_collator
    )

    print("Rozpoczęcie treningu...")
    trainer.train()

if __name__ == "__main__":
    main()
mod 2025-02-25 18:19:51 -05:00			`import os`
			`import torch`
mod gpt 2025-02-25 18:26:35 -05:00			`from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling`
mod 2025-02-25 18:19:51 -05:00			`from datasets import Dataset`

			`# Konfiguracja`
			`os.environ["TOKENIZERS_PARALLELISM"] = "false"`
mod gpt 2025-02-25 18:22:03 -05:00			`MODEL_NAME = "gpt2"`
mod 2025-02-25 18:19:51 -05:00			`SPECIAL_TOKENS = ["[CITATION_START]", "[CITATION_END]"]`

			`def prepare_simple_dataset():`
			`return [`
mod gpt 2025-02-25 18:22:03 -05:00			`{"text": "[CITATION_START] Kodeks Pracy, Art. 1 [CITATION_END] Tekst artykułu..."},`
			`{"text": "[CITATION_START] Kodeks Pracy, Art. 2 [CITATION_END] Inny tekst..."}`
mod 2025-02-25 18:19:51 -05:00			`]`

			`def main():`
mod gpt 2025-02-25 18:22:03 -05:00			`# Inicjalizacja tokenizera`
mod gpt 2025-02-25 18:28:34 -05:00			`tokenizer = AutoTokenizer.from_pretrained(`
			`MODEL_NAME,`
			`mean_resizing=False`
			`)`
mod 2025-02-25 18:19:51 -05:00			`tokenizer.add_special_tokens({"additional_special_tokens": SPECIAL_TOKENS})`
			`tokenizer.pad_token = tokenizer.eos_token`

			`# Przygotowanie danych`
			`data = prepare_simple_dataset()`
mod gpt 2025-02-25 18:22:03 -05:00			`dataset = Dataset.from_dict({"text": [d["text"] for d in data]})`
mod 2025-02-25 18:19:51 -05:00
mod gpt 2025-02-25 18:26:35 -05:00			`# Tokenizacja z prawidłowymi etykietami`
mod 2025-02-25 18:19:51 -05:00			`def tokenize_function(examples):`
mod gpt 2025-02-25 18:26:35 -05:00			`tokenized = tokenizer(`
mod 2025-02-25 18:19:51 -05:00			`examples["text"],`
			`truncation=True,`
			`padding="max_length",`
			`max_length=128,`
			`return_tensors="pt"`
			`)`
mod gpt 2025-02-25 18:26:35 -05:00			`tokenized["labels"] = tokenized["input_ids"].clone()`
			`return tokenized`
mod 2025-02-25 18:19:51 -05:00
			`tokenized_dataset = dataset.map(tokenize_function, batched=True)`

mod gpt 2025-02-25 18:26:35 -05:00			`# Model i data collator`
mod gpt 2025-02-25 18:24:56 -05:00			`model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)`
mod 2025-02-25 18:19:51 -05:00			`model.resize_token_embeddings(len(tokenizer))`
mod gpt 2025-02-25 18:26:35 -05:00
			`data_collator = DataCollatorForLanguageModeling(`
			`tokenizer=tokenizer,`
			`mlm=False`
			`)`
mod 2025-02-25 18:19:51 -05:00
			`# Konfiguracja treningu`
			`training_args = TrainingArguments(`
			`output_dir="./results",`
mod gpt 2025-02-25 18:24:56 -05:00			`num_train_epochs=1,`
mod 2025-02-25 18:19:51 -05:00			`per_device_train_batch_size=2,`
mod gpt 2025-02-25 18:23:26 -05:00			`remove_unused_columns=True,`
mod gpt 2025-02-25 18:24:56 -05:00			`logging_steps=1,`
mod gpt 2025-02-25 18:26:35 -05:00			`report_to="none"`
mod 2025-02-25 18:19:51 -05:00			`)`

			`# Trainer`
			`trainer = Trainer(`
			`model=model,`
			`args=training_args,`
			`train_dataset=tokenized_dataset,`
mod gpt 2025-02-25 18:26:35 -05:00			`data_collator=data_collator`
mod 2025-02-25 18:19:51 -05:00			`)`

			`print("Rozpoczęcie treningu...")`
			`trainer.train()`

			`if __name__ == "__main__":`
			`main()`