ably.do/gpt.py

import os
import re
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling
from datasets import Dataset

# Konfiguracja
os.environ["TOKENIZERS_PARALLELISM"] = "false"
MODEL_NAME = "gpt2-medium"
SPECIAL_TOKENS = ["[CITATION_START]", "[CITATION_END]"]
TEXT_FILE_PATH = "./docs/kodekspracy.txt"  # Zmień na właściwą ścieżkę

def prepare_dataset_from_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        text = f.read()

    # Wydziel artykuły za pomocą wyrażenia regularnego
    articles = re.findall(r'Art\.\s*\d+[a-z]*\..*?(?=\s*Art\.\s*\d+[a-z]*\.|\Z)', text, flags=re.DOTALL)
    
    formatted_articles = []
    for article in articles:
        # Usuń zbędne białe znaki
        article = ' '.join(article.strip().split())
        
        # Wydziel numer artykułu i treść
        art_match = re.match(r'Art\.\s*(\d+[a-z]*)\.?\s*(.*)', article, re.DOTALL)
        if art_match:
            art_number = art_match.group(1)
            art_text = art_match.group(2)
            
            # Podziel na paragrafy, jeśli istnieją
            paragraphs = re.split(r'(§\s*\d+\.)', art_text)
            if len(paragraphs) > 1:
                formatted_paragraphs = []
                for i in range(1, len(paragraphs), 2):
                    para_num = paragraphs[i].strip()
                    para_text = paragraphs[i+1].strip()
                    formatted_paragraphs.append(f"{para_num} {para_text}")
                formatted = f"[CITATION_START] Kodeks Pracy, Art. {art_number} [CITATION_END]\n" + "\n".join(formatted_paragraphs)
            else:
                formatted = f"[CITATION_START] Kodeks Pracy, Art. {art_number} [CITATION_END] {art_text}"
            
            formatted_articles.append({"text": formatted})
            
        # Dodaj przykłady pytań i odpowiedzi
        questions = [
            f"Zacytuj artykuł {art_number} Kodeksu pracy.",
            f"Co mówi artykuł {art_number} Kodeksu pracy?",
            f"Podaj treść artykułu {art_number} Kodeksu pracy."
        ]
        for question in questions:
            formatted_articles.append({"text": f"{question}\n{formatted}"})
    
    return formatted_articles


def main():
    # Inicjalizacja tokenizera
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    tokenizer.add_special_tokens({"additional_special_tokens": SPECIAL_TOKENS})
    tokenizer.pad_token = tokenizer.eos_token

    # Przygotowanie danych
    data = prepare_dataset_from_file(TEXT_FILE_PATH)
    dataset = Dataset.from_dict({"text": [d["text"] for d in data]})

    # Tokenizacja
    def tokenize_function(examples):
        tokenized = tokenizer(
            examples["text"],
            truncation=True,
            padding="max_length",
            max_length=1024,  # Zwiększono dla dłuższych artykułów
            return_tensors="pt"
        )
        tokenized["labels"] = tokenized["input_ids"].clone()
        return tokenized

    tokenized_dataset = dataset.map(tokenize_function, batched=True)

    # Model i data collator
    model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
    model.resize_token_embeddings(len(tokenizer), mean_resizing=False)
    
    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer,
        mlm=False
    )

    # Konfiguracja treningu
    training_args = TrainingArguments(
        output_dir="./results",
        num_train_epochs=32,  # Zwiększono liczbę epok
        per_device_train_batch_size=2,
        learning_rate=1e-5, #precyzja uczenia
        logging_steps=10,
        weight_decay=0.01,
        report_to="none",
        save_strategy="no",
        load_best_model_at_end=True,  # Ładowanie najlepszego modelu na końcu
    )


    # Trainer
    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=tokenized_dataset,
        data_collator=data_collator
    )

    print("Rozpoczęcie treningu...")
    trainer.train()
    trainer.save_model("./trained_model/gpt")
    tokenizer.save_pretrained("./trained_model/gpt")

if __name__ == "__main__":
    main()
mod 2025-02-25 18:19:51 -05:00			`import os`
mod gpt 2025-02-26 03:32:16 -05:00			`import re`
mod 2025-02-25 18:19:51 -05:00			`import torch`
mod gpt 2025-02-25 18:26:35 -05:00			`from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling`
mod 2025-02-25 18:19:51 -05:00			`from datasets import Dataset`

			`# Konfiguracja`
			`os.environ["TOKENIZERS_PARALLELISM"] = "false"`
mod gpt 2025-02-26 05:16:20 -05:00			`MODEL_NAME = "gpt2-medium"`
mod 2025-02-25 18:19:51 -05:00			`SPECIAL_TOKENS = ["[CITATION_START]", "[CITATION_END]"]`
mod gpt 2025-02-26 03:35:57 -05:00			`TEXT_FILE_PATH = "./docs/kodekspracy.txt" # Zmień na właściwą ścieżkę`
mod 2025-02-25 18:19:51 -05:00
mod gpt 2025-02-26 03:32:16 -05:00			`def prepare_dataset_from_file(file_path):`
			`with open(file_path, 'r', encoding='utf-8') as f:`
			`text = f.read()`

			`# Wydziel artykuły za pomocą wyrażenia regularnego`
mod gpt 2025-02-26 03:41:42 -05:00			`articles = re.findall(r'Art\.\s\d+[a-z]\..?(?=\sArt\.\s\d+[a-z]\.\|\Z)', text, flags=re.DOTALL)`
mod gpt 2025-02-26 03:32:16 -05:00
			`formatted_articles = []`
			`for article in articles:`
			`# Usuń zbędne białe znaki`
			`article = ' '.join(article.strip().split())`

mod gpt 2025-02-26 03:41:42 -05:00			`# Wydziel numer artykułu i treść`
			`art_match = re.match(r'Art\.\s(\d+[a-z])\.?\s(.)', article, re.DOTALL)`
mod gpt 2025-02-26 03:32:16 -05:00			`if art_match:`
			`art_number = art_match.group(1)`
			`art_text = art_match.group(2)`
mod gpt 2025-02-26 03:41:42 -05:00
			`# Podziel na paragrafy, jeśli istnieją`
			`paragraphs = re.split(r'(§\s*\d+\.)', art_text)`
			`if len(paragraphs) > 1:`
			`formatted_paragraphs = []`
			`for i in range(1, len(paragraphs), 2):`
			`para_num = paragraphs[i].strip()`
			`para_text = paragraphs[i+1].strip()`
			`formatted_paragraphs.append(f"{para_num} {para_text}")`
			`formatted = f"[CITATION_START] Kodeks Pracy, Art. {art_number} [CITATION_END]\n" + "\n".join(formatted_paragraphs)`
			`else:`
			`formatted = f"[CITATION_START] Kodeks Pracy, Art. {art_number} [CITATION_END] {art_text}"`

mod gpt 2025-02-26 03:32:16 -05:00			`formatted_articles.append({"text": formatted})`
mod gpt 2025-02-26 05:16:20 -05:00
			`# Dodaj przykłady pytań i odpowiedzi`
			`questions = [`
			`f"Zacytuj artykuł {art_number} Kodeksu pracy.",`
			`f"Co mówi artykuł {art_number} Kodeksu pracy?",`
			`f"Podaj treść artykułu {art_number} Kodeksu pracy."`
			`]`
			`for question in questions:`
			`formatted_articles.append({"text": f"{question}\n{formatted}"})`
mod gpt 2025-02-26 03:32:16 -05:00
			`return formatted_articles`
mod 2025-02-25 18:19:51 -05:00
mod gpt 2025-02-26 04:35:35 -05:00
mod 2025-02-25 18:19:51 -05:00			`def main():`
mod gpt 2025-02-25 18:22:03 -05:00			`# Inicjalizacja tokenizera`
mod gpt 2025-02-25 18:30:01 -05:00			`tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)`
mod 2025-02-25 18:19:51 -05:00			`tokenizer.add_special_tokens({"additional_special_tokens": SPECIAL_TOKENS})`
			`tokenizer.pad_token = tokenizer.eos_token`

			`# Przygotowanie danych`
mod gpt 2025-02-26 03:32:16 -05:00			`data = prepare_dataset_from_file(TEXT_FILE_PATH)`
mod gpt 2025-02-25 18:22:03 -05:00			`dataset = Dataset.from_dict({"text": [d["text"] for d in data]})`
mod 2025-02-25 18:19:51 -05:00
mod gpt 2025-02-26 03:32:16 -05:00			`# Tokenizacja`
mod 2025-02-25 18:19:51 -05:00			`def tokenize_function(examples):`
mod gpt 2025-02-25 18:26:35 -05:00			`tokenized = tokenizer(`
mod 2025-02-25 18:19:51 -05:00			`examples["text"],`
			`truncation=True,`
			`padding="max_length",`
mod gpt 2025-02-26 04:36:09 -05:00			`max_length=1024, # Zwiększono dla dłuższych artykułów`
mod 2025-02-25 18:19:51 -05:00			`return_tensors="pt"`
			`)`
mod gpt 2025-02-25 18:26:35 -05:00			`tokenized["labels"] = tokenized["input_ids"].clone()`
			`return tokenized`
mod 2025-02-25 18:19:51 -05:00
mod gpt 2025-02-26 04:35:35 -05:00			`tokenized_dataset = dataset.map(tokenize_function, batched=True)`
mod 2025-02-25 18:19:51 -05:00
mod gpt 2025-02-25 18:26:35 -05:00			`# Model i data collator`
mod gpt 2025-02-25 18:32:41 -05:00			`model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)`
mod gpt 2025-02-26 04:35:35 -05:00			`model.resize_token_embeddings(len(tokenizer), mean_resizing=False)`
mod gpt 2025-02-25 18:26:35 -05:00
			`data_collator = DataCollatorForLanguageModeling(`
			`tokenizer=tokenizer,`
			`mlm=False`
			`)`
mod 2025-02-25 18:19:51 -05:00
			`# Konfiguracja treningu`
			`training_args = TrainingArguments(`
mod gpt 2025-02-26 05:17:48 -05:00			`output_dir="./results",`
mod gpt 2025-02-26 05:19:33 -05:00			`num_train_epochs=32, # Zwiększono liczbę epok`
mod gpt 2025-02-26 05:17:48 -05:00			`per_device_train_batch_size=2,`
mod gpt 2025-02-26 05:19:33 -05:00			`learning_rate=1e-5, #precyzja uczenia`
mod gpt 2025-02-26 05:17:48 -05:00			`logging_steps=10,`
mod gpt 2025-02-26 05:19:33 -05:00			`weight_decay=0.01,`
mod gpt 2025-02-26 05:17:48 -05:00			`report_to="none",`
mod gpt 2025-02-26 05:19:33 -05:00			`save_strategy="no",`
			`load_best_model_at_end=True, # Ładowanie najlepszego modelu na końcu`
mod gpt 2025-02-26 05:17:48 -05:00			`)`
mod gpt 2025-02-26 05:16:20 -05:00
mod 2025-02-25 18:19:51 -05:00
			`# Trainer`
			`trainer = Trainer(`
			`model=model,`
			`args=training_args,`
			`train_dataset=tokenized_dataset,`
mod gpt 2025-02-25 18:26:35 -05:00			`data_collator=data_collator`
mod 2025-02-25 18:19:51 -05:00			`)`

			`print("Rozpoczęcie treningu...")`
			`trainer.train()`
mod gpt + test 2025-02-26 03:49:28 -05:00			`trainer.save_model("./trained_model/gpt")`
mod gpt save tokenizer 2025-02-26 04:06:04 -05:00			`tokenizer.save_pretrained("./trained_model/gpt")`
mod 2025-02-25 18:19:51 -05:00
			`if __name__ == "__main__":`
mod gpt 2025-02-26 04:35:35 -05:00			`main()`