This commit is contained in:
l.gabrysiak 2025-02-26 11:16:20 +01:00
parent 8e8b32093b
commit 84d7926e9e
1 changed files with 24 additions and 10 deletions

26
gpt.py
View File

@ -6,7 +6,7 @@ from datasets import Dataset
# Konfiguracja # Konfiguracja
os.environ["TOKENIZERS_PARALLELISM"] = "false" os.environ["TOKENIZERS_PARALLELISM"] = "false"
MODEL_NAME = "gpt2" MODEL_NAME = "gpt2-medium"
SPECIAL_TOKENS = ["[CITATION_START]", "[CITATION_END]"] SPECIAL_TOKENS = ["[CITATION_START]", "[CITATION_END]"]
TEXT_FILE_PATH = "./docs/kodekspracy.txt" # Zmień na właściwą ścieżkę TEXT_FILE_PATH = "./docs/kodekspracy.txt" # Zmień na właściwą ścieżkę
@ -42,6 +42,15 @@ def prepare_dataset_from_file(file_path):
formatted_articles.append({"text": formatted}) formatted_articles.append({"text": formatted})
# Dodaj przykłady pytań i odpowiedzi
questions = [
f"Zacytuj artykuł {art_number} Kodeksu pracy.",
f"Co mówi artykuł {art_number} Kodeksu pracy?",
f"Podaj treść artykułu {art_number} Kodeksu pracy."
]
for question in questions:
formatted_articles.append({"text": f"{question}\n{formatted}"})
return formatted_articles return formatted_articles
@ -81,14 +90,19 @@ def main():
# Konfiguracja treningu # Konfiguracja treningu
training_args = TrainingArguments( training_args = TrainingArguments(
output_dir="./results", output_dir="./results",
num_train_epochs=16, # Zwiększono liczbę epok num_train_epochs=30,
per_device_train_batch_size=2, per_device_train_batch_size=2,
learning_rate=2e-5, #precyzja uczenia learning_rate=1e-5,
weight_decay=0.01,
logging_steps=10, logging_steps=10,
save_steps=100,
eval_steps=100,
evaluation_strategy="steps",
load_best_model_at_end=True,
report_to="none", report_to="none",
save_strategy="no", save_total_limit=2,
load_best_model_at_end=True, # Ładowanie najlepszego modelu na końcu )
)
# Trainer # Trainer
trainer = Trainer( trainer = Trainer(