ably.do/allegro.py

from transformers import MarianForCausalLM, MarianTokenizer, Trainer, TrainingArguments
from datasets import load_dataset

# Załaduj model i tokenizer
model_name = "allegro/multislav-5lang"
model = MarianForCausalLM.from_pretrained(model_name)
tokenizer = MarianTokenizer.from_pretrained(model_name)

# Załaduj dane (przykład dla tłumaczenia z języka rumuńskiego na angielski)
dataset = load_dataset("wmt16", "ro-en")

# Przetwórz dane do formatu odpowiedniego dla modelu
def tokenize_function(examples):
    return tokenizer(examples['translation']['ro'], examples['translation']['en'], truncation=True, padding='max_length', max_length=128)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

# Skonfiguruj trenera
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=5e-5,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    num_train_epochs=3,
    weight_decay=0.01,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"],
)

# Trening modelu
trainer.train()
tmp allegro 2025-02-28 15:41:23 -05:00			`from transformers import MarianForCausalLM, MarianTokenizer, Trainer, TrainingArguments`
			`from datasets import load_dataset`
mod allegro 2025-02-28 15:26:21 -05:00
tmp allegro 2025-02-28 15:41:23 -05:00			`# Załaduj model i tokenizer`
mod allegro 2025-02-28 15:26:21 -05:00			`model_name = "allegro/multislav-5lang"`
tmp allegro 2025-02-28 15:41:23 -05:00			`model = MarianForCausalLM.from_pretrained(model_name)`
			`tokenizer = MarianTokenizer.from_pretrained(model_name)`
mod allegro 2025-02-28 15:26:21 -05:00
tmp allegro 2025-02-28 15:41:23 -05:00			`# Załaduj dane (przykład dla tłumaczenia z języka rumuńskiego na angielski)`
			`dataset = load_dataset("wmt16", "ro-en")`
mod allegro 2025-02-28 15:26:21 -05:00
tmp allegro 2025-02-28 15:41:23 -05:00			`# Przetwórz dane do formatu odpowiedniego dla modelu`
init 2025-02-28 13:47:09 -05:00			`def tokenize_function(examples):`
mod allegro 2025-02-28 15:43:06 -05:00			`return tokenizer(examples['translation']['ro'], examples['translation']['en'], truncation=True, padding='max_length', max_length=128)`
dodanie modelu 2025-02-26 05:37:10 -05:00
tmp allegro 2025-02-28 15:41:23 -05:00			`tokenized_datasets = dataset.map(tokenize_function, batched=True)`
init 2025-02-28 13:47:09 -05:00
tmp allegro 2025-02-28 15:41:23 -05:00			`# Skonfiguruj trenera`
init 2025-02-28 13:47:09 -05:00			`training_args = TrainingArguments(`
			`output_dir="./results",`
tmp allegro 2025-02-28 15:41:23 -05:00			`evaluation_strategy="epoch",`
			`learning_rate=5e-5,`
			`per_device_train_batch_size=4,`
			`per_device_eval_batch_size=4,`
			`num_train_epochs=3,`
init 2025-02-28 13:47:09 -05:00			`weight_decay=0.01,`
mod allegro 2025-02-28 15:26:21 -05:00			`)`
init 2025-02-28 13:47:09 -05:00
			`trainer = Trainer(`
			`model=model,`
			`args=training_args,`
tmp allegro 2025-02-28 15:41:23 -05:00			`train_dataset=tokenized_datasets["train"],`
			`eval_dataset=tokenized_datasets["test"],`
init 2025-02-28 13:47:09 -05:00			`)`

tmp allegro 2025-02-28 15:41:23 -05:00			`# Trening modelu`
			`trainer.train()`