HuggingFaceDataset

Dataset backed by a HuggingFace datasets repo.

from modal_training_gym.common.dataset import HuggingFaceDataset

Dataset backed by a HuggingFace datasets repo.

Inherits from: DatasetConfig

Fields

Field	Type	Default
`dataset_id`	`str`	`""`
`input_key`	`str`	`""`
`label_key`	`str`	`"label"`
`apply_chat_template`	`bool`	`True`
`always_prepare`	`bool`	`False`
`hf_repo`	`str`	`""`
`hf_split`	`str`	`"train"`
`hf_config`	`str \| None`	`None`
`output_format`	`str`	`"parquet"`
`input_column`	`str`	`""`
`output_column`	`str`	`""`
`system_prompt`	`str`	`""`
`prompt_template`	`str`	`"{input}"`
`n_rows`	`int`	`0`

Load raw examples, optionally filtered by split.

Materialize training data to path (and eval splits to eval_paths).

Sniff what prepare() wrote and confirm the columns the framework will index.

Source: modal_training_gym/common/dataset.py