Manage and automatize datasets for data science projects.

Project description

Dataset Manager

Manage and automatize your datasets for your project with YAML files.

Create a file name.yaml with content in your dataset directory:

src: https://raw.githubusercontent.com/pcsanwald/kaggle-titanic/master/train.csv

description: this dataset is a test dataset

format: csv

name: is the name for dataset reference is the file name with yaml extension.

src: is location from dataset.

description: describe your dataset to remember later.

format: pandas read format following read_<format> as described here: https://pandas.pydata.org/pandas-docs/stable/reference/io.html.

Each dataset is a YAML file inside dataset directory.

List all Datasets

Return a List with all datasets from dataset path

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path)

manager.list_datasets()

Get one Dataset

Get dataset as Pandas DataFrame and accept Pandas read *args and **kwargs

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path)

manager.get_dataset(name, *args, **kwargs)

Create a Dataset

Create a Dataset inside dataset_path defined

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path)

manager.create_dataset(name, src, description, format_extension)

Remove a Dataset

Remove Dataset from dataset_path

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path)

manager.remove_dataset(name)

Project details

Release history Release notifications | RSS feed

0.1.0

Aug 22, 2019

0.0.16

Jul 6, 2019

0.0.15

May 18, 2019

0.0.14

May 18, 2019

0.0.13

May 16, 2019

0.0.12

May 12, 2019

0.0.11

Apr 29, 2019

0.0.10

Apr 13, 2019

0.0.9

Apr 13, 2019

0.0.8

Apr 13, 2019

0.0.7

Apr 13, 2019

0.0.6

Apr 9, 2019

This version

0.0.5

Apr 9, 2019

0.0.4

Apr 9, 2019

0.0.3

Apr 9, 2019

0.0.2

Apr 9, 2019

0.0.1

Apr 9, 2019

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

dataset_manager-0.0.5.tar.gz (3.0 kB view hashes)

Uploaded Apr 9, 2019 Source

Built Distribution

dataset_manager-0.0.5-py3-none-any.whl (7.7 kB view hashes)

Uploaded Apr 9, 2019 Python 3

Hashes for dataset_manager-0.0.5.tar.gz

Hashes for dataset_manager-0.0.5.tar.gz
Algorithm	Hash digest
SHA256	`594d190851ae4ebb265135a3a319ab2c7a426e747cd694f1e0b71242184702f4`
MD5	`43b7dd7198f8e2233e03e380b80de02c`
BLAKE2b-256	`f214514bb9ca0e942b20f62579b76e1d1db7843b2383bd2b0e26eb4116a2dd52`

Hashes for dataset_manager-0.0.5-py3-none-any.whl

Hashes for dataset_manager-0.0.5-py3-none-any.whl
Algorithm	Hash digest
SHA256	`ff3354e1d8644575a6c55bab6ba83e753296a11f4f2386fa3324f60484fa6d09`
MD5	`2b001ef0fa68c65927ed38c4717b9008`
BLAKE2b-256	`7a723184f3e321775525647aaf0a62a9e37a870239f67a38878d9e8e61c27486`