Tile-based access to SciPy/PyData data structures over the web in many formats

These details have been verified by PyPI

Maintainers

cryos danielballan dmcreyno stuartcampbell

These details have not been verified by PyPI

Project links

Homepage

Project description

Tiled

Disclaimer: This is very early work, still in the process of defining scope.

Data analysis is easier and better when we load and operate on data in common, self-describing structures that keep our mind on the science rather than the book-keeping of filenames and file formats.

Tiled is a data access service for data-aware portals and data science tools. Tiled has a Python client and integrates naturally with dask and Python data science libraries, but nothing about the service is Python-specific; it also works from a web browser, curl, or any HTTP client.

Tiled’s service can sit atop databases, filesystems, and/or remote services to enable search and structured, chunkwise access to data in an extensible variety of appropriate formats, providing data in a consistent structure regardless of the format the data happens to be stored in at rest. The natively-supported formats span slow but widespread interchange formats (e.g. CSV, JSON) and fast, efficient ones (e.g. C buffers, Apache Arrow and Parquet). Tiled enables slicing and sub-selection to read and transfer only the data of interest, and it enables parallelized download of many chunks at once. Users can access data with very light software dependencies and fast partial downloads.

Tiled puts an emphasis on structures rather than formats, including:

N-dimensional strided arrays (i.e. numpy-like arrays)
Tabular data (i.e. pandas-like "dataframes")
Hierarchical structures thereof (e.g. xarrays, HDF5-compatible structures like NeXus)

Tiled implements extensible access control enforcement based on web security standards, similar to JuptyerHub. Like Jupyter, Tiled can be used by a single user or deployed as a shared public or private resource.

Tiled facilitates client-side caching in a standard web browser or in Tiled's Python client, making efficient use of bandwidth and enabling an offline "airplane mode." It uses service-side caching of "hot" datasets and resources to expedite both repeat requests (e.g. when several users are requesting the same chunks of data) and distinct requests for different parts of the same dataset (e.g. when the user is requesting various slices or columns from a dataset).

Distribution	Where to get it
PyPI	`pip install tiled`
Conda	Coming Soon
Source code	github.com/bluesky/tiled
Documentation	blueskyproject.io/tiled

Example

In this example, we'll serve of a collection of data that is generated in memory. Alternatively, it could be read on demand from a directory of files, network resource, database, or some combination of these.

tiled serve pyobject --public tiled.examples.generated:tree

And then access the data efficiently via the Python client, a web browser, or any HTTP client.

>>> from tiled.client import from_uri

>>> client = from_uri("http://localhost:8000")

>>> client
<Node {'short_table', 'long_table', 'structured_data', ...} ~10 entries>

>>> list(client)
'big_image',
 'small_image',
 'tiny_image',
 'tiny_cube',
 'tiny_hypercube',
 'low_entropy',
 'high_entropy',
 'short_table',
 'long_table',
 'labeled_data',
 'structured_data']

>>> client['medium_image']
<ArrayClient>

>>> client['medium_image'][:]
array([[0.49675483, 0.37832119, 0.59431287, ..., 0.16990737, 0.5396537 ,
        0.61913812],
       [0.97062498, 0.93776709, 0.81797714, ..., 0.96508877, 0.25208564,
        0.72982507],
       [0.87173234, 0.83127946, 0.91758202, ..., 0.50487542, 0.03052536,
        0.9625512 ],
       ...,
       [0.01884645, 0.33107071, 0.60018523, ..., 0.02268164, 0.46955907,
        0.37842628],
       [0.03405101, 0.77886243, 0.14856727, ..., 0.02484926, 0.03850398,
        0.39086524],
       [0.16567224, 0.1347261 , 0.48809697, ..., 0.55021249, 0.42324589,
        0.31440635]])

>>> client['long_table']
<DataFrameClient ['A', 'B', 'C']>

>>> client['long_table'].read()
              A         B         C
index                              
0      0.246920  0.493840  0.740759
1      0.326005  0.652009  0.978014
2      0.715418  1.430837  2.146255
3      0.425147  0.850294  1.275441
4      0.781036  1.562073  2.343109
...         ...       ...       ...
99995  0.515248  1.030495  1.545743
99996  0.639188  1.278376  1.917564
99997  0.269851  0.539702  0.809553
99998  0.566848  1.133695  1.700543
99999  0.101446  0.202892  0.304338

[100000 rows x 3 columns]

>>> client['long_table'][['A', 'B']]
              A         B
index                    
0      0.748885  0.769644
1      0.071319  0.364743
2      0.322665  0.897854
3      0.328785  0.810159
4      0.158253  0.822505
...         ...       ...
95     0.913758  0.488304
96     0.969652  0.287850
97     0.769774  0.941785
98     0.350033  0.052412
99     0.356245  0.683540

[100 rows x 2 columns]

Using an Internet browser or a command-line HTTP client like curl or httpie you can download the data in whole or in efficiently-chunked parts in the format of your choice:

# Download tabular data as CSV
http://localhost:8000/dataframe/full/long_table?format=csv

# or XLSX (Excel)
http://localhost:8000/dataframe/full/long_table?format=xslx

# and subselect columns.
http://localhost:8000/dataframe/full/long_table?format=xslx&column=A&column=B

# View or download (2D) array data as PNG
http://localhost:8000/array/full/medium_image?format=png

# and slice regions of interest.
http://localhost:8000/array/full/medium_image?format=png&slice=:50,100:200

Web-based data access usually involves downloading complete files, in the manner of Globus; or using modern chunk-based storage formats, such as TileDB and Zarr in local or cloud storage; or using custom solutions tailored to a particular large dataset. Waiting for an entire file to download when only the first frame of an image stack or a certain column of a table are of interest is wasteful and can be prohibitive for large longitudinal analyses. Yet, it is not always practical to transcode the data into a chunk-friendly format or build a custom tile-based-access solution. (Though if you can do either of those things, you should consider them instead!)

Project details

These details have been verified by PyPI

Maintainers

cryos danielballan dmcreyno stuartcampbell

These details have not been verified by PyPI

Project links

Homepage

Release history Release notifications | RSS feed

0.1.0b10 pre-release

Oct 11, 2024

0.1.0b9 pre-release

Sep 19, 2024

0.1.0b8 pre-release

Sep 6, 2024

0.1.0b7 pre-release

Aug 20, 2024

0.1.0b6 pre-release

Jul 17, 2024

0.1.0b5 pre-release

Jun 27, 2024

0.1.0b4 pre-release

Jun 18, 2024

0.1.0b3 pre-release

Jun 5, 2024

0.1.0b2 pre-release

May 28, 2024

0.1.0b1 pre-release

May 25, 2024

0.1.0a122 pre-release

May 23, 2024

0.1.0a121 pre-release

May 21, 2024

0.1.0a120 pre-release

Apr 25, 2024

0.1.0a119 pre-release

Apr 24, 2024

0.1.0a118 pre-release

Apr 23, 2024

0.1.0a117 pre-release

Mar 28, 2024

0.1.0a116 pre-release

Feb 29, 2024

0.1.0a115 pre-release

Feb 28, 2024

0.1.0a114 pre-release

Feb 5, 2024

0.1.0a113 pre-release

Jan 20, 2024

0.1.0a112 pre-release

Jan 2, 2024

0.1.0a110 pre-release

Dec 13, 2023

0.1.0a109 pre-release

Oct 27, 2023

0.1.0a108 pre-release

Oct 27, 2023

0.1.0a107 pre-release

Sep 28, 2023

0.1.0a106 pre-release

Sep 6, 2023

0.1.0a105 pre-release

Aug 25, 2023

0.1.0a104 pre-release

Aug 6, 2023

0.1.0a103 pre-release

Jul 19, 2023

0.1.0a102 pre-release

Jul 12, 2023

0.1.0a101 pre-release

Jul 11, 2023

0.1.0a100 pre-release

Jul 11, 2023

0.1.0a99 pre-release

Jul 10, 2023

0.1.0a98 pre-release

Jul 7, 2023

0.1.0a97 pre-release

Jul 2, 2023

0.1.0a96 pre-release

Jun 21, 2023

0.1.0a95 pre-release

Jun 21, 2023

0.1.0a94 pre-release

Jun 13, 2023

0.1.0a93 pre-release

Jun 7, 2023

0.1.0a92 pre-release

Jun 2, 2023

0.1.0a91 pre-release

Mar 31, 2023

0.1.0a90 pre-release

Mar 29, 2023

0.1.0a89 pre-release

Mar 21, 2023

0.1.0a88 pre-release

Mar 21, 2023

0.1.0a87 pre-release

Mar 20, 2023

0.1.0a86 pre-release

Mar 20, 2023

0.1.0a85 pre-release

Feb 15, 2023

0.1.0a84 pre-release

Feb 9, 2023

0.1.0a83 pre-release

Feb 1, 2023

0.1.0a82 pre-release

Feb 1, 2023

0.1.0a81 pre-release

Feb 1, 2023

0.1.0a80 pre-release

Nov 29, 2022

0.1.0a79 pre-release

Nov 3, 2022

0.1.0a78 pre-release

Nov 3, 2022

0.1.0a77 pre-release

Oct 24, 2022

0.1.0a76 pre-release

Oct 24, 2022

0.1.0a75 pre-release

Oct 14, 2022

0.1.0a74 pre-release

Sep 13, 2022

0.1.0a73 pre-release

Sep 2, 2022

0.1.0a72 pre-release

Sep 2, 2022

0.1.0a71 pre-release

Sep 1, 2022

0.1.0a70 pre-release

Aug 11, 2022

0.1.0a69 pre-release

Aug 11, 2022

0.1.0a68 pre-release

Aug 5, 2022

0.1.0a67 pre-release

Aug 4, 2022

0.1.0a66 pre-release

Jul 21, 2022

0.1.0a65 pre-release

Jun 28, 2022

0.1.0a64 pre-release

Jun 10, 2022

0.1.0a63 pre-release

Jun 1, 2022

0.1.0a62 pre-release

May 22, 2022

0.1.0a61 pre-release

May 19, 2022

0.1.0a60 pre-release

Apr 5, 2022

0.1.0a59 pre-release

Mar 24, 2022

0.1.0a58 pre-release

Mar 15, 2022

0.1.0a57 pre-release

Mar 3, 2022

0.1.0a56 pre-release

Mar 1, 2022

0.1.0a55 pre-release

Mar 1, 2022

0.1.0a54 pre-release

Feb 28, 2022

0.1.0a53 pre-release

Feb 11, 2022

0.1.0a52 pre-release

Feb 9, 2022

0.1.0a51 pre-release

Feb 9, 2022

0.1.0a50 pre-release

Feb 4, 2022

0.1.0a49 pre-release

Feb 1, 2022

0.1.0a48 pre-release

Jan 12, 2022

0.1.0a47 pre-release

Jan 7, 2022

0.1.0a46 pre-release

Dec 16, 2021

0.1.0a45 pre-release

Nov 15, 2021

0.1.0a44 pre-release

Oct 22, 2021

0.1.0a43 pre-release

Oct 22, 2021

0.1.0a42 pre-release

Oct 19, 2021

0.1.0a41 pre-release

Oct 15, 2021

0.1.0a40 pre-release

Oct 7, 2021

0.1.0a39 pre-release

Oct 6, 2021

0.1.0a38 pre-release

Oct 4, 2021

0.1.0a37 pre-release

Sep 23, 2021

0.1.0a36 pre-release

Sep 20, 2021

0.1.0a35 pre-release

Sep 20, 2021

This version

0.1.0a34 pre-release

Sep 14, 2021

0.1.0a32 pre-release

Sep 10, 2021

0.1.0a31 pre-release

Sep 7, 2021

0.1.0a29 pre-release

Aug 17, 2021

0.1.0a28 pre-release

Jul 28, 2021

0.1.0a27 pre-release

Jul 26, 2021

0.1.0a26 pre-release

Jul 26, 2021

0.1.0a25 pre-release

Jul 23, 2021

0.1.0a24 pre-release

Jul 20, 2021

0.1.0a23 pre-release

Jul 19, 2021

0.1.0a22 pre-release

Jul 15, 2021

0.1.0a21 pre-release

Jul 14, 2021

0.1.0a20 pre-release

Jul 8, 2021

0.1.0a19 pre-release

Jul 5, 2021

0.1.0a18 pre-release

Jun 23, 2021

0.1.0a17 pre-release

Jun 23, 2021

0.1.0a16 pre-release

Jun 23, 2021

0.1.0a15 pre-release

Jun 3, 2021

0.1.0a14 pre-release

May 28, 2021

0.1.0a13 pre-release

May 28, 2021

0.1.0a12 pre-release

May 27, 2021

0.1.0a11 pre-release

May 24, 2021

0.1.0a10 pre-release

May 7, 2021

0.1.0a9 pre-release

May 7, 2021

0.1.0a8 pre-release

Apr 16, 2021

0.1.0a7 pre-release

Apr 8, 2021

0.1.0a6 pre-release

Apr 2, 2021

0.1.0a5 pre-release

Mar 31, 2021

0.1.0a4 pre-release

Mar 25, 2021

0.1.0a3 pre-release

Mar 12, 2021

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

tiled-0.1.0a34.tar.gz (142.6 kB view hashes)

Uploaded Sep 14, 2021 Source

Built Distribution

tiled-0.1.0a34-py3-none-any.whl (142.0 kB view hashes)

Uploaded Sep 14, 2021 Python 3

Hashes for tiled-0.1.0a34.tar.gz

Hashes for tiled-0.1.0a34.tar.gz
Algorithm	Hash digest
SHA256	`c9fa5fcbaf84e8c45eaa2e93d09788063fffe1a9f0f5cf6402f7dc863286a742`
MD5	`d3aabb65176023eb6c2a1a02a2870d78`
BLAKE2b-256	`813e0094e3922567f210be101968e4a410f48b0dce2a85fab08697c6d56e49ad`

Hashes for tiled-0.1.0a34-py3-none-any.whl

Hashes for tiled-0.1.0a34-py3-none-any.whl
Algorithm	Hash digest
SHA256	`0d0d7acaeca925f38b8c47fd1b3f73d2d9e5f4818ede23fcaa352ecffdea1aa8`
MD5	`72f5724db78146ac5b9114d30bf532e6`
BLAKE2b-256	`70b6e6989caa49eea38a3c1a59a51e7db382b05f02f6d3184227c1e740bd2d27`