Async crawler and parsing service for data.gouv.fr

These details have not been verified by PyPI

Project description

udata-hydra 🦀

udata-hydra is an async metadata crawler for data.gouv.fr.

URLs are crawled via aiohttp, catalog and crawled metadata are stored in a PostgreSQL database.

Since it's called hydra, it also has mythical powers embedded:

analyse remote resource metadata over time to detect changes in the smartest way possible
if the remote resource is a CSV, convert it to a PostgreSQL table, ready for APIfication
send crawl and analysis info to a udata instance

Architecture schema

The architecture for the full workflow is the following:

Full workflow architecture

The hydra crawler is one of the components of the architecture. It will check if resource is available, analyze the type of file if the resource has been modified, and analyze the CSV content. It will also convert CSV resources to database tables and send the data to a udata instance.

Crawler architecture

Dependencies

This project uses libmagic, which needs to be installed on your system, eg:

brew install libmagic on MacOS, or sudo apt-get install libmagic-dev on linux.

CLI

Create database structure

Install udata-hydra dependencies and cli. poetry install

poetry run udata-hydra migrate

Load (UPSERT) latest catalog version from data.gouv.fr

poetry run udata-hydra load-catalog

Crawler

poetry run udata-hydra-crawl

It will crawl (forever) the catalog according to config set in udata_hydra/config.toml, with a default config in udata_hydra/config_default.toml.

BATCH_SIZE URLs are queued at each loop run.

The crawler will start with URLs never checked and then proceed with URLs crawled before SINCE interval. It will then wait until something changes (catalog or time).

There's a by-domain backoff mecanism. The crawler will wait when, for a given domain in a given batch, BACKOFF_NB_REQ is exceeded in a period of BACKOFF_PERIOD seconds. It will retry until the backoff is lifted.

If an URL matches one of the EXCLUDED_PATTERNS, it will never be checked.

Worker

A job queuing system is used to process long-running tasks. Launch the worker with the following command:

poetry run rq worker -c udata_hydra.worker

Monitor worker status:

poetry run rq info -c udata_hydra.worker --interval 1

CSV conversion to database

Converted CSV tables will be stored in the database specified via config.DATABASE_URL_CSV. For tests it's same database as for the catalog. Locally, docker compose will launch two distinct database containers.

Tests

To run the tests, you need to launch the database, the test database, and the Redis broker with docker compose -f docker-compose.yml -f docker-compose.test.yml -f docker-compose.broker.yml up -d.

Then you can run the tests with poetry run pytest.

To run a specific test file, you can pass the path to the file to pytest, like this: poetry run pytest tests/test_app.py.

To run a specific test function, you can pass the path to the file and the name of the function to pytest, like this: poetry run pytest tests/test_app.py::test_get_latest_check.

If you would like to see print statements as they are executed, you can pass the -s flag to pytest (poetry run pytest -s). However, note that this can sometimes be difficult to parse.

Tests coverage

Pytest automatically uses the coverage package to generate a coverage report, which is displayed at the end of the test run in the terminal. The coverage is configured in the pypoject.toml file, in the [tool.pytest.ini_options] section. You can also override the coverage report configuration when running the tests by passing some flags like --cov-report to pytest. See the pytest-cov documentation for more information.

API

The API will need a Bearer token for each request on protected endpoints (any endpoint that isn't a GET). The token is configured in the config.toml file as API_KEY, and has a default value set in the udata_hydra/config_default.toml file.

If you're using hydra as an external service to receive resource events from udata, then udata needs to also configure this API key in its udata.cfg file:

# Wether udata should publish the resource events
PUBLISH_ON_RESOURCE_EVENTS = True
# Where to publish the events
RESOURCES_ANALYSER_URI = "http://localhost:8000"
# The API key that hydra needs
RESOURCES_ANALYSER_API_KEY = "api_key_to_change"

Run

poetry install
poetry run adev runserver udata_hydra/app.py

Routes/endpoints

The API serves the following endpoints:

Related to checks:

GET on /api/checks/latest/?url={url}&resource_id={resource_id} to get the latest check for a given URL and/or resource_id
GET on /api/checks/all/?url={url}&resource_id={resource_id} to get all checks for a given URL and/or resource_id

Related to resources:

GET on /api/resources/?resource_id={resource_id} to get a resource in the DB "catalog" table from its resource_id
POST on /api/resources/ to receive a resource creation event from a source. It will create a new resource in the DB "catalog" table and mark it as priority for next crawling
PUT on /api/resources/ to update a resource in the DB "catalog" table
DELETE on /api/resources/ to delete a resource in the DB "catalog" table

:warning: Warning: the following routes are deprecated and need be removed in the future:

POST on /api/resource/created -> use POST on /api/resources/ instead

POST on /api/resource/updated -> use PUT on /api/resources/ instead

POST on /api/resource/deleted -> use DELETE on /api/resources/ instead

Related to some status and health check:

GET on /api/status/crawler/ to get the crawling status
GET on /api/status/worker/ to get the worker status
GET on /api/stats/ to get the crawling stats

More details about some enpoints are provided below with examples, but not for all of them:

Get latest check

Works with ?url={url} and ?resource_id={resource_id}.

$ curl -s "http://localhost:8000/api/checks/latest/?url=http://opendata-sig.saintdenis.re/datasets/661e19974bcc48849bbff7c9637c5c28_1.csv" | json_pp
{
   "status" : 200,
   "catalog_id" : 64148,
   "deleted" : false,
   "error" : null,
   "created_at" : "2021-02-06T12:19:08.203055",
   "response_time" : 0.830198049545288,
   "url" : "http://opendata-sig.saintdenis.re/datasets/661e19974bcc48849bbff7c9637c5c28_1.csv",
   "domain" : "opendata-sig.saintdenis.re",
   "timeout" : false,
   "id" : 114750,
   "dataset_id" : "5c34944606e3e73d4a551889",
   "resource_id" : "b3678c59-5b35-43ad-9379-fce29e5b56fe",
   "headers" : {
      "content-disposition" : "attachment; filename=\"xn--Dlimitation_des_cantons-bcc.csv\"",
      "server" : "openresty",
      "x-amz-meta-cachetime" : "191",
      "last-modified" : "Wed, 29 Apr 2020 02:19:04 GMT",
      "content-encoding" : "gzip",
      "content-type" : "text/csv",
      "cache-control" : "must-revalidate",
      "etag" : "\"20415964703d9ccc4815d7126aa3a6d8\"",
      "content-length" : "207",
      "date" : "Sat, 06 Feb 2021 12:19:08 GMT",
      "x-amz-meta-contentlastmodified" : "2018-11-19T09:38:28.490Z",
      "connection" : "keep-alive",
      "vary" : "Accept-Encoding"
   }
}

Get all checks for an URL or resource

Works with ?url={url} and ?resource_id={resource_id}.

$ curl -s "http://localhost:8000/api/checks/all/?url=http://www.drees.sante.gouv.fr/IMG/xls/er864.xls" | json_pp
[
   {
      "domain" : "www.drees.sante.gouv.fr",
      "dataset_id" : "53d6eadba3a72954d9dd62f5",
      "timeout" : false,
      "deleted" : false,
      "response_time" : null,
      "error" : "Cannot connect to host www.drees.sante.gouv.fr:443 ssl:True [SSLCertVerificationError: (1, \"[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: Hostname mismatch, certificate is not valid for 'www.drees.sante.gouv.fr'. (_ssl.c:1122)\")]",
      "catalog_id" : 232112,
      "url" : "http://www.drees.sante.gouv.fr/IMG/xls/er864.xls",
      "headers" : {},
      "id" : 165107,
      "created_at" : "2021-02-06T14:32:47.675854",
      "resource_id" : "93dfd449-9d26-4bb0-a6a9-ee49b1b8a4d7",
      "status" : null
   },
   {
      "timeout" : false,
      "deleted" : false,
      "response_time" : null,
      "error" : "Cannot connect to host www.drees.sante.gouv.fr:443 ssl:True [SSLCertVerificationError: (1, \"[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: Hostname mismatch, certificate is not valid for 'www.drees.sante.gouv.fr'. (_ssl.c:1122)\")]",
      "domain" : "www.drees.sante.gouv.fr",
      "dataset_id" : "53d6eadba3a72954d9dd62f5",
      "created_at" : "2020-12-24T17:06:58.158125",
      "resource_id" : "93dfd449-9d26-4bb0-a6a9-ee49b1b8a4d7",
      "status" : null,
      "catalog_id" : 232112,
      "url" : "http://www.drees.sante.gouv.fr/IMG/xls/er864.xls",
      "headers" : {},
      "id" : 65092
   }
]

Get crawling status

$ curl -s "http://localhost:8000/api/status/crawler/" | json_pp
{
   "fresh_checks_percentage" : 0.4,
   "pending_checks" : 142153,
   "total" : 142687,
   "fresh_checks" : 534,
   "checks_percentage" : 0.4
}

Get worker status

$ curl -s "http://localhost:8000/api/status/worker/" | json_pp
{
   "queued" : {
      "default" : 0,
      "high" : 825,
      "low" : 655
   }
}

Get crawling stats

$ curl -s "http://localhost:8000/api/stats/" | json_pp
{
   "status" : [
      {
         "count" : 525,
         "percentage" : 98.3,
         "label" : "ok"
      },
      {
         "label" : "error",
         "percentage" : 1.3,
         "count" : 7
      },
      {
         "label" : "timeout",
         "percentage" : 0.4,
         "count" : 2
      }
   ],
   "status_codes" : [
      {
         "code" : 200,
         "count" : 413,
         "percentage" : 78.7
      },
      {
         "code" : 501,
         "percentage" : 12.4,
         "count" : 65
      },
      {
         "percentage" : 6.1,
         "count" : 32,
         "code" : 404
      },
      {
         "code" : 500,
         "percentage" : 2.7,
         "count" : 14
      },
      {
         "code" : 502,
         "count" : 1,
         "percentage" : 0.2
      }
   ]
}

Using Webhook integration

** Set the config values**

Create a config.toml where your service and commands are launched, or specify a path to a TOML file via the HYDRA_SETTINGS environment variable. config.toml or equivalent will override values from udata_hydra/config_default.toml, lookup there for values that can/need to be defined.

UDATA_URI = "https://dev.local:7000/api/2"
UDATA_URI_API_KEY = "example.api.key"
SENTRY_DSN = "https://{my-sentry-dsn}"

The webhook integration sends HTTP messages to udata when resources are analyzed or checked to fill resources extras.

Regarding analysis, there is a phase called "change detection". It will try to guess if a resource has been modified based on different criterions:

harvest modified date in catalog
content-length and last-modified headers
checksum comparison over time

The payload should look something like:

{
   "analysis:content-length": 91661,
   "analysis:mime-type": "application/zip",
   "analysis:checksum": "bef1de04601dedaf2d127418759b16915ba083be",
   "analysis:last-modified-at": "2022-11-27T23:00:54.762000",
   "analysis:last-modified-detection": "harvest-resource-metadata",
}

Development

docker compose

Multiple docker-compose files are provided:

a minimal docker-compose.yml with two PostgreSQL containers (one for catalog and metadata, the other for converted CSV to database)
docker-compose.broker.yml adds a Redis broker
docker-compose.test.yml launches a test DB, needed to run tests

NB: you can launch compose from multiple files like this: docker compose -f docker-compose.yml -f docker-compose.test.yml up

Logging & Debugging

The log level can be adjusted using the environment variable LOG_LEVEL. For example, to set the log level to DEBUG when initializing the database, use LOG_LEVEL="DEBUG" udata-hydra init_db .

Writing a migration

Add a file named migrations/{YYYYMMDD}_{description}.sql and write the SQL you need to perform migration.
udata-hydra migrate will migrate the database as needeed.

Deployment

3 services need to be deployed for the full stack to run:

worker
api / app
crawler

Refer to each section to learn how to launch them. The only differences from dev to prod are:

use HYDRA_SETTINGS env var to point to your custom config.toml
use HYDRA_APP_SOCKET_PATH to configure where aiohttp should listen to a reverse proxy connection (eg nginx) and use udata-hydra-app to launch the app server

Contributing

Before contributing to the repository and making any PR, it is necessary to initialize the pre-commit hooks:

pre-commit install

Once this is done, code formatting and linting, as well as import sorting, will be automatically checked before each commit.

If you cannot use pre-commit, it is necessary to format, lint, and sort imports with Ruff before committing:

ruff check --fix .
ruff format .

Project details

These details have not been verified by PyPI

Release history Release notifications | RSS feed

2.0.6.dev5933 pre-release

Nov 22, 2024

2.0.6.dev5769 pre-release

Nov 20, 2024

2.0.6.dev5750 pre-release

Nov 15, 2024

2.0.6.dev5713 pre-release

Nov 15, 2024

2.0.6.dev5696 pre-release

Nov 15, 2024

2.0.6.dev5685 pre-release

Nov 15, 2024

2.0.6.dev5670 pre-release

Nov 14, 2024

2.0.6.dev5648 pre-release

Nov 13, 2024

2.0.6.dev5639 pre-release

Nov 13, 2024

2.0.6.dev5578 pre-release

Nov 8, 2024

2.0.5

Nov 8, 2024

2.0.5.dev5566 pre-release

Nov 7, 2024

2.0.5.dev5557 pre-release

Nov 7, 2024

2.0.5.dev5531 pre-release

Nov 6, 2024

2.0.5.dev5527 pre-release

Nov 6, 2024

2.0.5.dev5496 pre-release

Nov 6, 2024

2.0.5.dev5485 pre-release

Nov 6, 2024

2.0.5.dev5475 pre-release

Nov 6, 2024

2.0.5.dev5384 pre-release

Oct 30, 2024

2.0.5.dev5375 pre-release

Oct 30, 2024

2.0.5.dev5315 pre-release

Oct 30, 2024

2.0.5.dev5239 pre-release

Oct 29, 2024

2.0.5.dev5233 pre-release

Oct 29, 2024

2.0.5.dev5202 pre-release

Oct 28, 2024

2.0.5.dev5200 pre-release

Oct 28, 2024

2.0.5.dev5190 pre-release

Oct 28, 2024

2.0.4

Oct 28, 2024

2.0.4.dev5168 pre-release

Oct 28, 2024

2.0.4.dev5151 pre-release

Oct 25, 2024

2.0.4.dev5145 pre-release

Oct 25, 2024

2.0.4.dev5121 pre-release

Oct 25, 2024

2.0.4.dev5083 pre-release

Oct 25, 2024

2.0.4.dev5074 pre-release

Oct 24, 2024

2.0.4.dev5045 pre-release

Oct 24, 2024

2.0.4.dev4967 pre-release

Oct 22, 2024

2.0.3

Oct 22, 2024

2.0.3.dev4950 pre-release

Oct 22, 2024

2.0.3.dev4789 pre-release

Oct 7, 2024

2.0.2

Oct 7, 2024

2.0.2.dev4786 pre-release

Oct 7, 2024

2.0.2.dev4734 pre-release

Oct 4, 2024

2.0.2.dev4722 pre-release

Oct 4, 2024

2.0.1

Oct 4, 2024

2.0.1.dev4698 pre-release

Oct 3, 2024

2.0.1.dev4688 pre-release

Oct 3, 2024

2.0.1.dev4551 pre-release

Oct 2, 2024

2.0.1.dev4534 pre-release

Oct 2, 2024

2.0.1.dev4516 pre-release

Oct 1, 2024

2.0.1.dev4511 pre-release

Oct 1, 2024

2.0.1.dev4489 pre-release

Sep 30, 2024

2.0.1.dev4436 pre-release

Sep 28, 2024

2.0.1.dev4418 pre-release

Sep 26, 2024

2.0.1.dev4390 pre-release

Sep 26, 2024

2.0.1.dev4337 pre-release

Sep 26, 2024

2.0.1.dev4291 pre-release

Sep 24, 2024

2.0.1.dev4281 pre-release

Sep 24, 2024

2.0.0

Sep 24, 2024

2.0.0.dev4272 pre-release

Sep 24, 2024

2.0.0.dev4259 pre-release

Sep 24, 2024

2.0.0.dev4246 pre-release

Sep 24, 2024

2.0.0.dev4210 pre-release

Sep 23, 2024

2.0.0.dev4112 pre-release

Sep 12, 2024

2.0.0.dev4080 pre-release

Sep 11, 2024

2.0.0.dev4041 pre-release

Sep 10, 2024

2.0.0.dev4025 pre-release

Sep 10, 2024

2.0.0.dev3941 pre-release

Sep 5, 2024

2.0.0.dev3877 pre-release

Sep 5, 2024

2.0.0.dev3871 pre-release

Sep 5, 2024

2.0.0.dev3784 pre-release

Sep 3, 2024

2.0.0.dev3765 pre-release

Sep 3, 2024

2.0.0.dev3689 pre-release

Sep 2, 2024

2.0.0.dev3603 pre-release

Sep 2, 2024

2.0.0.dev3591 pre-release

Aug 30, 2024

2.0.0.dev3582 pre-release

Aug 30, 2024

2.0.0.dev3573 pre-release

Aug 30, 2024

2.0.0.dev3563 pre-release

Aug 30, 2024

2.0.0.dev3441 pre-release

Aug 27, 2024

2.0.0.dev3342 pre-release

Aug 27, 2024

2.0.0.dev3290 pre-release

Aug 26, 2024

2.0.0.dev3261 pre-release

Aug 26, 2024

2.0.0.dev3197 pre-release

Aug 22, 2024

2.0.0.dev3166 pre-release

Aug 22, 2024

This version

2.0.0.dev3158 pre-release

Aug 22, 2024

2.0.0.dev3146 pre-release

Aug 22, 2024

2.0.0.dev3133 pre-release

Aug 22, 2024

2.0.0.dev3084 pre-release

Aug 21, 2024

2.0.0.dev3046 pre-release

Aug 21, 2024

2.0.0.dev3017 pre-release

Aug 21, 2024

2.0.0.dev2998 pre-release

Aug 21, 2024

2.0.0.dev2867 pre-release

Aug 20, 2024

2.0.0.dev2730 pre-release

Aug 16, 2024

2.0.0.dev2619 pre-release

Aug 13, 2024

2.0.0.dev2595 pre-release

Aug 13, 2024

2.0.0.dev2576 pre-release

Aug 13, 2024

2.0.0.dev2547 pre-release

Aug 13, 2024

2.0.0.dev2520 pre-release

Aug 2, 2024

2.0.0.dev2497 pre-release

Aug 1, 2024

2.0.0.dev2438 pre-release

Aug 1, 2024

2.0.0.dev2400 pre-release

Aug 1, 2024

2.0.0.dev2384 pre-release

Aug 1, 2024

2.0.0.dev2347 pre-release

Aug 1, 2024

2.0.0.dev2235 pre-release

Jul 31, 2024

2.0.0.dev2124 pre-release

Jul 30, 2024

2.0.0.dev2099 pre-release

Jul 30, 2024

2.0.0.dev2064 pre-release

Jul 30, 2024

2.0.0.dev2045 pre-release

Jul 30, 2024

2.0.0.dev1953 pre-release

Jul 29, 2024

2.0.0.dev1926 pre-release

Jul 29, 2024

2.0.0.dev1862 pre-release

Jul 24, 2024

2.0.0.dev1729 pre-release

Jul 16, 2024

2.0.0.dev1721 pre-release

Jul 16, 2024

2.0.0.dev1648 pre-release

May 14, 2024

2.0.0.dev1635 pre-release

Apr 29, 2024

2.0.0.dev1619 pre-release

Mar 29, 2024

2.0.0.dev1610 pre-release

Mar 21, 2024

2.0.0.dev1605 pre-release

Mar 21, 2024

2.0.0.dev1592 pre-release

Mar 20, 2024

2.0.0.dev1562 pre-release

Feb 14, 2024

2.0.0.dev1535 pre-release

Jan 19, 2024

2.0.0.dev1526 pre-release

Jan 18, 2024

2.0.0.dev1510 pre-release

Jan 15, 2024

2.0.0.dev1497 pre-release

Jan 15, 2024

2.0.0.dev1484 pre-release

Dec 18, 2023

2.0.0.dev1471 pre-release

Nov 30, 2023

2.0.0.dev1461 pre-release

Nov 30, 2023

2.0.0.dev1380 pre-release

Aug 22, 2023

2.0.0.dev1367 pre-release

Aug 22, 2023

2.0.0.dev1354 pre-release

Jul 27, 2023

2.0.0.dev1335 pre-release

Jul 27, 2023

2.0.0.dev1330 pre-release

Jul 7, 2023

2.0.0.dev1313 pre-release

Jun 15, 2023

2.0.0.dev1307 pre-release

Jun 15, 2023

2.0.0.dev1263 pre-release

Jun 2, 2023

2.0.0.dev1250 pre-release

May 31, 2023

2.0.0.dev1237 pre-release

May 22, 2023

2.0.0.dev1224 pre-release

May 22, 2023

2.0.0.dev1190 pre-release

Apr 25, 2023

2.0.0.dev1177 pre-release

Apr 20, 2023

2.0.0.dev1172 pre-release

Apr 20, 2023

2.0.0.dev1159 pre-release

Apr 18, 2023

2.0.0.dev1150 pre-release

Apr 6, 2023

2.0.0.dev1141 pre-release

Apr 5, 2023

2.0.0.dev1133 pre-release

Apr 5, 2023

2.0.0.dev1104 pre-release

Mar 28, 2023

2.0.0.dev1095 pre-release

Mar 27, 2023

2.0.0.dev1074 pre-release

Mar 24, 2023

2.0.0.dev1063 pre-release

Mar 22, 2023

2.0.0.dev1040 pre-release

Mar 3, 2023

2.0.0.dev1020 pre-release

Feb 24, 2023

2.0.0.dev1003 pre-release

Feb 17, 2023

2.0.0.dev956 pre-release

Feb 11, 2023

2.0.0.dev919 pre-release

Feb 1, 2023

1.1.1

Sep 26, 2024

1.1.0

Sep 25, 2024

1.0.2.dev766 pre-release

Jan 10, 2023

1.0.2.dev757 pre-release

Jan 10, 2023

1.0.2.dev748 pre-release

Jan 9, 2023

1.0.2.dev741 pre-release

Jan 4, 2023

1.0.1

Jan 4, 2023

1.0.1.dev733 pre-release

Jan 4, 2023

1.0.1.dev729 pre-release

Jan 4, 2023

1.0.0rc1703 pre-release

Jan 2, 2023

1.0.0rc1698 pre-release

Dec 17, 2022

1.0.0rc1693 pre-release

Dec 17, 2022

1.0.0rc1688 pre-release

Dec 17, 2022

1.0.0.dev723 pre-release

Jan 4, 2023

1.0.0.dev718 pre-release

Jan 4, 2023

1.0.0.dev713 pre-release

Jan 4, 2023

1.0.0.dev708 pre-release

Jan 4, 2023

0.3.0.dev675 pre-release

Dec 16, 2022

0.3.0.dev565 pre-release

Dec 12, 2022

0.3.0.dev450 pre-release

Dec 6, 2022

0.3.0.dev433 pre-release

Dec 6, 2022

0.2.0.dev402 pre-release

Dec 5, 2022

0.2.0.dev352 pre-release

Nov 25, 2022

0.2.0.dev340 pre-release

Nov 22, 2022

0.2.0.dev331 pre-release

Nov 22, 2022

0.2.0.dev311 pre-release

Nov 22, 2022

0.2.0.dev265 pre-release

Nov 21, 2022

0.2.0.dev169 pre-release

Sep 20, 2022

0.2.0.dev152 pre-release

Aug 26, 2022

0.2.0.dev147 pre-release

Aug 26, 2022

0.2.0.dev142 pre-release

Aug 26, 2022

0.2.0.dev125 pre-release

Aug 25, 2022

0.2.0.dev92 pre-release

Aug 23, 2022

0.2.0.dev90 pre-release

Aug 23, 2022

0.1.0.dev86 pre-release

Aug 1, 2022

0.1.0.dev83 pre-release

Jul 28, 2022

0.1.0.dev78 pre-release

Jul 20, 2022

0.1.0.dev70 pre-release

Jul 11, 2022

0.1.0.dev64 pre-release

Jun 24, 2022

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

udata_hydra-2.0.0.dev3158.tar.gz (39.4 kB view details)

Uploaded Aug 22, 2024 Source

Built Distribution

udata_hydra-2.0.0.dev3158-py3-none-any.whl (49.2 kB view details)

Uploaded Aug 22, 2024 Python 3

File details

Details for the file udata_hydra-2.0.0.dev3158.tar.gz.

File metadata

Download URL: udata_hydra-2.0.0.dev3158.tar.gz
Upload date: Aug 22, 2024
Size: 39.4 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: poetry/1.8.2 CPython/3.11.9 Linux/5.15.0-1057-aws

File hashes

Hashes for udata_hydra-2.0.0.dev3158.tar.gz
Algorithm	Hash digest
SHA256	`318a975455d3c5a2ba5416d267d5ec999f29c5aa2fc557ee3a08d4eaf61d49e0`
MD5	`e4cd7da91bdff7c03fdd53e62768f5ea`
BLAKE2b-256	`c077501ec451b571954c7f5ed4f81f893e6d73201ac8234b415991666564dfc9`

See more details on using hashes here.

File details

Details for the file udata_hydra-2.0.0.dev3158-py3-none-any.whl.

File metadata

Download URL: udata_hydra-2.0.0.dev3158-py3-none-any.whl
Upload date: Aug 22, 2024
Size: 49.2 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: poetry/1.8.2 CPython/3.11.9 Linux/5.15.0-1057-aws

File hashes

Hashes for udata_hydra-2.0.0.dev3158-py3-none-any.whl
Algorithm	Hash digest
SHA256	`193e1a0b751ef805d5409146649303e2d6cde9f96cc1631b948a6ce10770bbff`
MD5	`8fffc1cef77d7c31f2fde79393f98292`
BLAKE2b-256	`3036e17170637c68b3d7d6e92649b24169f53008b372e70ecd9b7780fc8e09ac`

See more details on using hashes here.

udata-hydra 2.0.0.dev3158

Navigation

Verified details

Maintainers

Unverified details

Meta

Classifiers

Project description

udata-hydra 🦀

Architecture schema

Dependencies

CLI

Create database structure

Load (UPSERT) latest catalog version from data.gouv.fr

Crawler

Worker

CSV conversion to database

Tests

Tests coverage

API

Run

Routes/endpoints

Get latest check

Get all checks for an URL or resource

Get crawling status

Get worker status

Get crawling stats

Using Webhook integration

Development

docker compose

Logging & Debugging

Writing a migration

Deployment

Contributing

Project details

Verified details

Maintainers

Unverified details

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes