planning2ics

Files

T

sylvain da14137bd9 Refonte identification des séries : PDF-first en deux étapes

Avant : le LLM devait simultanément grouper les notes ET les matcher
aux titres du site → résultats incohérents, séries perdues si pas de
correspondance sur le site.

Après (pipeline en 4 étapes) :
1. cluster_notes_into_series : LLM groupe les notes du PDF en séries
   canoniques, SANS le catalogue du site
2. scrape_catalog : enrichissement optionnel (+ extraction des dates
   de représentation depuis chaque page événement)
3. match_series_to_catalog : correspondance canonique→site pour
   enrichir le titre et la description (null si pas de match)
4. Génération ICS pour TOUTES les séries PDF, même sans correspondance
   site (répétitions seules incluses)

Autres changements :
- _build_description : inclut les dates du site et l'URL quand dispo
- clear_cache : inclut series_clusters.json et series_site_match.json
- _parse_json_response : helper robuste pour parser les réponses LLM

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

2026-03-08 16:27:20 +01:00

static

Ajout de la webapp Docker (FastAPI + HTML/JS vanilla)

2026-03-08 13:08:18 +01:00

app.py

Refonte identification des séries : PDF-first en deux étapes

2026-03-08 16:27:20 +01:00

config.json

Ajout de la webapp Docker (FastAPI + HTML/JS vanilla)

2026-03-08 13:08:18 +01:00

core.py

Refonte identification des séries : PDF-first en deux étapes