Commit Graph

9 Commits

Author SHA1 Message Date
sylvain 71bdc9f6ea Scraping ciblé : uniquement les événements site dont les dates correspondent aux concerts PDF
Au lieu de scraper toutes les pages du site, on :
1. Extrait les dates de concerts/représentations depuis le PDF
2. Scrape le listing du site (1 requête)
3. Pour chaque page événement, extrait ses dates et vérifie si au moins
   une date correspond à celles du PDF
4. Ignore silencieusement les événements sans correspondance de date

Avantages :
- Beaucoup moins de requêtes HTTP (seuls les événements pertinents)
- Correspondances plus fiables (validées par les dates)
- _parse_french_dates_from_page : convertit les dates texte en objets date
  pour la comparaison avec les dates PDF

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-08 16:35:30 +01:00
sylvain da14137bd9 Refonte identification des séries : PDF-first en deux étapes
Avant : le LLM devait simultanément grouper les notes ET les matcher
aux titres du site → résultats incohérents, séries perdues si pas de
correspondance sur le site.

Après (pipeline en 4 étapes) :
1. cluster_notes_into_series : LLM groupe les notes du PDF en séries
   canoniques, SANS le catalogue du site
2. scrape_catalog : enrichissement optionnel (+ extraction des dates
   de représentation depuis chaque page événement)
3. match_series_to_catalog : correspondance canonique→site pour
   enrichir le titre et la description (null si pas de match)
4. Génération ICS pour TOUTES les séries PDF, même sans correspondance
   site (répétitions seules incluses)

Autres changements :
- _build_description : inclut les dates du site et l'URL quand dispo
- clear_cache : inclut series_clusters.json et series_site_match.json
- _parse_json_response : helper robuste pour parser les réponses LLM

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-08 16:27:20 +01:00
sylvain 9ed22fb14a Docker : support env vars, compose standard + swarm séparés
- Dockerfile : copie config.json dans l'image (évite le problème de répertoire)
- app.py : load_config() lit les variables d'environnement en priorité sur config.json
- docker-compose.yml : converti en compose standard (sans section deploy Swarm)
- docker-compose.swarm.yml : nouveau fichier dédié au déploiement Docker Swarm

Variables supportées : OLLAMA_URL, OLLAMA_CLUSTER_MODEL, OLLAMA_LOCAL_MODEL,
SITE_CALENDAR_URL, SITE_BASE_URL, AUTH_SESSION_SECRET, AUTH_USERS

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-08 15:52:36 +01:00
sylvain 39b7524f31 Ajout TODO.md : roadmap automatisation email → ICS 2026-03-08 15:35:10 +01:00
sylvain 59cddee470 Fix: déduplication des événements pour éviter les doublons
Ajout d'une clé (date, start_time, titre, note) pour éviter qu'un même
événement soit ajouté plusieurs fois (PDFs qui se chevauchent ou lignes
dupliquées par pdfplumber sur tables multi-pages).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-08 15:27:02 +01:00
sylvain c937861b89 Correction docker-compose : image depuis le registre Gitea
Remplace `planning2ics:latest` par `git.piaf.im/sylvain/planning2ics:latest`
pour que le déploiement Swarm puisse puller l'image depuis le registre.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-08 15:21:07 +01:00
sylvain c13d439034 Ajout README.md
Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-08 13:11:01 +01:00
sylvain d4067e9105 Ajout de la webapp Docker (FastAPI + HTML/JS vanilla)
- Backend FastAPI avec auth par cookie (users dans config.json)
- Upload PDF drag & drop, progression en temps réel (SSE)
- Identification des séries via Ollama (config URL dans config.json)
- Téléchargement ICS par série + historique des traitements
- Bouton vider le cache (site web + mapping LLM)
- Docker Swarm ready (docker-compose.yml + Dockerfile)
- Compatible iOS/Android/PC (responsive mobile-first)

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-08 13:08:18 +01:00
sylvain 325d676ccf Initial commit: planning PDF → ICS par série
- Extraction des événements depuis PDFs de planning mensuel
- Scraping du site web pour titres officiels et descriptions
- Clustering des séries via Ollama (qwen3.5:cloud) avec cache
- Génération d'un fichier ICS par série
- Descriptions riches : œuvres pour répétitions, description site pour concerts

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-08 12:00:58 +01:00