Fix: déduplication des événements pour éviter les doublons

Ajout d'une clé (date, start_time, titre, note) pour éviter qu'un même
événement soit ajouté plusieurs fois (PDFs qui se chevauchent ou lignes
dupliquées par pdfplumber sur tables multi-pages).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
sylvain
2026-03-08 15:27:02 +01:00
parent c937861b89
commit 59cddee470
2 changed files with 14 additions and 3 deletions
+6 -1
View File
@@ -431,10 +431,15 @@ def process_pdfs(pdf_paths: list, config: dict, data_dir: Path,
if log:
log(f"Extraction de {len(pdf_paths)} PDF(s)...")
all_events = []
seen = set()
for i, pdf_path in enumerate(pdf_paths):
if log:
log(f"Extraction {i+1}/{len(pdf_paths)} : {pdf_path.name}")
all_events.extend(extract_events_from_pdf(pdf_path))
for evt in extract_events_from_pdf(pdf_path):
key = (evt['date'], evt['start_time'], evt['titre'], evt['note'])
if key not in seen:
seen.add(key)
all_events.append(evt)
if log:
log(f"{len(all_events)} événements extraits au total")