Fix: déduplication des événements pour éviter les doublons

Ajout d'une clé (date, start_time, titre, note) pour éviter qu'un même événement soit ajouté plusieurs fois (PDFs qui se chevauchent ou lignes dupliquées par pdfplumber sur tables multi-pages). Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-08 15:27:02 +01:00
parent c937861b89
commit 59cddee470
2 changed files with 14 additions and 3 deletions
@@ -514,12 +514,18 @@ def main():

    # 1. Extraire tous les événements des PDFs
    all_events = []
+    seen = set()
    pdf_files = sorted(PDF_DIR.glob("*.pdf"))
    print(f"PDFs trouvés : {len(pdf_files)}")
    for pdf_path in pdf_files:
        events = extract_events_from_pdf(pdf_path)
-        print(f"  {pdf_path.name}: {len(events)} événements")
-        all_events.extend(events)
+        before = len(all_events)
+        for evt in events:
+            key = (evt['date'], evt['start_time'], evt['titre'], evt['note'])
+            if key not in seen:
+                seen.add(key)
+                all_events.append(evt)
+        print(f"  {pdf_path.name}: {len(events)} extraits, {len(all_events)-before} ajoutés")
    print(f"Total : {len(all_events)} événements")

    # 2. Scraper le site web (avec cache)