Fix: déduplication des événements pour éviter les doublons
Ajout d'une clé (date, start_time, titre, note) pour éviter qu'un même événement soit ajouté plusieurs fois (PDFs qui se chevauchent ou lignes dupliquées par pdfplumber sur tables multi-pages). Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
+6
-1
@@ -431,10 +431,15 @@ def process_pdfs(pdf_paths: list, config: dict, data_dir: Path,
|
||||
if log:
|
||||
log(f"Extraction de {len(pdf_paths)} PDF(s)...")
|
||||
all_events = []
|
||||
seen = set()
|
||||
for i, pdf_path in enumerate(pdf_paths):
|
||||
if log:
|
||||
log(f"Extraction {i+1}/{len(pdf_paths)} : {pdf_path.name}")
|
||||
all_events.extend(extract_events_from_pdf(pdf_path))
|
||||
for evt in extract_events_from_pdf(pdf_path):
|
||||
key = (evt['date'], evt['start_time'], evt['titre'], evt['note'])
|
||||
if key not in seen:
|
||||
seen.add(key)
|
||||
all_events.append(evt)
|
||||
if log:
|
||||
log(f"{len(all_events)} événements extraits au total")
|
||||
|
||||
|
||||
Reference in New Issue
Block a user