Woo-harvester

Om het zoekportaal open.overheid.nl van inhoud te voorzien, kan de Woo-harvester automatisch documenten ophalen van websites of publicatieplatforms om die te koppelen aan de Woo-index. En die Woo-harvester kan vanaf nu gebruikt worden!

Er zijn al drie organisaties aangesloten, namelijk: Rijkswaterstaat en de provincies Zeeland en Gelderland.

Wat doet de Woo-harvester?

Gebruikers moeten met één zoekvraag door alle openbaar gemaakte documenten van alle bestuursorganen kunnen zoeken vanaf een centrale plek: https://open.overheid.nl. Om dat technisch voor elkaar te krijgen, is de ‘Woo-harvester’ ontwikkeld. De Woo-harvester haalt documenten op van de website(s) van bestuursorganen (harvesten) en maakt deze centraal doorzoekbaar op één plek. Eenmaal aangesloten is er dagelijks een check op nieuwe documenten en eventuele wijzigingen.

Het zoekportaal open.overheid.nl wordt via de Woo-harvester gevoed met documenten van de bestuursorganen. De Woo-harvester haalt alle documenten op zodathet kan worden geindexeerd op inhoud en meegeleverde metadata. Het zoekportaalportaal stuurt uiteindelijk de gebruikers voor de gevonden documenten naar de weblocatie waar het document is gepubliceerd.

Voor wie gaat de Woo-harvester live?

Alle bestuursorganen die informatie actief openbaar moeten maken volgens de Wet open overheid kunnen vanaf nu gebruikmaken van de Woo-harvester. Dit is overigens geen verplichting in verband met de eerste tranche voor actief openbaarmaken vanuit de Wet Open Overheid. Om documenten te laten ophalen, ook wel ‘harvesten’, is het belangrijk dat de websites voldoen aan de zogeheten publicatievoorwaarden van KOOP. Die voorwaarden zijn te vinden op de standaarden website van KOOP.

Wanneer kunnen de documenten van mijn bestuursorgaan worden geharvest?

De livegang gaat in eerste instantie gecontroleerd voor een aantal bestuursorganen en wordt later opgeschaald. Hieronder leggen we dat verder uit.
Nadat de Woo-harvester bij bestuursorganen eenmaal alle relevante documenten heeft opgehaald, zal er dagelijks een automatische check draaien op eventuele wijzigingen.

Waar worden de geharveste documenten getoond?

Eindgebruikers (burgers, journalisten, etc.) kunnen, na de harvesting, de documenten terugvinden via het publieke centrale zoekplatform open.overheid.nl. De URL's naar de documentverzamelingen (de set aan documenten over een bepaald onderwerp) blijven publiekelijk beschikbaar via de Woo-index (overheid.nl).

Waarom een gefaseerde livegang en wat houdt dat in?

Om zo efficiënt mogelijk met de beschikbare mensen en middelen om te gaan en eventuele opstartproblemen zo snel mogelijk te verhelpen, zal KOOP gefaseerd documenten en wijzigingen op documenten gaan ophalen met de Woo-harvester. Met de ervaringen bij de eerste bestuursorganen zullen daarna steeds meer documenten geharvest worden. We beginnen met de bestuursorganen die als eerste op de juiste manier de Woo-index hebben ingevuld met URL's naar weblocaties.

Zijn er nog andere opties om de informatie in de Woo-index te krijgen?

Op dit moment is voor deze soorten van informatie de Woo-harvester de enige mogelijkheid. Er wordt nog gewerkt aan andere opties, hier volgt binnenkort meer informatie over.

Welke stappen moet ik ondernemen?

Onderstaande stappen dienen te worden gevolgd zodat de Woo-harvester ingezet kan worden om documenten op te halen.

Voorbereiding

Woo-index check

De door bestuursorganen ingevoerde URL's in de Woo-index worden door KOOP gevalideerd op basis van de Woo-index check. Er wordt gevalideerd op een juiste inrichting van de robots.txt in combinatie met de XML sitemaps. (de sitemaps worden niet op inhoud gevalideerd).

  • (STAP 4) Wanneer een URL voldoet aan de publicatievoorwaarden neemt het implementatieteam PLOOI contact met de Woo-of ROO-redacteur van uw bestuursorgaan op over de datum waarop documenten worden geharvest;

Indien uit de Woo-index check blijkt dat er sprake is van fouten in de implementatie en er daardoor niet geharvest kan worden, dan neemt KOOP contact op met de betreffende Woo- of ROO-redacteur van het bestuursorgaan.

Harvesten eerste documenten

  • (STAP 5) Na de eerste harvesting en verwerking van documenten en/of metadata worden deze gepubliceerd op het publieke centrale zoekplatform https://open.overheid.nl. De documenten worden na indexering door KOOP niet verder opgeslagen;

Documenten wijzigingen

Na harvesting en verwerking van de eerste documenten zal de Woo-harvester vanaf dat moment regelmatig de verwijzingen van het bestuursorgaan bezoeken en wijziging in documenten en/of metadata harvesten en verwerken.

Al het contact met het bestuursorgaan bij de gecontroleerde livegang ten behoeve van ondersteuning en planning verloopt via het implementatieteam van KOOP (woo@koop.overheid.nl)

Meer informatie en contactgegevens

Voor vragen over bovenstaande informatie kunt u terecht bij het implementatieteam van KOOP via het e-mailadres:  woo@koop.overheid.nl.
U kunt via dit emailadres ook contact op wanneer u vragen heeft over de harvesting van documenten.

Meer informatie over actief openbaar maken is te vinden op open-overheid.nl.