Software in de etalage

Wetenschappers die specifieke software nodig hebben, vinden veel te vaak zelf een wiel uit dat allang bestond. Daarmee verspillen we miljoenen, denkt Jurriaan Spaaks. Het Netherlands eScience Center waar hij werkt, ontwikkelde een oplossing: de Research Software Directory. Kosteloos beschikbaar voor iedereen.

Stel: je wil als wetenschapper de resultaten van een bestaand onderzoek reproduceren. In het gepubliceerde artikel staat de methode nauwkeurig beschreven. Alleen over de gebruikte software schrijft de auteur: ‘Stuur me een mailtje.’ Want het correct citeren van software is lastig en daardoor ongebruikelijk. Jurriaan Spaaks, research software engineer bij het eScience Center, stuurt weleens zo’n mailtje. ‘Vaak krijg ik geen reactie. Of ik krijg het bericht: “Ik weet niet meer precies welke versie ik heb gebruikt, maar hier heb je een versie.”’ Weg reproduceerbaarheid, terwijl die toch steeds belangrijker wordt in de wetenschap. Spaaks: ‘In een recente enquête van Nature gaf meer dan de helft van 1576 onderzoekers aan weleens zonder succes geprobeerd te hebben eigen onderzoeksresultaten te reproduceren.’

Nog een voorbeeld: je hebt voor je onderzoek specifieke software nodig voor verwerking van big data of beelden. Je googelt, maar vindt niets dat geschikt lijkt. Je denkt: Ik bouw het zelf wel even. Spaaks: ‘Vervolgens ben je vaak al snel een half jaar verder voordat de software af is, en is je programma niet optimaal. En dat terwijl veel wetenschappers vaak dezelfde tools gebruiken en dus steeds hetzelfde wiel uitvinden. Daarmee verspillen we miljoenen!’

De oplossing ligt klaar
Het eScience Center heeft nu een oplossing: de Research Software Directory. Spaaks: ‘Wij wilden een portfolio maken van alle ongeveer honderd door ons ontwikkelde softwarepakketten. In een paar maanden hebben twee mensen dat gebouwd. Daarna bedachten we dat elk instituut met zo’n directory onderzoekssoftware kan ontsluiten.’
Het Digital Humanities Lab van de Universiteit Utrecht is al begonnen. De universiteit installeert een eigen versie van de Research Software Directory op hun online omgeving, met eigen look and feel en relevante trefwoorden. Daarin plaatst een wetenschapper of softwareontwikkelaar informatie over de betreffende software: Een beschrijving wat de software doet, voorbeelden van projecten en papers waarin hij werd toegepast, namen van de ontwikkelaars en een citatieblokje per versie.

Het klnkt wellicht wat vreemd dat ieder instituut zijn eigen directory moet vullen. Spaaks legt uit: ‘Wetenschappers zoeken in Google, niet in een directory. Door de weergave in de Research Software Directory, met begrijpelijke omschrijvingen en voorbeelden, vindt Google wat de wetenschapper in kwestie zoekt. Als software alleen op GitHub staat, vindt Google het niet. En zelf zoeken in GitHub werkt ook niet, omdat daar meestal geen informatie over de software staat waarmee je kunt beslissen of je gevonden hebt wat je zoekt.’

Hobbels wegnemen
Behalve de Universiteit Utrecht, een H2020-project en het eScience Center zelf, ontsluit tot Spaaks zijn spijt nog niemand zijn software via de Research Software Directory. Bij de Universiteit van Amsterdam liep het mis. ‘We waren heel ver, maar op het laatst zei de betreffende onderzoeksmanager dat het te veel tijd zou gaan kosten de software in te voeren’, vertelt hij. ‘Hoeveel tijd en geld wij er zelf ook hadden ingestoken, uiteindelijk moeten wetenschappers zelf hun software in de directory plaatsen. Dat is een hobbel, want wetenschappers worden toch nog altijd vooral afgerekend op het aantal publicaties. Een bijdrage aan de ontsluiting van software levert niet direct iets op.’

Dat zou anders moeten, vindt Spaaks. ‘Wetenschapsfinanciers zouden zich hier druk om moeten maken. NWO heeft al aandacht voor open access, valorisatie en het beschikbaar stellen van data. Daar zou het ontsluiten van software bij moeten komen.’ Alleen, hoe zit het met auteursrecht? Mag iedereen zomaar code kopiëren, gebruiken en aanpassen? Spaaks: ‘Bij onze eigen software mag dat, graag zelfs. Wij vullen dus bij het licentievakje in: Apache-2.0. Dan mag je het zelfs verkopen. Maar je hebt ook andere opties. Laat het vakje in elk geval niet leeg. Dat doen mensen soms als ze software vrij toegankelijk willen maken. Maar een leeg vakje betekent juist dat het illegaal is de software zomaar te gebruiken.’ Spaaks en zijn collega’s leggen het graag haarfijn uit aan iedereen die met de Research Software Directory aan de slag wil.

eScience Center
Bij het eScience center, opgericht en gefinancierd door NWO en SURF, ontwikkelen zo’n zeventig programmeurs onderzoekssoftware. Wetenschappers kunnen jaarlijks onderzoeksvoorstellen indienen voor gemeenschappelijke projecten om met software, data en (super)computers tot nieuwe ontdekkingen te komen. In 2017 lanceerde het eScience Center de Research Software Directory. Het centrum helpt instituten graag hun eigen versie van zo’n software directory in te richten. Meer informatie hierover via tinyurl.com/y2b4wdmy of via rsd@esciencecenter.nl.

Dit artikel schreef ik voor I/O Magazine, editie december 2019.
Beeld bovenaan: Pixabay

Plaats een reactie