Het verbeteren van de steekproefstrategie voor de Community Innovation Survey met behulp van machine learning algoritmes

Er is een groeiende interesse bij statistische bureau’s om voor het maken van officiele statistieken gebruik te maken van nieuwe data bronnen zoals informatie beschikbaar op het internet, sociale mediaberichten, sensordata en web-scraped data. Het gebruik van dit soort gegevens als primaire databron impliceerd een verhoogd afbreukrisico omdat een statistisch intsituut bijvoorbeeld geen controle meer heeft over de beschikbaarheid van de gegevens of de vergelijkbaarheid ervan in de tijd. Om deze risico's tot een minimum te beperken, wordt in dit paper voorgesteld om informatie uit dit soort gegevensbronnen te gebruiken als hulpinformatie om de steekproefstrategie van een kanssteekproef te verbeteren. Dit concept wordt geïllustreerd met een toepassing op de Community Innovation Survey (CIS).

Drie bronnen voor het verbeteren van de weging van de CIS zijn onderzocht: (1) web-scraped data die aangeven hoe groot de kans is dat een bedrijf innovatief is, (2) administratieve gegevens van bedrijven die subsidies voor onderzoek en ontwikkeling ontvangen, en (3) administratieve gegevens over het aantal patenten dat een bedrijf heeft. Met behulp van gegevens uit de CIS van 2016, wordt onderzocht in hoeverre de nauwkeurigheid van de schattingen uit de enquête kan worden verbeterd door te wegen naar populatieverdelingen die zijn gebaseerd op deze hulpbronnen. Aan de hand van deze analyses wordt onderzocht of de bestaande wegingsmethode kan worden verbeterd en welke hulpbron hiervoor het meest geschikt is. Daarnaast draagt dit paper bij aan de discussie over het gebruik van traditionele en nieuwe gegevensbronnen voor het maken van officiële statistieken.

[....]

Gerelateerde vacatures

Geïnteresseerd in een carrière bij organisaties in ditzelfde vakgebied? Bekijk hieronder de gerelateerde vacatures en vind de perfecte match voor jou!

Business Analyst VB Data Landschap

Pensioenfonds Rail & OV

Max. 8.300

Medior, Senior

Utrecht

Als Business Analyst VB Data Landschap bij Pensioenfonds Rail & Openbaar Vervoer analyseer en map je end-to-end datastromen, signaleer je afwijkingen en technische schuld, definieer je verbeteringen en ben je...

Meer lezen Direct solliciteren

Data engineer

Algemene Rekenkamer

4.024 - 6.908

Medior, Senior

Den Haag

Als Data engineer bij de Algemene Rekenkamer leg je het fundament voor moderne dataverwerking en data-infrastructuur: je ontwerpt en bouwt oplossingen met het team, stemt af met stakeholders, ontwikkelt API’s...

Meer lezen Direct solliciteren

Model Risk Specialist Portfolio Management & Frameworks

ING

6.500 - 10.389

Senior

Amsterdam

As a Model Risk Specialist Portfolio Management & Frameworks at ING stuur je modelrisico op portfolioniveau: voer het Model Risk Management Framework end-to-end uit, ontwikkel data-gedreven risico-indicatoren en rapportages, vertaal...

Meer lezen Direct solliciteren

Data coördinator

Belastingdienst

4.691 - 6.907

Medior, Senior

Den Haag

Als Data coördinator bij de Belastingdienst (BZB) borg je verantwoord gegevensgebruik: je adviseert over privacy en gegevensverwerking, voert beoordelingen uit, regisseert DPIA’s, beheert het verwerkingenregister en versterkt risicobeheersing en bewustwording.

Meer lezen Direct solliciteren

Finance

Business

Business Support

Technology

Hubs per Sector

Het verbeteren van de steekproefstrategie voor de Community Innovation Survey met behulp van machine learning algoritmes

“We bouwen letterlijk aan iets wat er gisteren nog niet was”

Hier is er geen rem op je ontwikkeling

Investeren in de toekomst: begroten met visie

Communicatie als onderscheidend vermogen

Gerelateerde vacatures