Actualité

Un hackathon pour dédoubler les offres d'emploi en ligne

Difficultés de recrutement, salaires, télétravail... pour mieux analyser les offres d'emploi en ligne, la Dares et l'Insee font équipe afin de proposer un code pour supprimer les doublons.

Arrivés en 4ème position lors de la première phase, Yannis Bouachera et Benjamin Pipaud nous racontent.

Pourquoi chercher à dédupliquer les offres en lignes ?

Les offres d’emploi en ligne constituent une source de données « nouvelle génération » qui suscite un grand intérêt de la part des analystes du marché du travail. L’étude de ces offres peut en effet permettre d’identifier les difficultés ou les besoins de recrutements de différents secteurs, métiers, entreprises, régions… L’analyse du contenu des offres permet aussi de découvrir ou confirmer certaines tendances : hausse des salaires, télétravail autorisé… 

Cependant, une offre d’emploi n’est pas nécessairement associée à un recrutement. En particulier, il arrive fréquemment que des recruteurs publient leur annonce sur différents sites, ce qui peut gonfler artificiellement certains chiffres ou déformer certaines tendances si aucun traitement n’est effectué. La déduplication des données d’offres d’emploi en ligne est ainsi une condition clé de leur analyse.

Comment se déroule la compétition ?

 

Yannis Bouachera : Eurostat met à disposition un fichier avec environs 112 000 offres d’emploi provenant de près de 400 sites internet européens. Les 20 équipes participantes ont eu jusqu’au 31 mars pour proposer un algorithme performant et précis pour identifier et classifier les doublons.

Nous pouvions poster jusqu’à 10 codes pour répondre à la demande. Le classement et le nombre de proposition soumis par chaque équipe est visible en temps réel sur la plateforme de la compétition, ce qui ajoute un peu de suspens. Vous pouvez consulter notre classement.

Nous faisons partie des équipes sélectionnées. A partir du 16 avril et jusqu’au 20 octobre, nos codes seront évalués sur la reproductibilité de leur algorithme. Le 16 octobre, les résultats finaux seront annoncés et des prix seront distribués pour les grands gagnants du concours.

Comment votre équipe est-elle organisée ?

Yannis Bouachera : Pour ne pas gaspiller nos essais sur la plateforme, nous avons choisi de ne publier nos tentatives de code que lorsqu’elles nous semblaient assez abouties. Dès le début du mois de mars, chacun des membres de l’équipe (2 personnes à l’Insee, Benjamin et moi) a exploré les données en échangeant toutes les semaines, pour présenter nos avancées. A l’approche de la clôture de la compétition, nos échanges étaient quotidiens puisque nous postions une tentative par jour.

Que pensez-vous de ce challenge ?

Yannis Bouachera : Nous travaillons déjà avec Eurostat sur ce sujet, et notamment sur la plateforme Jocas, puisqu’ils ont pour objectif de développer un scraping des offres d’emploi en ligne dans plusieurs langues, à échelle européenne.

Cette compétition est intéressante puisqu’elle nous permet de nous atteler à la question du dédoublonnage, que nous n’avions pas forcément eu encore le temps d’approfondir. Le challenge est organisé pour répondre aux besoins de Eurostat mais on a en fait le même besoin a la Dares. Nous utilisons déjà un algorithme de déduplication sur Jocas mais il est très rudimentaire et c’était l’occasion de l’améliorer.

Benjamin Pipaud : C’est la première fois que je participe à un hackathon ! C’est un défi de travailler avec des personnes qui n’ont pas toute la même expérience en machine learning. Il faut explorer différentes stratégies tout en restant efficace et respecter les deadlines : c’est un projet très stimulant.