From television corpus to web corpus using the automatic visual tool
Du corpus télévisuel au corpus web à l’aide de l’outil visuel automatique
Résumé
This article addresses a major issue related to the collection of audiovisual documents within television and web archives. While searching for repeated sequences in a corpus of thousands of videos, we were confronted with the fact that unlike television images, the web images we were looking for turned out not to be accessible via metadata. To solve this problem, we consider web sources not in isolation, but in connection with television data. From our already established TV corpus, when faced with large amounts of web data with unstructured metadata, to link a visual unit to its occurrences, automatic analysis techniques are therefore required. We describe our data collection procedures and the solution combining qualitative work and computer-assisted approach to face this major challenge, within the Crossing Borders Archives (CROBORA) research project.
Cet article traite d'un enjeu majeur lié à la collecte de documents audiovisuels au sein des archives télévisuelles et web. En recherchant des séquences répétées dans un corpus de milliers de vidéos, nous avons été confrontés au fait que contrairement aux images télévisuelles, les images web que nous recherchions se révèlent ne pas être accessibles via les métadonnées. Pour résoudre ce problème, nous envisageons les sources web non pas de manière isolée, mais en lien avec les données télévisuelles. A partir de notre corpus télévisuel déjà établi, face à de grandes quantités de données du web avec des métadonnées non structurées, pour relier une unité visuelle à ses occurrences, des techniques d'analyse automatiques sont donc nécessaires. Nous décrivons nos procédures de collecte de données et la solution alliant travail qualitatif et approche assistée par ordinateur pour faire face à ce défi majeur, au sein du projet de recherche Crossing Borders Archives (CROBORA).