Du corpus télévisuel au corpus web à l’aide de l’outil visuel automatique - Université Lumière Lyon 2
Communication Dans Un Congrès Année : 2023

From television corpus to web corpus using the automatic visual tool

Du corpus télévisuel au corpus web à l’aide de l’outil visuel automatique

Résumé

This article addresses a major issue related to the collection of audiovisual documents within television and web archives. While searching for repeated sequences in a corpus of thousands of videos, we were confronted with the fact that unlike television images, the web images we were looking for turned out not to be accessible via metadata. To solve this problem, we consider web sources not in isolation, but in connection with television data. From our already established TV corpus, when faced with large amounts of web data with unstructured metadata, to link a visual unit to its occurrences, automatic analysis techniques are therefore required. We describe our data collection procedures and the solution combining qualitative work and computer-assisted approach to face this major challenge, within the Crossing Borders Archives (CROBORA) research project.
Cet article traite d'un enjeu majeur lié à la collecte de documents audiovisuels au sein des archives télévisuelles et web. En recherchant des séquences répétées dans un corpus de milliers de vidéos, nous avons été confrontés au fait que contrairement aux images télévisuelles, les images web que nous recherchions se révèlent ne pas être accessibles via les métadonnées. Pour résoudre ce problème, nous envisageons les sources web non pas de manière isolée, mais en lien avec les données télévisuelles. A partir de notre corpus télévisuel déjà établi, face à de grandes quantités de données du web avec des métadonnées non structurées, pour relier une unité visuelle à ses occurrences, des techniques d'analyse automatiques sont donc nécessaires. Nous décrivons nos procédures de collecte de données et la solution alliant travail qualitatif et approche assistée par ordinateur pour faire face à ce défi majeur, au sein du projet de recherche Crossing Borders Archives (CROBORA).
Fichier non déposé

Dates et versions

hal-04087020 , version 1 (02-05-2023)

Identifiants

  • HAL Id : hal-04087020 , version 1

Citer

Shiming Shen, Eric Kergosien, Matteo Treleani. Du corpus télévisuel au corpus web à l’aide de l’outil visuel automatique. Le web : source et archive, Université de Lille; Ecole nationale des chartes, Apr 2023, Villeneuve D’Ascq, France. ⟨hal-04087020⟩
54 Consultations
0 Téléchargements

Partager

More