Du corpus télévisuel au corpus web à l’aide de l’outil visuel automatique

Shiming Shen; Eric Kergosien; Matteo Treleani

Communication Dans Un Congrès Année : 2023

From television corpus to web corpus using the automatic visual tool

Du corpus télévisuel au corpus web à l’aide de l’outil visuel automatique

(1) , (2) , (1)

1
2

Shiming Shen

Fonction : Auteur
PersonId : 749213
IdHAL : shiming-shen

Laboratoire de Recherche en Sciences de l'Information et de la Communication

Eric Kergosien

Fonction : Auteur
PersonId : 8855
IdHAL : eric-kergosien
ORCID : 0000-0002-2397-5519
IdRef : 157611582

Groupe d'Études et de Recherche Interdisciplinaire en Information et COmmunication - ULR 4073

Matteo Treleani

Fonction : Auteur
PersonId : 747313
IdHAL : matteo-treleani
ORCID : 0000-0001-5707-499X

Laboratoire de Recherche en Sciences de l'Information et de la Communication

Résumé

This article addresses a major issue related to the collection of audiovisual documents within television and web archives. While searching for repeated sequences in a corpus of thousands of videos, we were confronted with the fact that unlike television images, the web images we were looking for turned out not to be accessible via metadata. To solve this problem, we consider web sources not in isolation, but in connection with television data. From our already established TV corpus, when faced with large amounts of web data with unstructured metadata, to link a visual unit to its occurrences, automatic analysis techniques are therefore required. We describe our data collection procedures and the solution combining qualitative work and computer-assisted approach to face this major challenge, within the Crossing Borders Archives (CROBORA) research project.

Cet article traite d'un enjeu majeur lié à la collecte de documents audiovisuels au sein des archives télévisuelles et web. En recherchant des séquences répétées dans un corpus de milliers de vidéos, nous avons été confrontés au fait que contrairement aux images télévisuelles, les images web que nous recherchions se révèlent ne pas être accessibles via les métadonnées. Pour résoudre ce problème, nous envisageons les sources web non pas de manière isolée, mais en lien avec les données télévisuelles. A partir de notre corpus télévisuel déjà établi, face à de grandes quantités de données du web avec des métadonnées non structurées, pour relier une unité visuelle à ses occurrences, des techniques d'analyse automatiques sont donc nécessaires. Nous décrivons nos procédures de collecte de données et la solution alliant travail qualitatif et approche assistée par ordinateur pour faire face à ce défi majeur, au sein du projet de recherche Crossing Borders Archives (CROBORA).

Mots clés

Audiovisual archives Television Digital methods Media memory

Archives audiovisuelles Web Télévision Méthodes numériques Europe Mémoire des médias

Domaines

Sciences de l'information et de la communication

Shiming SHEN : Connectez-vous pour contacter le contributeur

https://hal.univ-lyon2.fr/hal-04087020

Soumis le : mardi 2 mai 2023-16:58:34

Dernière modification le : lundi 3 juin 2024-08:58:03

Dates et versions

hal-04087020 , version 1 (02-05-2023)

Identifiants

HAL Id : hal-04087020 , version 1

Citer

Shiming Shen, Eric Kergosien, Matteo Treleani. Du corpus télévisuel au corpus web à l’aide de l’outil visuel automatique. Le web : source et archive, Université de Lille; Ecole nationale des chartes, Apr 2023, Villeneuve D’Ascq, France. ⟨hal-04087020⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-LYON2 GERIICO UNIV-COTEDAZUR UNIV-LILLE UDL SICLAB

59 Consultations

0 Téléchargements

From television corpus to web corpus using the automatic visual tool

Du corpus télévisuel au corpus web à l’aide de l’outil visuel automatique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager