Commons:Texte synchronisé

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
This page is a translated version of a page Commons:Timed Text and the translation is 74% complete. Changes to the translation template, respectively the source language can be submitted through Commons:Timed Text and have to be approved by a translation administrator.
Outdated translations are marked like this.
Shortcuts

Pour les autres utilisations, voir Légendes des fichiers.

TimedText est un espace de noms Wikimedia Commons personnalisé contenant le texte embarqué des légendes, ou des sous-titres à associer à d'autres médias tels que les fichiers audio ou vidéo. Cette page explique le concept de cette fonction ainsi que son utilisation.

Les commentaires activables (CC - closed captioning) et les sous-titres (caption ou subtitle) sont deux processus pour afficher du texte sur une télévision, un écran vidéo, ou tout autre support visuel de représentation pour fournir des informations complémentaires ou d'interprétation. Les deux sont typiquement utilisés pour la transcription des portions audio d'un programme au fur et à mesure de leur apparition (par copie, ou par format d'édition), et contenant quelques fois les descriptions d'élément non verbeux. Cela aide les personnes appareillées ou muettes et fournit un moyen à ceux qui ne parlent pas la langue, de comprendre le contenu d'un fichier multimédia.

Usage

Example video player

Voir aussi Sous-titrage et légendes.

Thumbnails of videos and audio clips that have closed captioning available will show the CC icon overlayed. After opening the player, subtitles in your language are automatically enabled. You can find the CC icon in the controls of the player to switch between languages, toggling subtitles on and off, or to change the formatting of the subtitles.

Le texte synchronisé peut être utilisé avec tout média comportant une séquence qui se déroule en fonction du temps.

  • Fichier audio
  • Vidéo silencieuse
  • Vidéo parlée
  • Animation présentant un concept ou la démonstration d'un fonctionnement particulier.

Exemples actuels


Recherche

Recherche de texte synchrone
Add below the name of the video to search
(do not delete the TimedText: prefix, add the text after it, e.g. TimedText:Elephants_Dream.ogv).
REMINDER : If the TimedText doesn't exist, don't forget to add language & extension, e.g. TimedText:Elephants_Dream.ogv.en.srt) to create a TimedText page. see Commons:Timed Text
  • {{Allpages|102}} est généré pour l'espace de noms TimedText et liste toutes les pages de l'espace de noms 102.

Commons a besoin d'un moyen pour retrouver les fichiers de texte synchronisé pour les différentes langues; ce qui suit est un peu contraint à cause des limitations de la fonction Search (par exemple, toutes les correspondances ne sont pas fournies; on y trouve des non-correspondances; il faut disposer d'un support pour les expressions régulières). Search avec quelques fichiers .srt de texte synchronisé en différentes langues :

EnglishGermanFrenchPortugueseRussianSwedishUkrainianPolishIndonesian

Autres méthodes pour aider l'utilisateur à trouver du texte synchronisé :

  • {{Closed captions}} affiche les liens vers tous les fichiers contenant des sous-titrages; peut figurer sur une page de média et sa page de discussion.
  • {{special|Prefixindex/TimedText:{{PAGENAME}}.|stripprefix|1|subtitles}} fournit un lien vers tous les fichiers Timed Text relatifs (exemple).
  • Recherche de fichiers Timed Text par langue affiche des liens de recherche pour tous les fichiers de texte synchronisé pour une langue donnée; c'est utile pour les pages de Commons, pour les catégories et les pages de discussion.

Marquer et trouver les vidéos qui ont besoin de sous-titrage

Le modèle {{Captions requested}} peut être utilisé pour marquer une vidéo qui a besoin de sous-titres. Le modèle l'ajoute à la catégorie Videos needing subtitles, ce qui permet de voir les vidéos, les utilisateurs et les auteurs qui ont demandé des transcriptions.

Ce modèle et cette catégorie sont dans l'optique du projet wiki Deaf et de ses projets-frères Deaf Wikimedians (sur meta) et WikiProject Deaf (sur wikipedia).

Trouver les vidéos dont les sous-titres doivent être traduits

Une manière de trouver de telles vidéos est d'ouvrir une des sous-catégories de Category:Files with closed captioning en fonction de la langue préférée initiale, puis d'utiliser Help:FastCCI (dans le coin supérieur droit de la page) pour n'inclure que les vidéos qui n'ont pas de sous-titres dans votre langue cible préférée.

Exemple
  • Pour trouver des vidéos avec des sous-titres anglais à traduire, aller à Category:Files with closed captioning in English.
  • Puis cliquez sur la flèche FastCCI pour ouvrir le sous-menu et sélectionnez Dans cette catégorie mais et non pas dans...
  • Dans la boîte textuelle, entrez la catégorie correspondante en fonction de votre langue cible préférée :
    • Pour l'allemand, entrez Files with closed captioning in German
    • Pour le français, entrez Files with closed captioning in French
    • Pour le russe, entrez Files with closed captioning in Russian

etc..

Discussion sur Timed Text

L'espace de noms TimedText talk sert aux commentaires des pages Timed Text respectives, mais il peut être également utilisé pour lier et catégoriser la page Timed Text.

Tâches de maintenance

Téléversement

Pour téléverser un fichier de sous-titres déjà créé, ouvrez-le sur votre ordinateur dans la fenêtre de votre éditeur de texte (par exemple avec Notepad) et copiez le texte dans une nouvelle page de l'espace de noms TimedText qui correspond au nom de la vidéo et à la langue.

Création

Commons utilise le format de fichier SubRip (.srt) pour les commentaires embarqués et pour les sous-titres. Vous pouvez créer ces fichiers de différentes manières.

Créer des sous-titres page pour les fichiers existants de Commons

TimedText link

Option 1: in the Commons page of the file (recommended)

You can use the "TimedText" link at the top of any suitable multimedia file on Commons.

Option 2: directly in the media player

Emplacement du bouton CC

En utilisant le bouton CC de la barre d'outils du lecteur de média HTML5 de Wikimedia, vous pouvez sélectionner les sous-titres disponibles, ou ouvrir l'éditeur de sous-titres pour les créer (pour la vidéo). Vous pouvez également utiliser le lien TimedText en haut de tout type de fichier multimédia compatible de Commons.

Option 3: creating a blank page (for advanced users)

You can always directly create the page in Commons using the template TimedText:[Common_File_Name.extension].[language].srt, where [Common_File_Name.extension] is the name of the file, and [language] is the ISO code for the language.

Example: to add subtitles to Elephants_Dream.ogg, you can create the page TimedText:Elephants_Dream.ogg.en.srt for english subtitles, or TimedText:Elephants_Dream.ogg.fr.srt for french subtitles.


Extracting existing subtitles to import them

Créer des sous-titres à partir de DVD

Pour récupérer les sous-titres existant sur un DVD, vous pouvez utiliser un logiciel tel que SubRip.

Créer des sous-titres avec YouTube

YouTube permet aux utilisateurs possédant un compte YouTube de créer des sous-titres en dehors de tout fichier téléversé. N'oubliez pas que la reconnaissance de la parole est automatique et peut produire des résultats non attendus. Il est recommandé de téléverser un script du fichier sur YouTube. Ce qui donnera de bien meilleurs résultats.

Etapes pour créer les sous-titres (tutoriel) :

  1. Téléversez le fichier. (Le fichier multimédia doit également inclure une piste vidéo mais vous pouvez placer une piste vide ou autre chose).
  2. Lors du téléversement, indiquez correctement la langue de la vidéo du fichier à partir du menu Afficher davantage.
  3. Ou après le téléversement, sélectionnez Sous-titres dans les détails spécifiques de la vidéo ou dans la navigation de YouTube Studio.
  4. Cliquez sur Ajouter ou Ajouter une langue.
  5. Voici trois manières pour ajouter des sous-titres :
    1. Téléversez une transcription dans le bon format.
    2. Copiez et collez la transcription.
    3. Entrez le texte manuellement tout en regardant la vidéo.
  6. Les légendes sont ensuite intégrées dans la vidéo.
  7. Téléchargez le fichier .sbv à partir du menu des sous-titres sous le menu des trois points lorsque vous êtes dans la vue d'édition des temps.
  8. Convertissez le contenu du fichier .sbv en fichier .srt . Différents outils en ligne existent pour cela.
    1. ffmpeg est une option source libre (directions).
  9. Téléversez le fichier .srt sur la page correspondante de la vidéo dans Wikimedia Commons.

Downloading subtitles from YouTube

You can download subtitles from video on YouTube (and probably several other video websites) like so:

  1. Install yt-dlp
  2. Run yt-dlp --list-subs url (replace url with the youtube url)
  3. Run e.g. yt-dlp --write-subs en --sub-format vtt url (replace url with the youtube url)
  4. Maybe srt subtitles are available too so you should use that instead of vtt or you can download all at once
  5. Convert the vtt subtitles (or the format you have) to srt subtitles using a tool or web UI like this
  6. You can then paste these into the TimedText page of the video on WMC

If you use the tool video2commons one can check "Import subtitles" but that does not work for vtt subtitles (phab:T368298) so for these videos you also need to do the above steps for importing subtitles.

Machine transcription

You can use the open source tool SoniTranslate to more easily and quickly generate machine transcribed subtitles. It would be good if you check these, especially if you also use the tool for machine translation into other languages. For example it may output years as long texts instead of numbers or get people's names wrong. How to use this tool is described in Help:AI video dubbing. If there are no existing subtitles to import, this is likely the fastest way to add TimedTexts. Transcription usually only takes only a few seconds even if you don't have a GPU, depending on how long the video is.

The timings are made so that they are well-suited for getting used for dubbing videos into other languages which often is not the case for manually-made subtitles. You can edit the subtitles, then save as srt file and use that as input to the tool to let it create an audio or subtitle in another language.

Creating subtitles with whisper.cpp

As of 2024, the Whisper AI models are the most advanced speech transcription models available and can be run locally, either using Python or whisper.cpp. Unlike the earlier Vosk models, they will also produce punctuation, bringing their output much closer to a high-quality human transcription. All the same, you should check AI-generated subtitles against the video and correct mistakes, add punctuation, check correct spelling of people and place names, check facts and figures, etc. AI subtitles are very useful as a first draft, but often also contain some silly mistakes a human transcriber would not have made.

An advantage of whisper.cpp is that it is particularly optimized for running on the CPU rather than the GPU (so it is especially useful if you have an AMD graphics card and therefore no CUDA). But CUDA and Metal (on a Mac) are also supported, therefore it can easily adapt to different hardware configurations. Another advantage is that it does not require installing any external dependencies, i.e. no Python or PyTorch, since it is written in C++, making it a much smaller download than a Python machine learning environment.

Some video editing and closed captioning GUI software now features built-in Whisper functionality: Open source examples include the video editor Kdenlive (since version 23.04; requires Python) and Subtitle Edit (either Python or C++ can be used to run Whisper models).

But running the command-line version of whisper.cpp directly to create an SRT file is not too difficult either, provided your operating system has a C compiler, make, etc. to compile it with:

First, use e.g. ffmpeg to extract a video's audio track and convert it to 16 kHz sample rate:

ffmpeg -i some_video.ogv -ar 16000 -ac 1 -c:a pcm_s16le audio.wav

Next, compile whisper.cpp and download a model (the base model optimized for English content is about 140 MB; "medium" can also handle other languages and is about 1.5 GB) and then start the conversion with e.g.:

./main -m models/ggml-base.en.bin -f audio.wav -t 8 -pc -osrt

This will use 8 CPU cores and create an SRT file called audio.wav.srt in the same directory. During recognition, words will be color-coded by confidence (green = very certain, red = very uncertain), so you can quickly see if the model is having trouble. If a smaller model delivers unusable output, you can try a larger model, e.g. medium, which will be slower but produce better results.

You can also translate from other languages, e.g. adding "-l fr -tr" to the options will translate French audio to English.

Convertir les sous-titres YouTube en format Timed Text

Sous-titres SBV

Si vous exportez au format SBV les sous-titres de YouTube, vous pouvez utiliser ffmpeg pour convertir le fichier des sous-titres dans le format SRT (de SubRip), celui utilisé par Commons. Cette fonctionnalités résoud par là même le problème commun de couverture lors de la conversion des sous-titres YouTube vers Commons.

ffmpeg -fix_sub_duration -i input.sbv output.srt

Sous-titres XML

Les diapositives de 10 à 12 décrivent la création des sous-titres dans YouTube Creator Studio, le téléchargement des sous-titres YouTube au format SRT, le téléversement des sous-titres résultants dans le format TimedText de Wikimedia Commons .

Cette section décrit comment convertir les sous-titres XML YouTube en format SubRip (srt) qui est celui des sous-titres TimedText utilisé dans Wikimedia Commons.

Si

  • la vidéo YouTube possède des sous-titres dans certaines langues (par exemple j'ai créé cette vidéo YouTube avec les sous-titres en anglais, en russe et en livvi),
  • cette vidéo a été téléversée sur Wikimedia Commons (par exemple ce fichier),
  • vous souhaitez copier les sous-titres de YouTube pour la même vidéo sur Commons.

Alors :

  1. Téléchargez les sous-titres en XML, placez l'ID de la vidéo YouTube à la fin de l'URL : http://video.google.com/timedtext?hl=en&lang=en&v=__youtube_video_ID__
  2. Installer Ruby.
  3. Téléchargez un programme Ruby pour convertir les sous-titres vidéo à partir du format XML de YouTube en format SubRip.
  4. Exécutez ce programme et convertissez le fichier XML en fichier .SRT .
  5. Copiez et collez le contenu du fichier .SRT dans la page correspondante de la vidéo sur Wikimedia Commons.

Indications générales

Noise, etc.

Gardez à l'esprit qu'il convient de paraphraser les sons autres que les paroles et de les mettre entre parenthèses. Par exemple

 1
 00:00:20,000 --> 00:00:24,400
 (bruit de moteur)

Music

Music should be surrounded by the ♪ character, Unicode U+9834, or Alt+266A. You can also use ♫ Unicode U+9835, or Alt+266B, e.g.

 1
 00:00:20,000 --> 00:00:24,400
 ♪ rock music playing in the jukebox ♪
 ♫ she's singing ♫

Balisage

Le seul format reconnu de balisage SRT est :

  • Gras – <b> ... </b>
  • Italique – <i> ... </i>
  • Souligné – <u> ... </u>

Le format wikicode n'est pas pris en charge.

Internationalisation

Après que les sous-titres ont été transcrits dans la langue d'origine de la vidéo dans un fichier de type Timed Text, ils peuvent être traduits dans les autres langues de la manière suivante :

  • Ouvrez le fichier Timed Text dans la langue d'origine, disons en anglais par exemple TimedText:Elephants Dream.ogv.en.srt, en mode édition et copiez entièrement la page.
  • Dans la barre d'adresse, remplacez "en" par le code de langue de votre choix, par exemple "fr", puis collez le texte original dans la nouvelle page.
  • Affichez la vidéo originale puis traduisez le texte dans votre langue.
  • Après avoir enregistré la nouvelle page, la vidéo avec les sous-titres doit se charger dans la page; vous pouvez l'afficher et vérifier le positionnement des sous-titres.
  • Ajouter un lien de catégorie à la page de discussion [[Category:Timed Text in Language Name|Language Name]]. Pour un exemple, voir TimedText talk:Elephants Dream.ogv.fr.srt.

Articles Wikipedia concernant le texte synchrone et les sous-titres

Ces articles concernent soit le Q844253: texte synchrone, soit le Q204028: sous-titrage.

Liens

Cette section doit être développée.

Comment associer closed captions aux fichiers multimedia ?

  • Redirigez pour éviter de dupliquer le contenu, par exemple TimedText:Elephants Dream (high quality).ogv.pt.srt redirige vers le TimedText:Elephants Dream.ogv.pt.srt existant. Cela permet au modèle de sous-titrage, d'afficher le nom de fichier correct des fichiers de sous-titres (ce qui peut être important pour les clips vidéo).
  • Le paramètre de {{Closed captions}} est une alternative
  • un support plus important est nécessaire pour la fonction de texte synchronisé.
  • Catégorisation : il n'est pas possible de catégoriser la page Timed Text elle-même, mais sa page de discussion peut l'être.

Un schéma possible de catégorisation est :

 [[:Category:File formats]] + [[:Category:Media types]]
                       |
               [[:Category:Timed Text]] + [[:Category:Legend in German]]
                                   | 
                           [[:Category:Timed Text in German]]
 
                                   + [[:Category:Legend in French]]
                                   | 
                           [[:Category:Timed Text in French]]
 
                                   + [[:Category:Legend in English]]
                                   | 
                           [[:Category:Timed Text in English]]

Catégories relatives : Category:Files with closed captioning

Voir aussi