Wikipédia:RAW2014-01-03
Infolettre francophone mensuelle no 117
|
Message de Cantons-de-l'Est,
Merci de votre intérêt pour cette infolettre. Je tiens également à remercier les gens qui nous ont laissé des félicitations et des remerciements. Ça rend notre périple plus agréable.
Tout au long de l'année 2014 et ensuite, je vous souhaite du bonheur, de la santé et du succès. En ce qui concerne le travail, Wikipédia, sans-gêne, nous fait continuellement signe.
Bonne lecture !
Brèves
[modifier le code]- Selon une étude, aucune Wikipédia linguistique ne contient tous les articles d'une autre Wikipédia. Par exemple, la Wikipédia en anglais (environ 4,4 millions d'articles), la plus importante par le nombre d'articles, comprend 51 % des articles de celle en allemand (environ 1,6 million d'articles). Il y a donc une couverture incomplète du savoir humain. Selon le chercheur, les contributeurs multilingues pourraient corriger cette carence puisque plusieurs rédigent sur les mêmes sujets dans plus d'une Wikipédia linguistique, et leurs contributions sont peu modifiées par les contributeurs monolingues. [5]
- Le Portail Mésopotamie a été créé le 27 décembre. Il est dédié à l'histoire de la Mésopotamie et aux croyances et pratiques religieuses des divers peuples qui y ont vécu. 43 articles lui sont liés.
- Une centaine de contributeurs de la Wikipédia en allemand interpellent la WMF pour qu'elle instaure des règles plus strictes en ce qui concerne les informations sur les contributeurs, mais la WMF ne juge pas qu'il faille resserrer les conditions d'accès [6]. Elle indique retenir le minimum d'informations sur les internautes qui reçoivent des pouvoirs supplémentaires (par exemple, bureaucrates et stewards). La durée de rétention des informations sur les consultations est de 90 jours, ce qui est de faible utilité aux institutions gouvernementales. Pour les contributeurs enregistrés, les échanges sont sécurisés grâce à HTTPS. Cependant, le moteur de Wikipédia maintient les historiques de contributions des bénévoles (voir par exemple les contributions de Cantons-de-l'Est), informations que tout internaute peut utiliser pour déduire par exemple le fuseau horaire dans lequel se trouve un bénévole. La WMF avance que la libre consultation des historiques est essentielle pour plusieurs raisons :
- Lutte au vandalisme. Plusieurs bots patrouillent les pages de la Wikipédia pour éliminer les nombreux contenus inappropriés qui apparaissent sur une base régulière. Sans ces historiques, leur efficacité serait sévèrement réduite (il est plutôt commun qu'un internaute fasse plusieurs vandalismes sous le même pseudonyme ou à partir de la même adresse IP) et les humains sont à toutes fins pratiques dépassés pour une telle tâche de maintenance.
- Vie communautaire. Pour s'assurer que des contributeurs ne sont pas bloqués de façon arbitraire, la communauté doit pouvoir consulter leur historique de contributions. Plusieurs votes exigent un minimum de contributions pour être recevables. Le nombre, la qualité et la pertinence des contributions influent sur l'élection d'administrateurs.
- Maintenance. Des humains participent aussi à la maintenance grâce à des outils qui ont recours aux listes de contributions pour exécuter leurs tâches.
- Recherche. Des chercheurs du monde entier étudient la communauté wikimédienne. Interdire l'accès à cette information serait un sérieux frein à leurs travaux.
- Réutilisation des contenus. Le mouvement autorise la réutilisation des contenus à la condition que la paternité soit reconnue (CC BY-SA 3.0). Les historiques de contributions servent ce but.
- L'Individual Engagement Grants (IEG) de la WMF subventionne des projets prometteurs qui demandent un effort de longue durée (tel que mentionné dans RAW 2013-09-13). « Le projet remet des fonds à des individus ou des équipes de quatre membres au plus qui créent des résultats de grande valeur pour les projets en ligne de la WMF. L'IEG préfère des approches innovantes qui résolvent des problèmes critiques pour le mouvement[trad 1]. » Le comité d'évaluation de l'IEG a reçu favorablement sept projets de citoyens de huit pays : Cameroun, Inde, Israël, France...[7] :
- Emilie Temple-Wood veut inciter les femmes de niveau post-secondaire (17-20 ans) à contribuer dans le but de combattre le biais systématique de la Wikipédia en anglais (conséquence de la forte proportion de WASP).
- Selon cette contributrice, un nombre élevé de personnes ayant moins de 18 ans rédigent la Wikipédia en anglais. C'est pourquoi elle organise en collaboration avec un autre wikipédien un congrès de formation/éducation/sensibilisation visant particulièrement cette « clientèle ».
- Un Ougandais et un Suédois ont lancé une Wikipédia en luganda. Ils installeront une salle de rédaction à Mbazzi, un village de l'Ouganda, où seront rédigés des articles sur la santé et l'agriculture.
- WikiAfrica et Afripédia unissent leurs forces au Cameroun pour développer de nouveaux outils de communication qui faciliteront les communications internationales.
- Wikimap Atlas ambitionne à rien de moins que de créer les outils qui, à leur tour, créeront de façon automatique des cartes du monde au format SVG en ayant recours aux plus récentes données géographiques. Les cartes ainsi produites remplaceront avantageusement les cartes actuelles au style déficient, qui manquent de précision et aux formats variés.
- Dans le but d'améliorer l'expérience avec l'ÉditeurVisuel, deux contributeurs se proposent de créer un entrepôt central de gadgets (des compléments qui se greffent à l'ÉditeurViseul pour le rendre plus convivial, plus puissant).
- Wikidata cumule une quantité inimaginable de données. Wikidata Toolkit vise à créer un ensemble d'outils pour faciliter l'extraction et l'analyse de ces données.
Labels de la semaine
[modifier le code]Constamment, la qualité de Wikipédia en français augmente grâce aux efforts de bénévoles passionnés. Il n'y a pas eu cette semaine d'article de qualité, mais heureusement deux bons articles ont enrichi notre wiki. Nous sommes heureux de vous les présenter ici.
Le projet compte désormais 1 259 articles de qualité (AdQ) et 1 975 bons articles (BA).
- Lagash est une ancienne ville du pays de Sumer, en Basse-Mésopotamie, située actuellementà Al-Hiba, en Irak. Lagash est également le nom d'un royaume comprenant, en plus de la ville éponyme, Girsu (le site actuel de Tello), ville sainte. Les découvertes archéologiques sur ces deux sites, recouvrant environ cinq siècles, de 2500 à 2000 avant J.-C., concernent aussi bien le domaine de l'art que les conceptions religieuses et politiques sumériennes et l'économie ou la société, documentée par plus de 30 000 tablettes administratives retrouvées à Tello. Contenu reconnu bon le 29 décembre 2013
- Elmer Lach (1918-) est un joueur professionnel canadien de hockey sur glace. Il joue toute sa carrière professionnelle avec les Canadiens de Montréal dans la Ligue nationale de hockey et remporte avec eux la Coupe Stanley à trois reprises en 1944, 1946 et 1953. Il est intronisé au Temple de la renommée du hockey en 1966. Contenu reconnu bon le 29 décembre 2013
Recherche et éducation
[modifier le code]- Dans sa thèse doctorale, un chercheur américain se penche sur Wiktionary. Selon son analyse, Wiktionary ne peut remplacer les dictionnaires rédigés par des experts à cause de ses incohérences, de ses faiblesses qualitatives, de son approche tout-en-un et de sa dépendance aux ouvrages construits par les experts. Cependant, sa croissance continue et rapide, son grand nombre de langues, sa couverture des néologismes et des jargons, tout comme l'acceptation des variétés langagières non standards, en feraient un terrain fertile dans les domaines de la lexicographie et du traitement automatique du langage naturel. Wiktionary serait également un complément précieux aux bases de données lexicales (par exemple, WordNet) et aux thésaurus lexicographiques. [8]
- Deux chercheurs français ont publié un article où ils explorent la « gouvernance du collectif Wikipedia : un régime de consensus, où la multi-régulation associe vigilance mutuelle, régulation des conflits et sanctions graduées ». Ils recourent aux outils conçus par Elinor Ostrom, une économiste et politologue américaine qui a reçu un « prix Nobel d'économie » pour ses travaux sur les petites communautés (entre 50 et 15 000 personnes) dont les membres sont citoyens d'un même pays. Wikipédia serait une structure où il n'y a pas de surveillant attitré, ce « poste » revenant à chaque contributeur, ce qui dissout/diffuse le pouvoir dans l'ensemble de la communauté. « Pour la plus grande part Wikipedia conserve [...] le consensus comme principe qui a fait son succès : un consensus passif s'il n'y a pas de débat, ou éventuellement un consensus actif en utilisant les pages de discussion liées à chaque article. » Selon ces deux auteurs, Wikipédia est un collectif qui n'est ni communauté, ni société, ni réseau, ni projet. Il s'agirait plutôt d'un méta-projet perpétuellement en construction/destruction. Puisqu'il ne peut se réaliser sur un horizon suffisamment court, les anciens quittent, ce qui préviendrait la création d'une oligarchie. (fr)[9]
- Selon une recherche menée en juillet et août 2013 sur les 46 plus grandes Wikipédias, les contributeurs multilingues sont les plus productifs, du double en moyenne, contribuant sur les mêmes sujets dans plusieurs langues. [10]
- L'ouvrage Confidentiality and Integrity in Crowdsourcing Systems (Springer, novembre 2013, 84 p. (ISBN 978-3319027166)) consacre un chapitre à la Wikipédia en anglais. Les auteurs ont commencé par vérifier la réactivité de la communauté face à des vandalismes. Les plus évidents ont tous été révoqués par des bots, alors que pour les autres, c'est variable. Ils ont ensuite porté leur attention sur 100 good ou featured articles (équivalents de nos bons articles et de nos articles de qualité) et 100 articles de faible qualité. Après étude de l'évolution des 200 articles entre 2001 et 2011, ils ont déterminé que la taille de l'historique des premiers est d'un ordre de grandeur supérieure aux seconds. Les bénévoles qui se concentrent sur les premiers ont maintenu un flot constant de contributions sur toute la période étudiée. La plupart des contributeurs qui ont modifié les seconds l'ont seulement fait une fois. Par ailleurs, avec les années, les contributeurs les plus actifs ont en quelque sorte pris le contrôle du premier groupe d'articles, ce qui va à l'encontre de en:WP:OWN, une politique qui interdit l'appropriation d'un article peu importe les compétences et l'expérience. Ces contributeurs, qui se ressemblent beaucoup plus que les contributeurs du second groupe d'articles, ont créé un ensemble d'articles de très bonne qualité. Les auteurs suggèrent d'établir des mécanismes pour favoriser l'émergence et la rétention de tels contributeurs. [11] <commentaire de Cantons-de-l'Est : Ayant participé à la rédaction et l'évaluation de plusieurs BA et AdQ, je peux affirmer que les créateurs de BA et d'AdQ sont en général industrieux, motivés et, souvent, sensibles aux critiques fondées (ils se ressemblent donc). Une fois qu'un article reçoit un label, son contenu est perçu comme achevé. Bonification égale souvent refonte, donc travail énorme. Il faut une personne experte pour procéder à un tel changement ; il y a déjà tellement à faire pour amener la masse restante à un niveau acceptable qu'elle préférera, si je ne m'abuse, concentrer ses efforts sur un autre article. Il est donc normal qu'un article labellisé change très peu sur une longue période.>
Dans les coulisses de la Wikimedia
[modifier le code]- Depuis quelques mois, la WMF annonce des erreurs dans les compteurs de consultations. Ce serait corrigé [12] :
- « 5 décembre 2013 : Correction aujourd'hui de surévaluations majeures des mois récents.
Un changement vers le 23 août a mené à voir les messages de maintenance interne comme des consultations de pages, ce qui a gonflé le nombre mensuel de consultations de plusieurs milliards. Nous avons identifié les [systèmes logiciels] et soustrayons leurs compteurs de requêtes des totaux. Donc, les statistiques sont complètement rectifiées[trad 2]. » - « Avertissement : les compteurs de pages consultées de nov. 2009 à mars 2010 sont de 10 % à 20 % trop petits à cause d'une surcharge des serveurs.
Les compteurs de pages consultées pendant les deux dernières semaines de déc. 2012 et la première de jan. 2013 sont faux (beaucoup de trafic trompeur). Les données de ces semaines sont omises et les estimations mensuelles sont extrapolées à partir de données quotidiennes intactes[trad 3]. »
- « 5 décembre 2013 : Correction aujourd'hui de surévaluations majeures des mois récents.
- La WMF fait une mise en garde sur les compteurs de consultations [13] :
- « Avertissement : Ces compteurs comprennent les requêtes de bots/crawlers.
À ce moment-ci, il serait plus exact de parler de « pages demandées » que de « pages consultées ».
Il y a des projets pour filtrer ces requêtes, mais les solutions ne doivent pas surcharger nos serveurs.
Globalement, environ 15 % des pages transmises de tous les wikis de la Wikimedia le sont à la demande de bots. Sur les wikis moins consultés, la proportion des requêtes émanant de bots est plus élevée[trad 4]. »
- « Avertissement : Ces compteurs comprennent les requêtes de bots/crawlers.
- Le Board of Trustees (BoT) de la WMF a officiellement accepté un nouveau guide de gouvernance (Wikimedia Foundation Board Handbook). C'est le fruit d'un travail de plusieurs mois où le BoT et le département légal de la WMF ont collaboré. Il est rédigé en tenant compte des lois de la Floride (où la WMF est officiellement enregistrée comme organisme de charité) et des États-Unis. Il présente les valeurs, les politiques et les rôles de la WMF à l'intérieur du mouvement. [14]
- L'outil Gallery liste les fichiers téléversés par un contributeur dans un wiki, chaque illustration étant accompagnée d'une foule d'informations (licences, balises, catégories, etc.). Par exemple, Letartean sur Wikimedia Commons.
- CirrusSearch serait disponible comme second moteur de recherche des wikis en espagnol, français, portugais et russe depuis le 30 décembre. (fr)[15] <commentaire de Cantons-de-l'Est : Au 1er janvier, il est disponible dans Wikisource, Wiktionary et d'autres wikis en français, mais pas Wikipédia.> Ce module, dérivé d'ElasticSearch, remplace le moteur de recherche traditionnel après acti vation. Ensuite, faites une recherche de source et wiki. Il reconnaît plusieurs filtres familiers aux habitués de Google (
Wik*
;title:Jeux olympiques
;-title:hiver
;incategory:Sociologue
;-incategory:Sociologue allemand
). Pour en savoir plus, lisez CirrusSearchFeatures.
- La dernière mouture de l'ÉditeurVisuel autorise la modification d'une page depuis un mobile (fonction expérimentale) : essayez avec Foobar (cliquez sur le crayon). (fr)[16]
- Comme mentionné voici trois semaines, la British Library (BL) a versé 1 million d'illustrations dans Flickr sous une licence libérale. La communauté de Wikimedia Commons souhaite faciliter leur recherche en les étiquetant (par exemple, oiseau, Inde et XVIIe siècle). Elle demande l'aide de tout contributeur, peu importe l'effort fourni (toutefois, en respectant les recommandations du projet pour assurer une uniformité). Ces illustrations proviennent de 50 000 ouvrages dans le domaine public. Si un index des illustrations est proprement construit, il sera possible en quelque sorte de reconstruire ces ouvrages. [17] et [18]
- Notifications
- [NdE : C'est peut-être évident pour vous, peut-être pas.] Il envoie des messages à tous les contributeurs mentionnés dans un message signé (déposé dans une page de discussion). Dans ce message, Trizek s'adresse à plusieurs contributeurs, qui reçoivent chacun une notification.
- Ce système autorise une gestion plus centralisée des messages : quelqu'un peut laisser un message sur votre page de discussion utilisateur et vous pouvez répondre sur celle-ci, car il recevra une notification :
Bonjour, Vous avez... Au revoir, -- user:Sherbrooke
- @ Sherbrooke : J'ai cru que ... Désolé, -- user:Estrie
- @ Estrie : Message bien reçu. -- user:Sherbrooke
- Effort différent, mais échange sur une seule page, ce qui réduit la dispersion des messages et facilite donc les recherches. Cette façon de faire est utile pour deux raisons :
- Si vous contribuez à plusieurs wikis, vos interlocuteurs n'ont pas besoin de suivre votre page de discussion dans chacun. Par exemple, si verdy p avait inscrit le pseudonyme dans ce message sur Meta-Wiki, Cantons-de-l'Est aurait reçu une notification par courriel (préférence par défaut pour tous les wikis).
- Puisque le système maintient la liste de toutes les notifications que vous avez reçues, il est facile de la parcourir pour retrouver le message d'untel.
Mots de passe
[modifier le code]Mots de passe | |
|
Nous continuons cette série sur les mots de passe qui vise à prévenir l'usurpation de compte. Aujourd'hui, on parle d'attaques informatiques et de gestionnaire de mots de passe.
Dans le Web, les bots sont responsables de plus de 60 % du trafic [19]. Wikipédia n'est pas épargnée par cette « horde » qui comporte à la fois des « gentils » et des « méchants », certains servant les desseins des spécialistes de la sécurité informatique.
Si un bot exécute l'attaque par force brute, il essaie toutes les combinaisons de lettres et de chiffres. Si le mot de passe comporte 6 caractères et moins, elle peut réussir dans un temps « raisonnable ». Supposons qu'un site Web n'autorise que des lettres et des chiffres dans un mot de passe (j'ai déjà observé cette limitation sur l'un des sites les plus courus de la planète). Chaque caractère peut donc être représenté par 26 + 26 + 10 = 62 symboles. En supposant qu'un internaute utilise un mot de passe de six caractères, il y a donc 626 = 56 800 235 584 combinaisons possibles. Sous l'hypothèse d'un mot de passe testé à la microseconde, cela prendra au plus 16 heures d'essais. Si le mot de passe s'allongeait d'un 7e caractère, le temps de recherche serait multiplié par 62, ce qui exigerait du bot un travail d'environ 40 jours au plus. MediaWiki reconnaît que nous sommes inégaux devant la sécurité informatique, il rajoute une mesure qui, au minimum, décuple le temps de recherche : CAPTCHA.
Wikipédia est suffisamment protégée contre l'attaque par dictionnaire. Il s'agit d'essayer tous les mots d'un dictionnaire jusqu'à l'obtention du succès, ce qu'un bot peut facilement accomplir. Dans la pratique, ce dictionnaire comprend les mots de passe les plus courants (par exemple, « 123456 », « abc », « Wikipédia » et « Supercalifragilisticexpialidocious »[note 1]) suivi des mots d'une langue (« abécédaire », « bonjour », « clarinette »...). Il peut donc comprendre des centaines de milliers de termes, mais les bots sont patients. Pour contrer cette attaque, MediaWiki utilise CAPTCHA. Les bots doivent donc écrire une deuxième information : la transcription d'un texte déformé/barré qui apparaît dans une image. Voici deux ans, RAW a rapporté que les attaques contre les CAPTCHA de la Wikipédia ont réussi 25 % du temps. J'ignore où en sont les travaux sur son amélioration, mais si ma lecture est correcte (voir [20] et [21]), la WMF n'a pas significativement modifié le système depuis deux ans, probablement parce que le spam (d'utilisateurs anonymes ou récemment enregistrés) est la plaie principale de Wikipédia.
Une autre attaque fait appel à l'enregistreur de frappe, logiciel installé à votre insu. La meilleure défense contre ce type d'attaque est d'utiliser un bon pare-feu. Sous Windows, je recommande « Pare-feu ZoneAlarm élémentaire » (plus convivial) ou « Comodo Free Firewall » (plus précis, mais moins convivial). Je n'ai pas d'opinion sur les autres pare-feu.
L'ingénierie sociale, dont Kevin Mitnick est emblématique, est une « forme d'acquisition déloyale d'information et d'escroquerie, utilisée en informatique pour obtenir d'autrui, un bien, un service ou des informations clefs. » L'« attaquant abuse de la confiance, de l'ignorance ou de la crédulité des personnes possédant ce qu'il tente d'obtenir. » Il n'y a aucune défense logicielle contre cette attaque, puisque l'humain est la cible.
D'autres attaques existent, mais sont propres à des systèmes d'exploitation (Rainbow table), sont dignes des romans d'espionnage, sont matérielles (TEMPEST) ou bien les solutions se trouvent du côté de la WMF (par exemple, protection des mots de passe stockés sur les serveurs Web). C'est un domaine ô combien vaste ! dont je ne parlerai pas.
En ce qui concerne vos mots de passe, vous devriez adopter une « hygiène » de sécurité gagnante. Comme toute habitude à prendre, il vous faudra du temps et des efforts. Si vous n'êtes pas tenté, personne ne peut vous obliger. Cependant, le Web ne veut que votre bien. Et il l'aura.
Lorsque des gens discutent de mot de passe, ils sont amenés à proposer des recommandations, dont :
- Ne révelez jamais votre mot de passe à qui que ce soit, même à une carpe. C'est l'application de la théorie des réseaux infiltrés. Elle avance qu'il y a toujours quelqu'un du réseau en position de révéler des secrets compromettants. Alors, moins les membres du réseau en savent, moins ils peuvent en révéler. Même une carpe peut dévoiler des informations qui « parleront » à tout observateur compétent.
- Si vous craignez de perdre votre mot de passe, écrivez-le sur une feuille de papier que vous rangerez dans votre portefeuille [22].
- N'utilisez jamais le même mot de passe d'un site Web à l'autre. Les études comportementales montrent que la ré-utilisation par les utilisateurs du même mot de passe pour différents sites ou systèmes est endémique[1], c'est pourquoi un attaquant qui compromet les mots de passe d'un système donné est souvent en capacité d'en déduire les mots de passe pour d'autres sites.
- Un mot de passe ne doit pas contenir d'informations qui sont propres à votre personne (par exemple, date de naissance, adresse, numéro de téléphone).
Ces recommandations, quelques unes parmi d'autres, sont au premier abord raisonnables. Leur application se heurte cependant à la dure, très dure, horriblement dure réalité : aucun humain normalement constitué ne peut appliquer parfaitement toutes ces recommandations. N'ayez crainte, il existe des gestionnaires de mots de passe qui vous épargnent les efforts de mémorisation et créent un environnement qui respectent tous les critères de sécurité nécessaire pour survivre dans le World Wild Web.
Dans une prochaine parution de RAW, je présenterai sommairement ces logiciels.
- user:Xavier Combelle Merci pour la correction et le lien sur le salage. — Cantons-de-l'Est discuter 4 janvier 2014 à 15:00 (CET)
|
- (en) « The scheme awards funds to individuals or teams of up to four people to produce high-impact outcomes for the WMF's online projects. The IEG scheme favours innovative approaches to solving critical issues in the movement. »
- (en) « Dec 5, 2013: Major overreporting in recent months has been fixed today.
A software change around Aug 2013 caused internal housekeeping messages to be counted as page views, leading to a monthly growing overcount of up to billions of views per month. We have determined specific urls which caused this and substracted their request counts from the totals.So stats are completely fixed now. » - (en) « Warning: page view counts from Nov 2009 till March 2010 are 10% to 20% too low due to server overload.
Page view counts for last two weeks of Dec 2012 and first week of Jan 2013 were broken (much bogus traffic). Data for these weeks have been omitted and monthly figures have been extrapolated from data for unaffected days. » - (en) « Warning: These counts include bot/crawler requests.
Actually 'page requests' for now would be more a accurate report title than 'page views'.
Filtering these bot requests is planned, but awaits a solution that doesn't overload our servers.
Overall about 15% of pages served on all Wikimedia wikis combined are due to bots requests. On less popular wikis the share of bot requests will be higher. » - (en) « Wikipedia aims to provide free online access to all human knowledge. And a cursory look at its vital statistics appear to indicate that it’s well on its way to achieving that. »
- John Fontana, Password's rotten core not complexity but reuse, Zdnet.com, 22 mars 2013, consulté le 24 octobre 2013
- (en) MTR, « Wikipedia's Secret Multilingual Workforce », MIT Technology Review, (lire en ligne, consulté le )