Naar inhoud springen

Wikipedia:De kroeg/Archief/20200704

Uit Wikipedia, de vrije encyclopedie


Internet Archive Bot

[bewerken | brontekst bewerken]

Ik heb vandaag al vier bewerkingen van onze collega Internet Archive Bot ongedaan gemaakt: op John Forster, Kahtla en tweemaal op Kruittoren (Riga). In alle gevallen was een link die gewoon werkt vervangen door een gearchiveerde versie. Hebben anderen soortgelijke ervaringen met de bot? Sijtze Reurich (overleg) 14 jun 2020 20:26 (CEST)[reageren]

Ik in de afgelopen week ook al een paar, ook van websites die ik altijd wel kan bereiken. Die websites lopen zo ook reclameinkomsten mis. Ymnes (overleg) 14 jun 2020 21:50 (CEST)[reageren]
Zie Replacing "dead" links by "archived" links. -- Sb008 (overleg) 14 jun 2020 22:01 (CEST)[reageren]
Ik begrijp de redenering van onze Engelse collega dat een website tijdelijk onbereikbaar kan zijn en dat Internet Archive Bot de link dan na drie keer proberen gaat vervangen. Maar ik zag het nu vier keer kort achter elkaar gebeuren met vier totaal verschillende websites. Dat de bot van streek is lijkt me dan een veel plausibeler verklaring. Sijtze Reurich (overleg) 14 jun 2020 22:30 (CEST)[reageren]
Ik had geen zin meer in verdere discussie en denk er zo het mijne van. De statistische redenatie klopt in ieder geval voor geen meter. Persoonlijk vind ik de methode op FR-Wiki wel mooi. Er wordt automatisch een archive kopie op Wikiwix gemaakt van referenties. Bij de referentie lijst krijg je automatisch zowel de originele- als archive-link. -- Sb008 (overleg) 14 jun 2020 22:36 (CEST)[reageren]
Ik weet zo uit mijn hoofd niet meer of het bij elke referentie werkt of alleen bij de Franse varianten van Sjabloon:Citeer web, Sjabloon:Citeer nieuws enz waar een module achter schuil gaat. -- Sb008 (overleg) 14 jun 2020 22:46 (CEST)[reageren]
Ik ben het zeker met je eens dat de Franse oplossing heel mooi is, daarmee voorkomen we dat we iedere keer weer te maken krijgen met onjuiste links, met wel werkende links die niet meer de gebruikte informatie tonen, enz. Hoop dat we dat snel kunnen invoeren, maar weet niet direct waar dat te regelen. Met vriendelijke groet, RonnieV (overleg) 15 jun 2020 17:44 (CEST)[reageren]
Wat ik waarschijnlijker acht is dat de getroffen websites het IP-adres blokkeren dat de bot gebruik omdat het op een aantal blacklists staat. –bdijkstra (overleg) 14 jun 2020 22:59 (CEST)[reageren]
Is het een idee om te vragen om voorlopig even te vragen om niet meer automatisch websites te markeren als 'dood'? De archieflinks toevoegen blijft nuttig - het is het markeren als 'dead' wat het probleem is, begrijp ik? Effeietsanders 14 jun 2020 23:14 (CEST)[reageren]
Is een analoog probleem. Indien URL niet bereikbaar is wordt een archief-link gezocht, wanneer die niet gevonden wordt dan wordt de URL dead verklaard. Het begint altijd met een niet bereikbare link. -- Sb008 (overleg) 14 jun 2020 23:26 (CEST)[reageren]
Het probleem is dat links onterecht als niet bereikbaar worden bestempeld. -- Sb008 (overleg) 14 jun 2020 23:33 (CEST)[reageren]

De bot is nu echt compleet van slag. Vanochtend heb ik maar liefst negen bewerkingen van de bot ongedaan gemaakt. Acht links die gewoon werken waren vervangen door gearchiveerde versies, en één link die gewoon werkt was doodverklaard. Sijtze Reurich (overleg) 15 jun 2020 07:34 (CEST)[reageren]

Als de bot nu van streek is, dan een melding maken op de OP van de bot of de boteigenaar. Alleen terugdraaien helpt niet. Mbch331 (overleg) 15 jun 2020 12:21 (CEST)[reageren]
Die bot moet echt eerst gestopt worden totdat het probleem verholpen is. Hij archiveert zelfs de officiële website van het onderwerp (zoals hier) terwijl die gewoon werkt. Hij brengt nu echt schade toe. Ymnes (overleg) 15 jun 2020 17:32 (CEST)[reageren]
@Bdijkstra, Mbch331: kunnen jullie als betrokkenen bij deze discussie en moderator de bot eerst blokkeren totdat de operator het probleem heeft verholpen? Dat is namelijk de oplossing die op de gebruikerspagina van de bot wordt genoemd. De bot is echt op hol en het gros van wat gearchiveerd wordt, wordt onnodig gedaan. Hierdoor lopen websites hun reclame-inkomsten mis en zijn homepages van het onderwerp niet meer rechtstreeks te benaderen. Ymnes (overleg) 15 jun 2020 17:56 (CEST)[reageren]
De bot staat op het moment flink ter discussie (voor een wat betreft boeken), zie Stop InternetArchiveBot from linking books. In die discussie wordt ook het volgende beweerd: "Cyberpower678, who is operating the bot as a paid agent of the Internet Archive". indien dit waar is, bestaat er een belang om zoveel mogelijk links door archive-links te vervangen. -- Sb008 (overleg) 15 jun 2020 18:27 (CEST)[reageren]
Dat lijkt mij niet waar, omdat Archive.org volgens mij een non-profitorganisatie is die het van donaties moet hebben en niet van winst. Ymnes (overleg) 15 jun 2020 19:01 (CEST)[reageren]
Hij is betaald om deze bot te ontwikkelen, zie zijn GP op enwiki Mbch331 (overleg) 15 jun 2020 19:07 (CEST)[reageren]
Bot stopgezet middels de webinterface van de bot (zoals aangegeven op de GP van de bot) Mbch331 (overleg) 15 jun 2020 19:06 (CEST)[reageren]
Bedankt! Je zou trouwens zeggen dat wanneer de bot kan nakijken of een link nog actief is, dat de bot ook omgekeerd zou moeten kunnen werken. Oftewel dat de bot alle onnodig gearchiveerde links weer operationeel maakt. Ik weet het niet zeker of dit kan, maar dit zou de mooiste oplossing zijn om het ontstane probleem weer te corrigeren. Weet iemand dat? Ymnes (overleg) 15 jun 2020 19:13 (CEST)[reageren]
Ik betwijfel of de bot dat kan, gezien mijn vermoeden van 14 jun 2020 22:59. –bdijkstra (overleg) 15 jun 2020 19:37 (CEST)[reageren]
Ik heb melding gedaan van het stopzetten bij de bot-operator en gevraagd of mijn verklaring plausibel is. –bdijkstra (overleg) 15 jun 2020 19:56 (CEST)[reageren]
En waar zijn de overlegbijdragen die altijd gelijktijdig geplaatst werden? Wikiwerner (overleg) 15 jun 2020 19:17 (CEST)[reageren]
Die zijn er al een tijd niet meer. Ik ging ervan uit dat dat wel ergens besproken zou zijn. Ymnes (overleg) 15 jun 2020 19:20 (CEST)[reageren]
Dat is inderdaad uitgeschakeld, maar je kan in de IABot-interface niet zien door wie of waarom. –bdijkstra (overleg) 15 jun 2020 19:45 (CEST)[reageren]
Ha, nu vallen twee dingen op hun plaats. In de eerste plaats heb ik een mededeling gezien (of misschien was het wel een mailtje; ik ben donateur van het Internet Archive) dat het IA zo veel mogelijk boeken gaat redden van de vergetelheid door online kopieën te maken. Nu heb ik 45 jaar bij of voor uitgevers gewerkt, dus ik dacht meteen: En het copyright dan? Wel, die actie blijkt dus omstreden te zijn, precies om die reden. In de tweede plaats de mededeling die ik heel vaak kreeg als ik een website in het IA wilde opnemen: dat de archiefbot geen toegang kon krijgen tot de website. Nu weet ik dus waarom. Overigens gebruik ik de laatste tijd liever Archive.org om een archiefkopie van een website te maken. Archive.org is makkelijker te bedienen en krijgt bijna altijd toegang tot een website. Sijtze Reurich (overleg) 15 jun 2020 20:11 (CEST)[reageren]
@Sijtze Reurich: is archive.org en Internet Archive niet hetzelfde? Moeten we ons ook zorgen maken over de toekomstzekerheid van al die gearchiveerde links? (vanwege eventuele copyrightschending) Ymnes (overleg) 15 jun 2020 20:32 (CEST)[reageren]
Ik tikte Archive.org, maar ik bedoelde Archive.vn. Sorry. Ik denk niet dat je het risico loopt dat het IA alles moet verwijderen, maar wel de gearchiveerde boeken voor zover die inbreuk maken op auteursrechten die nog geldig zijn. Sijtze Reurich (overleg) 15 jun 2020 21:08 (CEST)[reageren]
Archive.is (dezelfde als .today en .vn) archiveert idd soms wel, was mij ook gebleken, en soms werden ze daarna weer vervangen door de bot in archive.org. Het zijn trouwens niet alleen boeken die archive.org archiveert, maar eigenlijk van alles, ook het Parool en Parbode e.d., ook allemaal copyright. Ymnes (overleg) 15 jun 2020 21:20 (CEST)[reageren]
Die stukjes zijn voor iedereen toegankelijk. Het enige dat die twee archiefsites doen is zorgen dat ze langer toegankelijk blijven. Daar maken maar weinig mensen bezwaar tegen, tenzij het aantal bezoekers van jouw website je verdienmodel is natuurlijk. Dat een tekst voor iedereen te lezen is, betekent nog niet dat je met de tekst kunt doen wat je wilt. Als je een artikel uit Het Parool wilt opnemen in een essaybundel, mag dat alleen met toestemming van de auteur van het artikel en meestal ook van de krant. Dat iedereen het al op het internet kan lezen, maakt daarbij niet uit. Ik heb me niet echt verdiept in de plannen van het Internet Archive met die boeken, maar ik heb begrepen dat het de bedoeling is om boeken die niet meer herdrukt worden te archiveren. Dat een boek niet meer herdrukt wordt, betekent niet dat het copyright eraf is. In zo'n geval zorgt in feite het IA, en niet de uitgever, ervoor dat de tekst openbaar toegankelijk wordt. Het IA gaat op de stoel van de uitgever zitten. Dat mag in elk geval niet. Maar misschien heb ik het idee verkeerd begrepen, hoor. Sijtze Reurich (overleg) 15 jun 2020 21:55 (CEST)[reageren]
Google en YouTube lijken ook overal mee weg te komen en Wikipedia werd door de EU zo'n beetje bewust binnenboord gehouden, bij de laatste copyrightwet. Ik heb geen idee of dit model overeind blijft. Ymnes (overleg) 15 jun 2020 22:08 (CEST)[reageren]

Ik zag ook wijzigingen die nergens op sloegen, een archieflink naar een site die niets maar dan ook niets te maken had met de originele link. En met die originele link was niks mis. Het is me trouwens opgevallen dat de bot ook niet overweg kan met het verschil tussen http en https. Mvg, Royalty & Nassau Expert (overleg) 16 jun 2020 18:37 (CEST)[reageren]

Is er trouwens progressie hierin? Ik zou die bot wel graag willen houden. Ymnes (overleg) 21 jun 2020 22:33 (CEST)[reageren]

about Wikiwix https://nl.wikipedia.org/wiki/Wikipedia:De_kroeg#Wikiwix_VS_IABOT Pmartin (overleg) 23 jun 2020 10:22 (CEST)[reageren]
De kroeg: Wikiwix VS IABOT (Even omgezet in interne link). Het klinkt in elk geval veelbelovend, het archiveren in eigen hand houden in plaats van afhankelijk te zijn van een externe partij die zich dubieus gedraagt. Discussie over Wikiwix onder het gelinkte kopje? — bertux 23 jun 2020 11:00 (CEST)[reageren]
Op de Engelse Wikipedia lijkt de bot nog zijn werk te doen. Lopen er ergens initiatieven om deze problemen op te lossen? Ymnes (overleg) 27 jun 2020 10:09 (CEST)[reageren]