Hoppa till innehållet

Wikisource:Mötesplatsen

Nytt ämne
Från Wikisource, det fria biblioteket.
Senaste kommentaren: för 13 dagar sedan av LA2 i ämnet Status för OCR för svensk fraktur

Välkommen till Mötesplatsen

[redigera]
Välkommen

Mötesplatsen är det allmänna diskussionsforumet om svenska Wikisource.

Skriv ett nytt meddelande under en ny rubrik

Mötesplatsen är rätt plats för att ansöka om att använda en bot på projektet. Observera att kortare botkörningar, såsom interwiki, ofta kan göras utan botflagga.

För användarnamnsbyten gå till Metas sida för globala användarnamnsbyten.

To request to run a bot on Swedish Wikisource, start a thread on this page and describe your bot and what kind of job you would like to do. Note, that minor bot-jobs, such as iw-linking often can be done without botflag.

To request change of username/SUL, please go to the request page for a global rename.

Gamla diskussioner

[redigera]

Arkiverade årgångar av Wikisource:Mötesplatsen: 20072008200920102011201220132014201520162017201820192020202120222023

Diskussioner

[redigera]

Transkribus handskriftsigenkänning är nu integrerat i OCR-finessen

[redigera]

En nyhet som kom under sommaren som jag hade missat var att Transkribus nu har integrerats i OCR-finessen. Transkribus är ett system för automatiskt transkribera handskrifter och fungerar även på till exempel frakturstil. Jag har lagt upp ett index för en handskrift som jag tänkte testa på. Stockholms stadsarkiv har utvecklat en modell för 1700-talsskrift som finns tillgänglig genom finessen. Tyvärr får jag inte just den svenska modellen att fungera. Om någon annan testar får ni gärna meddela hur det går. Jag lade upp en ticket på Phabricator också. Belteshassar (diskussion) 16 augusti 2023 kl. 11.06 (CEST)Svara

Efter att ha testat den tyska modellen på några sidor kan jag konstatera att det ger ett resultat som är bättre än att börja med ett blankt textfält, men jag är övertygad att modellen för svenska skulle ge betydligt bättre resultat. Belteshassar (diskussion) 16 augusti 2023 kl. 14.48 (CEST)Svara
Uppdatering om den svenska modellen är att den version som fanns inlagd i verktyget har bytts ut till en nyare som jag nu på uppmaning har skickat in en begäran om att få tillagd. Förhoppningsvis blir den snart tillgänglig. Belteshassar (diskussion) 16 augusti 2023 kl. 16.02 (CEST)Svara
Nu fungerar detta för den den specifikt svenska modellen, men observera att man ännu måste välja "Avancerade alternativ" och därefter manuellt välja modellen som heter "swe-3 - Stockholm Notaries 1700 3.0". När transkriberingen är klar får man själv kopiera texten tillbaka till Wikisource. Belteshassar (diskussion) 19 september 2023 kl. 13.03 (CEST)Svara
Nu finns det en ny HTR-modell för svensk handskrift daterad ca 1650-1900 i Transkribus och även i Wikimedias OCR-finess. Den är framtagen av svenska Riksarkivet i samarbete och med träningsdata från finska riksarkivet, Stockholms stadsarkiv och Fornskriftssällskapet i Jämtland. Modellen heter swe-lion-I - The Swedish Lion I. DivadH (diskussion) 8 januari 2024 kl. 13.55 (CET)Svara
Toppen! Antar att du varit inblandad på ett hörn så tack för det. Belteshassar (diskussion) 8 januari 2024 kl. 14.55 (CET)Svara
Det stämmer, det är mitt team som utvecklat modellen. Vi hoppas den kommer även Wikisourcegemenskapen till nytta och användning! DivadH (diskussion) 9 januari 2024 kl. 10.14 (CET)Svara

Uppslagsverk

[redigera]

För 20 år sedan scannade jag "ugglan", Nordisk familjebok i Projekt Runeberg. Man kan säga att jag uppfann metoden medan jag scannade. Det var ont om förebilder för hur äldre uppslagsverk borde återges på webben. Några år senare började Wikisource införa faksimilbilder och korrekturläsning av OCR-text mot dem, med Projekt Runeberg som direkt förebild. Det allra första sådana verk var ett litet tyskt uppslagsverk, de:Meyers Blitz-Lexikon som jag scannade hösten 2005, och som fortfarande finns kvar i tyska Wikisource. Sedan har jag fortsatt att scanna olika uppslagsverk i Projekt Runeberg enligt samma metod. Men 20 år har gått. Hur borde man göra i dag? Vad är bästa sättet att återge ett äldre uppslagsverk på webben? Vilka förebilder finns idag? -- LA2 (diskussion) 1 november 2023 kl. 10.17 (CET)Svara

Tycker du borde jobba här på Wikisource istället. Och överväga att föra över så mycket som det är juridiskt möjligt hit från Runeberg. Det finns ingen fördel med att ha två projekt på svenska med samma målsättning. Det kommer ju komma en dag när Runeberg blir för jobbigt för dig att underhålla liksom. Peter Isotalo 17 november 2023 kl. 21.06 (CET)Svara
Det finns delar av Projekt Runeberg som kunde läggas över i Wikisource. Fast just uppslagsverken är ju en upphovsrättsmässig gråzon. Jag får väl knappast ladda upp Ugglan till Wikimedia Commons, och troligen inte alls NF:s 4:e upplaga från 1950-talet eller SMOK. --LA2 (diskussion) 26 januari 2024 kl. 22.11 (CET)Svara
Här är ett, kanske inte direkt användbart men spännande, exempel: Ugglopedin.se. Slager (diskussion) 6 mars 2024 kl. 14.49 (CET)Svara
Sedan detta skrevs har jag börjat digitalisera Svensk Uppslagsbok och i brist på bättre jag följer samma gamla metod som för 4:e upplagan av Nordisk familjebok. --LA2 (diskussion) 13 mars 2024 kl. 12.19 (CET)Svara
Ett annat sätt att arbeta med inscannade uppslagsverk och faktaböcker är att länka in dem till Wikidata-objekt med egenskapen d:Property:P1343 (described by source). Jag har försökt detta på några få objekt. Kanske är det också aktuellt för Wikisource, åtminstone för referensverk av typen Östgötars minne för en känd person som P.D.A. Atterbom. Han nämns i Östgötars minne/1805 eftersom han var östgöte och år 1805 skrevs in vid Uppsala universitet. Detta lade jag nu in som länk i objektet d:Q444538 (Per Daniel Amadeus Atterbom). Oklart om jag gjorde rätt, men detta kan vara ett sätt att ta vara på inscannade referensverk och underlätta deras användning som källor i Wikipedia. --LA2 (diskussion) 24 april 2024 kl. 14.20 (CEST)Svara

Fraktur

[redigera]

Försöker införa mallen från engelska Wikisource. Jag har kopierat koden från en:Template:Blackletter light, men det fungerar inte. Jag antar att ett typsnitt måste läggas in på Wikin. Vet någon admin hur man gör detta? Mårtensås (diskussion) 15 november 2023 kl. 13.50 (CET)Svara

När skulle det vara relevant att nånsin använda den? Den kan väl bara försvåra för läsare att tvinga fram ett specifikt typsnitt? Peter Isotalo 17 november 2023 kl. 21.02 (CET)Svara
Undantagsvis skulle det kunna vara motiverat. Jag tänker på om texten handlar om frakturstilen och anför exempel. I övrigt skulle håller jag med Peter Isotalo. --Gottfried Multe (diskussion) 18 november 2023 kl. 09.28 (CET)Svara
Två exempel: Sida:Samlaren_årgång_23_(1902).djvu/127, Sida:Sveriges_Gamla_Lagar_XIII_(1877).pdf/26 Mårtensås (diskussion) 19 november 2023 kl. 15.03 (CET)Svara
Aha. Jag jobbar ju nästan enbart med fraktur själv här så jag är ju mån att inte reproducera den i annat än modern begriplig antikva. Hade inte tänkt på det här med texter där återgivning av typografin är ett syfte i sig.
Men skulle du inte kunna lägga till en instruktion om att inte använda mallen att den är till för just typografi, inte innehåll? Så råkar inte nån använda den i tron att fraktur behöver återges för verk där den helt enkelt råkade vara rådande standard. Peter Isotalo 19 november 2023 kl. 20.22 (CET)Svara
Ett snarlikt fall jag stötte på i Jernkontorets annaler som jag har funderat på att korr-läsa nån volym ur. Här är det en fullmakt från 1548 som har återgivits i frakturstil. Känns definitivt försvårande för den moderne läsaren att återge nästan en hel sida med frakturstil, men vad göra då? Ska man vända på den vanliga konventionen och använda fast teckenbredd för frakturstilen i detta fall? Eller kursivera? Eller bara göra en fotnot som beskriver att fullmakten i förlagan är tryckt i frakturstil? Belteshassar (diskussion) 9 januari 2024 kl. 09.31 (CET)Svara

Transkludera från två index till samma sida utan styckebrytning

[redigera]

I Om mantalspenningarne har jag använta mig av två index eftersom originalet är delat i två delar med olika respondenter angivna på respektive titelsida. Texten löper dock sömlöst mellan de två delarna med samma paginering och utan styckebrytning. När jag transkluderar lyckas jag dock inte undvika en styckebrytning där sidan 33 börjar. Finns det något knep för att binda samman stycket? Belteshassar (diskussion) 4 januari 2024 kl. 22.30 (CET)Svara

Känner inte till något bra knep men du kan ersätta pages-taggen med den gamla metoden {{Sida}}. Du kan använda pages-taggen för titelsidorna men övergången till Sida-mallarna måste vara på en sidbrytning med en naturlig styckebrytning i skarven annars flyttar du bara på problemet. Thurs (diskussion) 4 januari 2024 kl. 23.32 (CET)Svara
Tack! Med lite pill så fick jag till det. Belteshassar (diskussion) 5 januari 2024 kl. 16.18 (CET)Svara

Kalliope.org

[redigera]

Jag vill uppmärksamma er på en dansk webbsajt Kalliope.org som presenterar dansk och nordisk poesi. På senare tid har även några svenska diktare lagts in. Se t.ex. vad som görs av Carl Michael Bellman, där man under olika flikar kan hitta hans verk (ännu är bara Fredmans epistlar inlagd), hans biografi, men också alla dikter (oavsett vilken diktsamling de hör till) och dikternas inledningsrader (som ibland skiljer sig från titeln). Ett sådant register över dikter kunde ju Wikisource bli, om man bara anstränger sig att omarbeta författarsidorna lite. Man kunde göra det som en wikitable-sortable med kolumner för diktsamling, dikt och inledningsrad, som sedan kan sorteras på valfri kolumn. LA2 (diskussion) 26 januari 2024 kl. 22.08 (CET)Svara

Rödlänk blir inte blå, fast jag skapat sidan.

[redigera]

Jag finner ingen frågesida, så jag skriver här. Problemet är som följer.

Jag gick till sidan Hat och kärlek. Där klickade jag på rödlänken III. Livet och ljuset. Jag skapade sidan III. Livet och ljuset.

Men på sidan Hat och kärlek är titeln III. Livet och ljuset fortfarande röd.

Vad är fel? Tack på förhand. Jan Arvid Götesson (diskussion) 28 januari 2024 kl. 06.34 (CET)Svara

Det kanske bara är cache-problem? Töm cachen genom att klicka här: [1]. Thuresson (diskussion) 28 januari 2024 kl. 06.46 (CET)Svara
Rätt råd från dig. Tack. Jan Arvid Götesson (diskussion) 28 januari 2024 kl. 06.51 (CET)Svara

LiquidThreads deprecation

[redigera]

Hello everyone

Sorry to use English. I hope this is fine. Hjälp till att översätta till ditt språk. Tack.

As you might already know, the Wikimedia Foundation works on changes to how IP editing is handled: IP Editing: Privacy Enhancement and Abuse Mitigation. Temporary accounts for unregistered editors will be a new type of user account. This requires changing how all the features we use to contribute to the wikis' work. This impacts LiquidThreads (LQT), used at your wiki (like on this archived page).

LiquidThreads is a talk pages feature that is not developed since 2014. Only 5 wikis use this extension. As a consequence, we take the opportunity of the work on temporary accounts to remove LQT from the wikis.

Discussion tools are the replacement for LQT. They are the default discussion system at all wikis. They allow anyone to start, reply or subscribe to a conversation. They provide a visual experience on wikitext-based conversations, and they offer more features than what LiquidThreads.

The goal with this conversation is to respond to your questions regarding the archival of LiquidThreads.

The idea is to proceed in two stages:

  1. if you have any active place using LQT, we suggest to archive this pages as subpages. The pages left blank are replaced by a classic discussion page. In this way, the most active pages will already be ready when we proceed to step 2:
  2. LQT are removed from the wiki. Existing pages (including archived ones) will be converted to a format yet to be defined.

We have a few questions for your community:

  1. Are the reasons given for removing LiquidThreads clear?
  2. Are the two steps outlined above for archiving and uninstalling LiquidThreads clear?
  3. If so, what is a reasonable timeframe for archiving pages for deinstallation? At present, deinstallation is not planned on our side (even if the second quarter of 2024 is mentioned).
  4. In your opinion, what format should pages currently using LQT be converted to when we proceed with the deinstallation of structured discussions?

If you need clarification, please ask! I've subscribed to this section, and I'll try to answer as soon as possible.

Best, Trizek (WMF) (diskussion) 31 januari 2024 kl. 18.34 (CET)Svara

Hello Trizek
  1. It's clear. In practice LQT have been abandoned here for more than ten years because of its bugginess. We would have depreciated it ourselves, if we had known how to.
  2. Yes
  3. A month at most. We can fix our preparations for step 2 before the second quarter of 2024.
  4. Plain wikitext discussion pages, if possible.
Thurs (diskussion) 1 februari 2024 kl. 11.45 (CET)Svara
Thank you Thurs. Regarding step 3, if any page is using LQT now, you can archive it immediately, anticipating the removal. Trizek (WMF) (diskussion) 1 februari 2024 kl. 11.48 (CET)Svara
I'm planning to do so. Thurs (diskussion) 1 februari 2024 kl. 11.56 (CET)Svara
Done. Thurs (diskussion) 3 februari 2024 kl. 20.22 (CET)Svara

Hjälp med korrekturläsning: Skragge-koden

[redigera]

Hej! Du som uppskattar svensk sjukvårdshistoria, att tyda 1700-talets frakturstil eller bara är allmänt hjälpsam får mer än gärna bidra till att korrekturläsa och validera de 234 sidor som nu finns förberedda efter OCR-tolkad maskinläsning med Transkribus. Syftet med projektet Skragge-koden är att avkoda och tolka Samuel Skragges gamla skrifter, tillsammans omnämnda som ”Skragges tractater”, som publicerades under åren 1688-1708. Skragge är grundare till Sätra brunn (kurort) och de två senare skrifterna handlar om de första somrarna i kurortens historia, åren 1701 och 1702. Initiativtagare för projektet är Brunnsmuseet Sätra Brunn, ett ideellt museum för kurorten, där undertecknad också är ideellt verksam. Vi behöver nu gemenskapens hjälp med att föra detta projekt framåt, och vi har satt upp ambitiösa målsättningar för detta (båda räknas från den 1 februari 2024):

  • För det första att vi tillsammans inom 100 dagar ska nå upp till 100% av sidorna blir korrekturlästa (senast den 11 maj 2024).
  • För det andra att vi tillsammans inom 200 dagar ska nå upp till att 100% av sidorna blir validerade (senast den 19 augusti 2024).

Kika gärna vidare och besök projektsidan nedan. Även all annan form av hjälp tas mycket tacksamt emot! Tack för visat intresse och på återhörande!

Projektsida

Frojdlund (diskussion) 1 februari 2024 kl. 20.26 (CET)Svara

och var ska vi börja? Har du startat en eller fler index-sidor, t.ex. Länk(ar)? Bio2935c (diskussion) 2 februari 2024 kl. 04.31 (CET)Svara
@Bio2935c tack för frågan! Jag får kika på att framhäva det ytterligare via projektsidan. Här är index-sidorna: Skrift 1 - Skrift 2 - Skrift 3 Frojdlund (diskussion) 2 februari 2024 kl. 08.40 (CET)Svara
...och nu när vi har börjat, så har jag några nya frågor (för alla) som vi nog borde vara eniga om:
• Skall vi skriva antikva som kursivt (som det står i redigeringdiskussionen)? Överallt, bara i "texten" (inte på titelsidorna), ingenstans? Eller något annat?
• Skall vi skriva "/" som "/" eller som ","? Skall det vara ett mellanslag framför, eller inte? Originaltexten tycks (alltid?) ha ett stort mellanrum framför.
• Förkortningen för "et cetera" (ꝛc) borde vi väl skriva som "etc"!
--Bio2935c (diskussion) 4 februari 2024 kl. 07.14 (CET)Svara
  • Att markera antikva har för det mesta ingen större betydelse för förståelsen av texten. Det är fritt att markera den eller inte, men det ska vara konsekvent i ett verk naturligtvis. Det är hugget som stucket för min del, båda kan gå.
  • I senare delen av 1600-talet används virgula "/" i fraktur på samma sätt som komma "," i antikva. Det bästa vore att transkribera det som "," och inte ha något mellanslag.
  • Vi har ju ett tecken "&" för det och det används också i antikvan i texterna.
Thurs (diskussion) 4 februari 2024 kl. 13.17 (CET)Svara
Hej! Jag välkomnar diskussionen. Jag noterar att @Thuresson redan har gjort ett föredömligt arbete med den första boken, som nu är helt korrekturläst. Jag hoppas han vill fortsätta med de andra två böckerna. I första boken används / och jag tycker att det är lämpligt utifrån hur det faktiskt står. Det är förstås så att / används istället för , som här nämns, men genom texten används ibland stor bokstav efter / vilket inte är brukligt att göra efter , – därmed vore det rimligt att behålla / då det inte nödvändigtvis alltid är helt synonymt med kommatecken. Thuresson har skrivit några redigeringsprinciper i indexdiskussionen för den första boken, vilka jag tycker är väl avvägda och användbara. Frojdlund (diskussion) 4 februari 2024 kl. 15.56 (CET)Svara
Har du något exempel? Versaler används inte riktigt på samma sätt som i dagens svenska. Thurs (diskussion) 4 februari 2024 kl. 16.12 (CET)Svara
Okej. (1) Vi bryr oss inte om textstilen; fraktur eller antikva spelar ingen roll alltså. Då skall jag ändra de två(!) sidor (i "skrift 2") som jag redan har korrläst; även om titelsidan blir lite mindre "snygg".
(2) Om virgula (/) ... Det ser ut som om det används inte bara "på samma sätt" som ett komma, men som om det faktiskt är ett komma. Se t.ex. sid. 2 i "skrift 2". Där har vi båda två; ett virgula som kommer efter ett ord i fraktur, och ett komma som kommer efter ett ord i antikva. Så om vi inte skall bry oss om stilen, då borde vi väl också skriva alla dessa som ett vanligt komma (och inte förvara ett enda tecken i fraktur)!
(3) Och "et cetera"? Du har rätt; det går nog bra att skriva "&c". Det förstår vi ju ännu idag, emedan "ꝛc" har en krumelur som ingen förstår numera. Iden är väl att skriva något som allmänheten kan läsa utan problem.
(4) ps: Jag lade också till en kommentar i indexdiskussionen (se ovan). --Bio2935c (diskussion) 5 februari 2024 kl. 01.57 (CET)Svara
OK. Ja i råmaterialet (OCR-skanningen som jag lade in) såg det först ut som att / i förekommande fall användes till nya meningar, men när jag kikar igenom den färdiga första boken så har dessa arbetats bort, säkerligen korrekt där stor bokstav använts mer godtyckligt (och jag läste inte särskilt noga i detta steg). Jag inser att jag tycker det är viktigare att någon vill korrekturläsa än att jag ska tycka i detalj om om hur det ska göras, så om det finns utarbetade konventioner eller goda skäl att falla tillbaka på så kör på det. Frojdlund (diskussion) 5 februari 2024 kl. 19.52 (CET)Svara
(1) Antikva. Å andra sidan tycker jag det skulle blir det en aning märkligt på titelsidan i "skrift 1" "Samuel Skragge".
(2) Virgula. Ja, det har du rätt i. Det är motsvarigheten till komma i fraktur. Thurs (diskussion) 7 februari 2024 kl. 19.34 (CET)Svara
Hej! Det har gått en tid men mycket har hänt och kommer att hända, så här kommer en uppdatering: Den 17 augusti hamnar Skragge-koden på museum! I samband med Sätra Brunns 1700-talsdagar 14-18 augusti så kommer Brunnsmuseet premiärvisa en helt ny utställningsdel med tema 1700-tal och berätta hur man arbetar med att lyfta fram 1700-talet. I den nya utställningsdelen kommer Skragge-koden och volontärinsatserna på Wikisource vara en viktig del. Utställningen kommer sedan visas till och med avslutningshelgen, Kulturarvsdagen 6-8 september. I Brunnsmuseets nyhetsbrev 1 mars så publicerades en intervju med Mattias Thuresson som varit med och korrekturläst Skragge. Den intervjun finns att läsa här. Som jag uppdaterat på projektsidan, men inte här i diskussionsflödet, så blev den tredje och sista boken klarmarkerad i korrekturläsningen den 26 mars 2024. Stort tack till @Thuresson @Bio2935c @Thurs för era bidrag så här långt! Sedan dess har arbete pågått med att "översätta" böckerna till modern svensk stavning, ett arbete som gått framåt i perioder vartefter jag haft tid men som inte publicerats ännu. Fler uppdateringar om projektet kommer vartefter publiceras med etiketten Skragge-koden i Brunnsmuseets nyhetsbrev. Tack för visat intresse! Frojdlund (diskussion) 12 juli 2024 kl. 20.30 (CEST)Svara
Jag ska försöka hinna med att göra besök och titta på utställningen, dock hinner jag inte redan till 1700-talsdagarna. Thuresson (diskussion) 15 juli 2024 kl. 20.44 (CEST)Svara

Style sheet för en bok

[redigera]

Engelska Wikisource beskriver på sidan en:Help:Page styles hur man kan göra en undersida /styles.css till Index-sidan för ett verk och därmed definiera stilen för hela boken, t.ex. att alla kapitelrubriker i denna bok ska återges i grönt. Används detta alls på sv.wikisource eller andra språk som ni känner till? Det förekommer sådana style sheets till ett halvdussin verk (alltså väldigt få) och det har diskuterats i maj 2021, när det var nytt. Men finns det någon hjälpsida som beskriver det? LA2 (diskussion) 7 februari 2024 kl. 12.05 (CET)Svara

Nej, det finns ingen hjälpsida för det. Thurs (diskussion) 7 februari 2024 kl. 20.15 (CET)Svara
Vad är erfarenheterna av systemet? Är det bra? Det används bara på några få böcker, så kanske är det ganska onödigt? Sådana erfarenheter kunde man sammanfatta och skriva en hjälpsida om ämnet. --LA2 (diskussion) 7 februari 2024 kl. 22.48 (CET)Svara
Jag har haft bra nytta av det för t.ex. innehållsförteckningen där css kan ersätta behovet av formatering som återkommer på var rad. Har även använt det för att få enhetliga kapitelrubriker samt i ett verk där numreringen av punktlistor var rätt säregen. / Lokal_Profil 12 maj 2024 kl. 12.02 (CEST)Svara

Interwiki

[redigera]

Jag noterade att här finns Världsmarknaden och en.wikisource har originalet en:Vanity Fair (Thackeray), så jag ville interwiki-länka dem, men detra blev återställt. Hur borde man göra? LA2 (diskussion) 5 mars 2024 kl. 02.02 (CET)Svara

Interwiki på Wikidata fungerar inte för texter på Wikisource. Du kan göra på det gamla sättet som du redan börjat med men inga iw-bottar körs längre, så länkarna uppdateras inte vid förändringar.--Thurs (diskussion) 5 mars 2024 kl. 10.54 (CET)Svara
Det verkar funka för sidor i huvudnamnrymden som beskriver verket på konceptnivå, som Bibeln och en:Hamlet (Shakespeare). Dessa sidor innehåller kanske inte verket, utan är grensidor som pekar ut utgåvor. Så lösningen får väl bli att skapa en sådan sida och interwiki-länka den via Wikidata. Vanity Fair är väl inte riktigt lika känd som Bibeln och Hamlet, men det borde ändå vara en möjlig väg framåt. Grensidan Ack Värmeland, du sköna är ju Wikidata-länkad till Wikipedia-artikeln. --LA2 (diskussion) 28 mars 2024 kl. 22.53 (CET)Svara

Anletes svett

[redigera]

Dessa ord finns förstås i Bibeln 1917/Första Moseboken, men vid sökning kommer denna mest relevanta sida mycket långt ner i träfflistan. Varför? Hur kan sökfunktionen förbättras? LA2 (diskussion) 17 mars 2024 kl. 18.54 (CET)Svara

Det beror på att relevansen är baserad på sidans egenskaper och att sökfunktionen är anpassad för Wikipedia. Jag frågade Bings AI-chat (Men svaret stämmer med min intuitiva uppfattning). Det avgörande här tycks vara att uttrycket bara förekommer en gång på en mycket lång sida, vilket ger en lägre viktning. Annat som att sidan är relativt populär tycks ha en mindre betydelse. Den typ av relevans som du tänker på fungerar på de andra projekten, där artiklarna är ämnesindelade, men sämre här där skönlitterära texter är dominerande. Det är inget vi har resurser för att göra något åt här om det ens är önskvärt.
Co-pilot:
In CirrusSearch, relevance is determined by a combination of factors that help rank search results. Let's explore how this weighting works:
  • Term Frequency (TF):
    • CirrusSearch considers how often the search terms appear in a document.
    • If a term appears multiple times, it contributes more to the relevance score.
    • However, it also normalizes the frequency to prevent bias toward long documents.
  • Inverse Document Frequency (IDF):
    • IDF measures the rarity of a term across the entire corpus.
    • Rare terms receive higher weights because they are more informative.
    • Common terms (like "the" or "and") have lower IDF weights.
  • Field Boosts:
    • Different fields (such as title, content, or category) have varying importance.
    • CirrusSearch assigns boosts to fields to emphasize their significance.
    • For example, matches in the title field might receive a higher weight.
  • Proximity and Phrase Matching:
    • CirrusSearch considers how closely terms appear to each other.
    • Exact phrase matches receive a boost.
    • Proximity boosts reward terms that occur close together.
  • Document Length Normalization:
    • Longer documents tend to have more occurrences of search terms.
    • CirrusSearch normalizes scores based on document length.
    • This ensures fairness across documents of different sizes.
  • Quality and Freshness:
    • CirrusSearch considers page quality (e.g., page views, edits, and links).
    • Freshness matters: Recently updated pages receive a boost.
  • User Behavior Signals:
    • Click-through rates (how often users click a result) influence relevance.
    • If users frequently click a specific result, it gains higher relevance.

Remember that relevance is a complex interplay of these factors, and CirrusSearch aims to provide accurate and useful results based on your queries! 🌟 For more detailed technical information, you can explore the official documentation.

--Thurs (diskussion) 17 mars 2024 kl. 23.19 (CET)Svara


Motsvarande sökning i Projekt Runeberg leder rätt. --LA2 (diskussion) 18 mars 2024 kl. 01.38 (CET)Svara
Förmodligen därför att Bibeln 1917 var en av Projekt Runebergs tidigaste succéer och många sidor troligen fortfarande länkar till den. Vilket har stor vikt i Google-sökningar. Det är inget vi kan efterhärma. Utom de närmast sörjande lär få söka på Google med "site:sv.wikisource.org". Söker jag bara på "anletes svett" får jag som första träff wikt:i sitt anletes svett som har en länk till Bibeln 1917 på Wikisource. Det är ett bättre sökresultat för Wikimedia som helhet än att vi ska försöka optimera sökningar inom Wikisource till en sida utan förklaring av dess betydelse. Thurs (diskussion) 18 mars 2024 kl. 11.13 (CET)Svara

Ett av OCR-verktygen nere

[redigera]

Hej. Bara en blänkare om att det OCR-verktyg som aktiveras via finess är nere i samband med att Wikimedia Foundation har uppdaterat sin infrastruktur för fristående verktyg. Den som är nyfiken kan följa processen med att återaktivera verktyget på phab:T319965. /André Costa (WMSE) (diskussion) 18 mars 2024 kl. 11.39 (CET)Svara

Tack för info. Tyvärr har den gamla wikisource-statistiken också försvunnit. En ny statistiksida är under uppbyggnad här: https://wsstats.toolforge.org/ Thurs (diskussion) 18 mars 2024 kl. 12.12 (CET)Svara
Jag, med privata hatten på, märkte dock nyss att den inbyggda OCR:en funkar lika bra OM man går in i dess inställningar och ställer in den på svenska. /Lokal_Profil 21 mars 2024 kl. 18.52 (CET)Svara
[redigera]

Jag har en utgåva av Samhällets olycksbarn (alltså Les Misérables av Victor Hugo) som jag är intresserad av att skanna in till wiki source. Problemet är att just den utgåva jag har inte anger vem som står för översättningen så jag kan inte avgöra om upphovsrätt fortfarande föreligger. Kanske någon kan hjälpa mig luska i detta eller komma med tips på hur jag kan gå vidare.

Information om utgåvan:

- Utgiven av Världslitteraturen, Malmö 1927-28

- Tryckt av A.-B Malmö Centraltryckeri

- 13 band med överskriften "Samlade skrifter"

- Länk till Libris: http://libris.kb.se/bib/1331993

Om det rör sig om en återanvänd översättning borde det vara lätt att jämföra specifika avsnitt om någon har tillgång. Bland de tidigare översättare jag hittat namnet på är den som dog senast en Hugo Gyllander (död 1955).

Jag skulle tycka det var jättekul om Samhällets olycksbarn kunde tillgängliggöras digitalt i sin helhet. Jag har bara hittat nyare översättningar som ebok och dessa är alltid förkortade och även upphovsrättsskyddade för lång tid framöver. Jonatanskogsfors (diskussion) 18 mars 2024 kl. 15.59 (CET)Svara

Det första du kan göra är att jämföra din upplaga med den från 1889 som finns på Google Books (jag hittar endast band 3-5). Jag ser inget hinder att skanna in och ladda upp en översättning från 1927-1928 om det är samma som användes 1889.
Världslitteraraturens förlag i Malmö är väl i efterhand mest känd för sina bokserier av kända författare (Jack Londons samlade verk i 21 band) och med Einar Nylén som redaktör och, ibland, översättare. Nylén har väl knappast haft förmåga att själv översätta Victor Hugos samlade skrifter. Mer troligt är väl att förlaget använde sig av någon tidigare översättning. Jag skulle försöka undersöka detta genom att använda kommunalt fjärrlån för att få låna Hugo Gyllanders tidigare översättning från Sveriges depåbibliotek i Umeå. Fjärrlån är vanligtvis helt gratis genom kommunalt stadsbibliotek eller liknande. Thuresson (diskussion) 18 mars 2024 kl. 18.04 (CET)Svara
Jonatanskogsfors: Om det första kapitlet i den andra boken i den första delen börjar med "En af de första dagarne i oktober månad 1815, vid pass en timme före solens nedgång, kom en man till fots in i den lilla staden D. De få stadsbor, som i detta ögonblick sågo ut genom sina fönster eller stodo i dörren till sina hus, blefvo ovillkorligen helt illa till mods, då de fingo ögonen på denne resande." så är det Carl Johan Backmans översättning från 1862, fri att sprida som man vill. Hela kapitlet finns i Nya Dagligt Allehanda här. Thuresson (diskussion) 21 mars 2024 kl. 20.29 (CET)Svara
Räcker det inte att konstatera att översättningen är anonym och äldre än 70 år? Har Commons hårdare krav än så? --LA2 (diskussion) 24 mars 2024 kl. 11.16 (CET)Svara

Litteraturhistoria

[redigera]

Henrik Schück (1855–1947) var en viktig litteraturhistoriker, vars verk blev fria 2018. Några har digitaliserats och är inlagda i Litteraturbanken och Projekt Runeberg. Jag har intresserat mig för (och i Projekt Runeberg korrekturläst stora delar av)

Den senare omfattar världen, alltså inte bara Sverige. Jag ser dem som översikter, som ger ett ramverk för den övriga litteraturen som vi digitaliserar. Men de är skrivna på 1920-30-talet när t.ex. japansk litteratur inte räknades in i världslitteraturen. Ger Wikipedia en moderniserad syn på litteraturhistorien, eller återger Wikipedia bara vad som stod i Nordisk familjebok (som också är från 1920-talet)?

Några äldre litteraturhistoriker var Carl Rupert Nyblom (1832–1907) och Karl Warburg (1852–1918, W). Men vilka är deras närmaste modernare efterföljare? Fjärde upplagan av Nordisk familjebok listar namnen:

Så det är ganska många rödlänkar, trots att några av författarna har dött för mer än 70 år sedan. LA2 (diskussion) 24 mars 2024 kl. 12.37 (CET)Svara

Odæ Sveticæ, men även samlingsverk i bredare bemärkelse

[redigera]

Jag håller på att fixa lite med Odæ Sveticæ efter att jag upptäckte att det fanns två separat versioner av denna här (från 1674 och 1786). Under min prepp med att titta på länkarna som går till det jag tänker göra till en förgreningssida så stötte jag på sidorna för de individuella psalmerna/sångerna/dikterna som t.ex Hwad är thet åt at jag mitt sinne qwäljer. Eftersom det nu finns två versioner av var av dessa också och både titlar och deras ordning verkar skilja sig mellan de olika versionerna så skulle jag vilja knyta dessa sidor närmare den faktiska källan (utgåva) som de kommer ifrån. För detta har jag två olika ändringar som jag skulle vilja göra vilka jag gärna skulle vilja kolla av här först.

  1. Den första är att i titel-mallen göra det tydligt att det är ett verk som ingår i ett annat genom att sätta sångens namn till undertitel.
  2. Den andra är att flytta ner sidan till en undersida för Odæ Sveticæ (1786).

En illustration av hur det skulle se ut finns på Användare:Lokal Profil/test.

Även om min fråga här specifikt tittar på Odæ Sveticæ så finns det så klart paralleller med andra samlingsverk och det är inte första gången som jag funderat på den typen omstruktureringar. / Lokal_Profil 1 april 2024 kl. 20.49 (CEST)Svara

Jag tycker det låter bra. Det är ju inte ovanligt när det gäller poesi och sångtexter att det finns skäl att klargöra vilken version / utgåva man använder sig av. Exempelvis Den blomstertid nu kommer finns i olika versioner med klargörande information och en mall jag inte kände till, . Thuresson (diskussion) 2 april 2024 kl. 23.18 (CEST)Svara
Tack! Då går jag vidare med att initialt flytta sidorna i Odæ Sveticæ, och senare även med andra liknande poesi-verk jag jobbar med. / Lokal_Profil 10 april 2024 kl. 22.03 (CEST)Svara
Och om ingen motsätter sig så gör jag det med L_PBot eftersom det ändå blir rätt många individuella flyttar och mönstret blir linkande när jag innan standardiserade hur kapitel hanterades. Jag gör som då att jag listar saker på Användare:L PBot/Verk med underdelar i förväg så kan den som vill hålla ett öga på det läget lägga den sidan på sin bevakningslista. / Lokal_Profil 10 april 2024 kl. 22.24 (CEST)Svara

Sidor utan källa?

[redigera]

Vad är det som händer här? Ett exempel på en sida utan någon länk till en källa. Det ser kanske okej ut, men ... var är originalet? Är det något fel någonstans? Eller har skaparen helt enkelt hittat på alltihop? Bio2935c (diskussion) 3 april 2024 kl. 07.12 (CEST)Svara

Även Upprättelse för markisen av Argyll. I just dessa två fallen borde [2] kunna användas som källa. Men det öpnar självfallet en fråga om det finns situationer idag när det fortfarandeär ok att lägga till innehåll utan att gå via index/sida så att andra kan verifiera innehållet. /Lokal_Profil 4 april 2024 kl. 21.10 (CEST)Svara
Okej, det ser ut som den rätta källan. Men ... har en sida som inte visar källan något värde? Min åsikt: mycket, mycket lite. Vem som helst kan ju då skriva vad de vill, och det finns (nästan) ingen chans att någon skulle kunna kolla om det är rätt, eller inte. Om jag Googlar efter någonting, och hittar en sådan sida, vad hjälper det mig? Det är väl inte värt mer än (annat) "fake news"?? Det är väl inte så svårt att ladda upp originalet till Commons?
Eller är det någon som har en annan åsikt? Vad gör de på t.ex. engelska Wikisource (har inte försökt hitta något)? Bio2935c (diskussion) 6 april 2024 kl. 07.51 (CEST)Svara
Jag ansluter mig till Bio2935c:s mening. Därutöver tycker jag att man många gånger är för snabb med att ladda upp texter till huvudnamnrymden innan de korrekturlästs. Det sänker Wikisource’ renommé. --Gottfried Multe (diskussion) 6 april 2024 kl. 18.01 (CEST)Svara
Wikisource är väl fullt av texter som inte har någon faksimilsida. T.ex. Den blomstertid nu kommer (1937). Men det står ju tydligt att den är ur 1937 års psalmbok, så vem som helst kan kolla upp om den stämmer, även om det inte finns någon länk. Och samma sak gäller ju för artikeln om Fredrik I, det står att den kommer ur Posttidningen för ett visst datum. Lätt att kolla för alla som har tillgång. Men för svenska dagstidningar är det ju också lätt att i efterhand ladda upp rätt nummer till Commons och skapa motsvarande Index-sida. Det vore önskvärt att en sådan uppladdning gjordes enklare. --LA2 (diskussion) 6 april 2024 kl. 20.23 (CEST)Svara
Vill bara förtydliga att min fråga gäller texter som laddas upp idag. Det finns gott om texter på Wikisource som tilkomm innan det var lätt att även ladda upp källfiler. Skulle de kunna kompletteras med dessa, visst men det kräver att någon tycker den insatsen är mer värd än att arbeta med nya texter.
Att idag förlita sig på att någon som vill kontrollera om texten är rätt ska hitta den fysiska boken, eller förlita sig på en extern tjänst som kan sluta tillhandahålla materialet tycker jag personligen inte är ok. Men det beror kanske på vad man anser är "source" i Wikisource står för, (käll)texten eller (det digitalt tillgängliggjorda) källmaterialet? / Lokal_Profil 6 april 2024 kl. 20.52 (CEST)Svara
FYI vis-à-vis Engelska Wikisource, som kanske kan hjälpa här. Det är inte absolut nödvändig att ladda upp källfiler på Wikisource Commons, men det är nuförtiden mycket bättre att försöka göra det. (Jag har lagt till Betoningen i fetstil.)
Help:Adding_texts
== What about works without scans? ==
Ideally all works on Wikisource will eventually have scans, replacing the works already present that do not. However, it is still OK to add proofread texts from other sources. See Help:Adding texts for more information. ...
Help:Beginner's guide to sources
Ideally all works on Wikisource will eventually have scans, replacing the works already present that do not. However, it is still OK to add proofread texts from other sources.
What Wikisource includes
Defining what is not included
Second-hand transcriptions
Wikisource no longer accepts any new texts from Project Gutenberg, or similar second-hand transcriptions of any sort. This applies even if "scan"-backed by a DJVU, PDF, or any other format accepted by the ProofreadPage extension, created from that text.
Note: The preferred way contribute such texts is to proofread against a scanned copy of the book so that the Wikisource copy can always be validated against the physical text.
Unsourced
Manually entered works where a verifiable source is not available are increasingly deleted when found incomplete and appearing abandoned. While a djvu file at Commons is not currently a requirement, there has been discussion of making it a requirement. Your work will have a better chance of standing the test of time, if it can stand the test of validation to an available scan. Because Commons is a sister site under the same organization as Wikisource, as long as Wikisource, Wikipedia and related sites exist, your work is likely to survive if the page images are stored at Commons.
Hälsningar,
PWidergren (diskussion) 7 april 2024 kl. 17.09 (CEST)Svara

Korrekturläst, men enligt äldre standard

[redigera]

I Projekt Runeberg finns sidor och texter som är markerade som korrekturlästa, men som blev detta innan markeringar för spärrad stil och fotnoter infördes. Ett exempel är den här sidan, scannad och korrad 2003, men kompletterad 2024. Enligt dagens standard, borde sådana sidor alltså vara märkta som påbörjade, men inte genomfört korrekturlästa. Har Wikisource råkat ut för något liknande? Hur borde man förhålla sig? Motsvarande kunde hända om man inför stöd för runor eller matematiska och kemiska formler, men har gamla redan korrekturlästa sidor där sådant skulle behöva markeras. Man kan ju inte gärna omintetgöra allt som gjordes för 20 år sedan, för då får man likt Sisyfos ständigt rulla upp samma sten vart 20:e år. LA2 (diskussion) 20 april 2024 kl. 21.09 (CEST)Svara

Jag har inte riktigt stött på det här men det beror nog att Svenska Wikisource är yngre än Runeberg, där tekniken utvecklades i takt med att webbplatsen växte fram. Vid något tillfälle läste jag en bok här där boksidorna var både korrekturlästa och validerade men trots det ändå en hel del slarvfel; det var bara att rätta till och gå vidare. Stöter man på något sådant är det fel att ändra statusnivån på korrekturläsningen - rätta istället. Thuresson (diskussion) 20 april 2024 kl. 23.02 (CEST)Svara
On the English language Wikisource there is a tendency to want to update HTML based code with CSS code and some "abuse" filters are busily catching depricated code. For example valign="bottom" in a table is depricated and will be flagged by an abuse bot there, whereas CSS style="vertical-align: bottom;" will not. Templates (Mallar) there are at times more sophisticated, but they are often just snippets of code. This does not mean that the depricated code no longer works of course.
In addition, some updates are now being automatically handled by bots. For example, I just saw headers being changed in a work so that {{rh||center=xxx|right=xxx}} are automatically being changed to {{rh|xxx|xxx}} as if that really is a great improvement. But it probably does not hurt either.
In my personal opinion, it is not an improvement to update formatting issues by changing one page of a multi-volume work and publically declaring the finished work that some voluteer put a great deal of time and energy into several years ago as now faulty. Updating finished works only makes sense to me if the entire work is updated in a consistent manner, not just one random page out of a thousand. Otherwise, I would think it is best to leave all completed work alone, and focus on mounds and mounds of material that has never been proofread at all.
Sorry for using English, but there are not many Swedish speakers in monolingual, rural Arkansas and so spoken and written Swedish are simply never a part of my day-to-day existence. I am not into Tik-Tok or Candy Crush, but since there is not much of a market for Swedish books in the US (and some books can be sent from Sweden easily enough nowadays), I enjoy entertaining myself by buying and scanning books, making the dvju file, uploading the book here and proofreading it. I cannot validate my own work, of course, but perhaps someday validation will come if someone else of good will takes an interest in one of the books I found interesting. But nevertheless, it keeps me busy in retirement.
PWidergren (diskussion) 21 april 2024 kl. 15.47 (CEST)Svara
Det finns stilelement och praxis som förändrats även under Wikisources tid som till exempel hanteringen av antikva i fraktur och avstavning mellan sidor. Men det betyder inte att det äldre sättet nödvändigtvis är fel och att sidan behöver nedgraderas. Thurs (diskussion) 4 maj 2024 kl. 18.57 (CEST)Svara

Problem med mall: Rättelse och Korrektion

[redigera]

Båda har samma problem. Nämligen att om parameter 2 (det som det borde stå) innehåller antingen <i></i>, <b></b>, <u></u> och antagligen alla taggar med <>, så får man se lite av källkoden, istället för hur det skulle se ut ... på SIDA-namnrymden.

Det går lite bättre om man använder '' istället, men verktygstipset som visas om man sätter musen på det felaktiga ordet visar ''-tecknen istället för (t.ex.) kursivering.

Transkluderingen är okej, för där blir det helt enkelt <i>text</i>, även om det står ''text'' på SIDAn.

Om rättelsen/korrektionen bara är ett enda ord, då kan man nog skriva <>-taggarna utanför mallen, men om den korrekterade texten innehåller både kursiv och icke-kursiv, då går det ju inte med det knepet. Tyvärr.

Jag skulle tro att det här är inte något nytt, men finns det ett bättre sätt att hantera problemet? Mitt exempel här. Bio2935c (diskussion) 3 maj 2024 kl. 06.46 (CEST)Svara

I sådana fall kan man sätta includeonly-taggar runt taggarna:
<includeonly><u></includeonly>text<includeonly></u></includeonly>
Thurs (diskussion) 3 maj 2024 kl. 10.15 (CEST)Svara
Tack! Inte perfekt (ingen kursivering på SIDAn), men bättre än att använda ''.
Vill du skriva en rad eller två på mall-beskrivningen? Bio2935c (diskussion) 3 maj 2024 kl. 23.22 (CEST)Svara
Fixat. För att kunna visa kursiv där skulle man behöva skriva om hela mallen. Thurs (diskussion) 4 maj 2024 kl. 18.40 (CEST)Svara
Tack! Nu behöver jag inte komma ihåg knepet om/när det händer igen.
Jag kikade på "engelska" mallen och tycker den är väldigt komplicerad; mer än nödvändigt. Vad vi har här nu duger bra! Bio2935c (diskussion) 4 maj 2024 kl. 20.50 (CEST)Svara

Fotnot-problem

[redigera]

Det vore bra om någon kunde hjälpa mig att finna en fungerande lösning för detta: på Sida:Svenska Akademiens handlingar 1796 4.djvu/204 påbörjas fotnot 3. På följande sida kommer fortsättningen, men... fortsättningen (eller kanske del därav) utgör också fotnot 1 på samma sida. Tips välkomnas! Gottfried Multe (diskussion) 7 maj 2024 kl. 17.57 (CEST)Svara

Det blir väl andra klokare ord till svar, men ... jag tycker det skulle gå bra (nog) att avsluta den första fotnoten (n:r 3 från s. 200) med "... von Brobergens." och sedan börja den andra (1:a på s. 201) med "Henr. G. von ...". Alltså upprepa namnet. Bio2935c (diskussion) 7 maj 2024 kl. 20.55 (CEST)Svara
Man kan väl använda systemet för fotnoter som sträcker sig över flera sidor, alltså <ref name="fotnoten"> och <ref follow="fotnoten" /> som kort berörs på Wikisource:Korrekturläsning, och som används här och här? Thuresson (diskussion) 7 maj 2024 kl. 21.23 (CEST)Svara
Lägg märke till att sista raden på fotnot 3 på sidan 200 slutar mitt på sidan. Att författaren delat upp det på två olika fotnoter måste vara helt medvetet och de ska behandlas som det även vid korrekturläsningen. Alltså not 3 på sid 200 är en fotnot och not 1 på sid 201 är en annan. Thurs (diskussion) 8 maj 2024 kl. 00.16 (CEST)Svara
Tack för hjälpen! Alla metoder som ni har föreslagit skulle fungera. Just nu känner jag mig mest frestad av Thurs variant, men jag ska låta tankarna mogna en aning. Oavsett vilken metod som blir vald, så kan ju alltid någon kommande medarbetare justera det hela. --Gottfried Multe (diskussion) 8 maj 2024 kl. 09.39 (CEST)Svara

Försöker skapa en ny bok

[redigera]

Försöker skapa en ny bok under titeln Index:Julkalender 01 12 1889.pdf, en PDF finns redan, men det verkar inte fungera? Förstår i största allmänhet inte hur man gör och hittar ingen användbar dokumentation. Hur gör man? Har jag gjort något fel? Sabelöga (diskussion) 11 juli 2024 kl. 01.52 (CEST)Svara

Ja, jag hade samma problem för några veckor sedan, och fick hjälp på Commons. Det tycks vara rätt så vanligt, tyvärr. Så här gjorde jag nu ...
https://commons.wikimedia.org/w/index.php?title=File:Julkalender%2001%2012%201889.pdf&action=purge
och det ser ut som om Index-sidan fungerar nu. För mig åtminstone. Hoppas att det går bra nu för dig också. Bio2935c (diskussion) 11 juli 2024 kl. 07.25 (CEST)Svara
Det ser ut att fungera som det ska för mig nu med. Tack. Sabelöga (diskussion) 11 juli 2024 kl. 17.00 (CEST)Svara
Annan sak. Ska man inte också transkribera omslaget? Det har ju nämligen text på sig. Eller? Sida:Julkalender 01 12 1889.pdf/1 Sabelöga (diskussion) 11 juli 2024 kl. 17.14 (CEST)Svara
@Bio2935c En tredje sak. Ska vi följa bokens ordning, det vill säja sidornas följd, eller den ordning som dom redovisas i innehållsförteckningen? Sabelöga (diskussion) 11 juli 2024 kl. 18.44 (CEST)Svara
Omslaget? Om det finns text på sidan så skadar det väl inte att transkribera det. Själv brukar jag göra det. Tryckt text iallafall; alltså inte vad någon har skrivit för hand; eller biblioteksstämplar, t.ex. Men skulle den vara med i transkluderingen? Vet inte, men tycker inte det blir "fel" vad du än gör.
Ordningen? Jag får väl fråga: ordningen var då? När du transkluderar verket (antar jag, men ... kanske inte?)? Jag har inte förut sett ett innehåll som inte följer boken! Men här är det, mitt första. Och transkluderingen borde nog följa boken. Idén är väl att om man läser det transkluderade verket, så borde det vara så likt originalet som "möjligt". Men om man vill lägga innehåll-sidorna först, istället för sist, så har jag (personligen) inget emot det; fast andra kan ju ha en annan åsikt. Du kunde ju lägga till en "next=..." länk som pekar på sid. "1". -- Bio2935c (diskussion) 11 juli 2024 kl. 21.52 (CEST)Svara
Hm, jag har valt att följa innehållsförteckningen och kommer nog fortsätta med det. Förteckningen är för övrigt sorterad efter författare, inte ordningen dom kommer i boken. Och, ja jag menade ordningen i förra-nästa-toppmallen i kapitelartiklarna, t.ex. Jul-Kalender 1889/I Töfsala kyrka.
Jag har transkriberat omslaget. Dock så ligger ju texten delvis över varandra, men har valt att skriva ut det som det står i inlagan. Fast med versaler förståss.
Borde det förresten på något sätt framgå författare här någonstans? Trots allt så är ju alla sagorna undertecknade. Jag angav ingen (enskild) författare när jag skapade sidorna. Men det är ju ändå några som har skrivit boken och skrivit under med namn eller pseudonym. Karl A. Tavaststjerna, Rafaël Hertzberg, Hanna Ongelin och Jonatan Reuter vet vi nog vilka det är, men vilka är A―ï―a, V. L., A. Berndtson, ―el―el―, Fågel Blå, E. Nervander, Vanda, Jan Hinderson, I. E. Vik eller Don Arthur?
Kan man kanske skriva ut just dom som är kända vilka dom är och utelämna resten som "övriga" eller "med flera", "flera författare" eller något liknande? Sabelöga (diskussion) 13 juli 2024 kl. 01.06 (CEST)Svara

Hjälp med dokument, DjVu

[redigera]

Hej! Jag har laddat upp två dokument till Wikimedia Commons med syfte att få över dem till Wikisource.

1) Kungl. Maj-ts bekräftelse å Kalseniska donationen af Sätra Brunn af den 20 december 1754.pdf

2) Utdrag af Svea Hofrätts protokoll den 31 augusti 1773 rörande Kalseniska donationen af Brunn.pdf

Det vore mycket tacksamt att få hjälp med att konvertera dessa dokument till DjVu och skapa index. För den senare skriften (pdf 2) så finns redan en sida sedan åtta år tillbaka, Sätra brunns donationbrev 1747, som innehåller texten men inte det underliggande dokumentet. Här är alltså korrekturläsningen redan gjord sedan tidigare. Syftet här är att öka kvaliteten på sidan genom att göra den "på riktigt" såsom den ska se ut med det underliggande dokumentet, eftersom nuvarande sida inte utnyttjar fördelarna med Wikisource.

Själva namnet och upplägget på den sidan är inte självklart, eftersom dokumentet är en indirekt återgivning av det faktiska donationsbrevet så blir dateringarna lite olika, det har funnits ambitioner att markera de olika dateringarna på sidan men om resultatet är begripligt är väl mer osäkert. All hjälp med detta vore också enormt tacksamt. Frojdlund (diskussion) 12 juli 2024 kl. 20.48 (CEST)Svara

Jag är ny här men läste någonstans att det går bra med pdf-format. Det gjorde det iallafall med boken jag skapade :) Sabelöga (diskussion) 14 juli 2024 kl. 00.26 (CEST)Svara

Ord som saknas i texten

[redigera]

Har stött på ett ord som uppenbarligen saknas i texten. Det verkar helt enkelt ha glömts eller av någon anledning inte skrivits ut på pappret.

Det jag pratar om är sida 50 av den här boken, tredje raden från botten, innan ordet "upp" i meningen "plocka blommor åt barnen och samla en knippa häggblomster att därmed pryda och [ordet som saknas] upp gamla stugan där hemma."

Sida:Julkalender 01 12 1889.pdf/50.

Hur ska man hantera ett ord som ska vara där och som uttryckligen saknas? Sabelöga (diskussion) 17 juli 2024 kl. 02.17 (CEST)Svara

Jag tror bara att man kan gissa, att ordet som saknas är "lysa". Har man tur finns samma text återgiven någon annanstans, kanske som följetong i någon tidning, eller i en annan upplaga av boken. Dagens AI-språkmodeller har ju som specialitet att gissa nästa (eller utelämnade) ord, så de kanske kan ge fler förslag. --LA2 (diskussion) 17 september 2024 kl. 20.11 (CEST)Svara

Guidning vid ersättning av gammal syntax

[redigera]

Jag har tittat lite på de sidor vars utseende kan komma att påverkas av att MediaWiki byter den motor som översätter wikitext till html. I flera fall handlar det om mönster så som t.ex {{m|{{huvud|x|y|z}}}} som används på så många sidor att det enklaste fixas med en bot.

I dessa fall finns det ett val att göra mellan att göra en ersättning med befintliga Mallar, i detta fall {{huvud|{{m|x}}|{{m|y}}|{{m|z}}}}. Alternativt att man utökar funktionaliteten i mallarna, i detta fall {{huvud}} så att man kan skriva något i stil med {{huvud|x|y|z|storlek=90}} eller {{huvud|x|y|z|stil=font-size:90%;}} eller fixa så att man kan styra det med Index-stil.

Det spelar det inte så stor roll för mig vilken lösning vi kör på men ville kolla med er andra om ni har någon preferens mellan alternativen okomplext men mycket måsvingar på var sida eller mer komplext beteende men mindre rörigt på sidan. Jag tog ett konkret exempel ovan men tänker att svaret blir vägledande för de andra mönster jag stöter på senare. / Lokal_Profil 29 augusti 2024 kl. 22.04 (CEST)Svara

Vill man se lite mer om bakgrunden så skrev jag lite på Användardiskussion:Lokal_Profil#Varför? och kan svara på frågor om just det där. Lokal_Profil 29 augusti 2024 kl. 22.08 (CEST)Svara
Eftersom ingen har återkoppla kommer jag att gå på den tredje lösningen som jag spontant känner är mest flexibel. För det aktuella fallet med {{huvud}} (och {{sidfot}}) har jag tagit fram ett färdigt förslag på Användare:Lokal Profil/test som jag kan ersätta de existerande existerande mallarna med. / Lokal_Profil 10 september 2024 kl. 10.43 (CEST)Svara

Kommatering i Index:(1737) Nordiska Kämpa Dater.djvu

[redigera]

I fraktur skrivs ett komma med ett tecken liknande " / ". Detta motsvaras dock alltid av ett komma i antikva, och bör väl därmed också korrekturläsas som ett komma när texten omvandlas till antikva. Jag tänker därför byta ut alla snedstreck med komman i den korrekturlästa texten. Mårtensås (diskussion) 6 september 2024 kl. 20.39 (CEST)Svara

Om du kollar Wikipedia så heter det att "I tidiga trycktexter motsvaras kommatecken ofta av virgula, som ser ut som ett modernt snedstreck." Eller på engelska sidan: "The mark used today is descended from a /, a diagonal slash known as virgula suspensiva, used from the 13th to 17th centuries to represent a pause." Alltså är det inte bara fraktur, men också andra äldre typsnitt som använder ett / som komma. Och precis som vi ska undvika de gamla "långa ess" ( ſ ) när vi korrekturläser, så tycker jag att vi skall byta ut dem alla med ett komma. (Alltså håller jag med!) Bio2935c (diskussion) 6 september 2024 kl. 22.09 (CEST)Svara

Försöker skapa en ny bok (igen)

[redigera]

Jag försöker än en gång skapa en bok att renskriva. Den här gången bilderboken Kattresan från 1909 av Ivar Arosenius. Jag har stött på två saker jag inte vet hur jag ska lösa.

Det ena är att Literaturbanken där jag hämtade PDF:en ifrån lagt till en extrasida i början av PDF:en, som ni kanske ser här till höger. Hur tar man bort den? Adobe verkar vilja ha pengar för detta..

Det andra är att boken dels inte har någon ingress och dels inte har numrerade sidor. Hur ska detta hanteras på den nu skapade indexeringssidan: Index:Kattresan av Ivar Arosenius (1909).pdf? Jag kan ju inte gärna hitta på en numrering, eller ska jag skriva innehåll eller text istället för sidnummer? Sabelöga (diskussion) 25 september 2024 kl. 03.00 (CEST)Svara

Extra sidan? Det finns väl ett flertal verktyg online som du kan använda för att skilja det du vill ha kvar från det du inte vill ha. T.ex. www.ilovepdf.com (Split PDF). Sedan får du ladda up den till Commons igen, men bara den delen som du vill ha kvar förstås.
Och om du har problem med att se filen efteråt (Index-sidan visar nåt konstigt fel, t.ex.), kan du försöka med: https://commons.wikimedia.org/w/index.php?title=File:Kattresan_av_Ivar_Arosenius_(1909).pdf&action=purge Det har räddat mig ett par gånger.

Sidnumreringen? Du kan hitta på en numrering. Här är en hel bok (40 sidor) helt utan sidnummer. Rekommendationen jag hittade (någonstans på engelska wikisource tror jag) sa att man borde använda små romerska nummer (så det gjorde jag) och det går väl bra nog.

ps: Har du en plan vad du skall göra med alla bilderna? Om du inte gör nånting så fattas de så klart från det transkluderade verket. :-( Och det blir jobbigt att klippa ur dem alla. :-( Bio2935c (diskussion) 25 september 2024 kl. 06.47 (CEST)Svara
Jag använde ilovepdf.com för att först bryta upp PDF-filen i JPEG-bilder, sedan satte jag ihop bilderna till en ny PDF fast utan första sidan. Nu har jag laddat upp den som en ny version på Commons; fast just nu verkar det vara det vanliga cache-problemet med just denna fil. Thuresson (diskussion) 25 september 2024 kl. 19.11 (CEST)Svara
Det verkar som att @Thuresson räddade mej med den extra sidan. Tack! Ska försöka komma ihåg i framtiden att det faktiskt verkar finnas gratisverktyg för detta. Själv hittade jag bara verktyg som ville ta betalt för just den "premiumåtgärden".
Angående numreringen har jag hittat på en numrering med start på 1. Vid den första sidan med innehåll. Tycker det kändes lämpligast och enklast. Både för mej och förhoppningsvis läsaren.
Tja, bilderna får jag väll helt enkelt ta en dag och klippa ur och ladda upp på Commons och klistra in i boken. Precis som jag gjorde med Jul-Kalender 1887 (som jag för övrigt inte är helt klar med än). Det får ta sin tid kanske tänker jag. Eller finns det något enklare sätt att göra på? Sabelöga (diskussion) 26 september 2024 kl. 01.01 (CEST)Svara
Blev klar redan inatt :) Vad tycks? Kattresan La till boken också på framsidan. Klippte förresten manuellt ut alla bilder från PDF:en, laddade upp dom i en stor klump och la in dom manuellt med olika storlek beroende på storlek i boken. Sabelöga (diskussion) 26 september 2024 kl. 03.02 (CEST)Svara

Läser inte in bild

[redigera]

Sedan ett par dagar får jag inte upp bilden på den inscannade sidan. Efter att "timglaset" snurrat ett tag, så dyker felmeddelandet: "Wikimedia Foundation. Error. Too Many Requests" upp. Jag har prövat på andra verk, och det är samma sak. Jag kan klicka på "Transkribera" och texten läses då in, men jag kan inte se sidan och verifiera den inlästa texten. Nu använder jag Edge och det har fungerat hittills. Har någon något förslag på hur jag kan åtgärda detta? Som tur är har jag f. n. tillgång till en alternativ pdf-fil, men det håller ju inte i längden. Verket som jag arbetar med nu är Index:Svenska fornminnesföreningens tidskrift (IA svenskafornminne12sven).pdf. Gottfried Multe (diskussion) 5 oktober 2024 kl. 09.49 (CEST)Svara

Enbart att beklaga sig verkar ha hjälp, för nu fungerar det igen. --Gottfried Multe (diskussion) 6 oktober 2024 kl. 09.41 (CEST)Svara
Jag hade samma problem igår, 8 oktober. Men idag fungerar det som det ska. Thuresson (diskussion) 9 oktober 2024 kl. 16.21 (CEST)Svara
Meddelandet säger: "Wikimedia ... Too Many Requests". Alltså är problemet på Wikimedia, inte hos dig. Det är helt enkelt alltför många världen runt som vill se deras egna bilder precis då. Om du väntar tills en mindre populär tid så går det nog bättre. Eller tills Wikimedia köper en större server. Bio2935c (diskussion) 9 oktober 2024 kl. 22.02 (CEST)Svara

Slinta på OCR-knappen

[redigera]

Jag satt och korrekturläste en sida och hade kommit ganska långt då jag råkade slinta på knappen för att "transkribera text". Vips, så var mina redigeringar raderade och ersatta med en ny fräsch OCR-text. Detta är inte acceptabelt. Att tömma textfältet måste föregås av en varning och bekräftelse från användarens sida. Vi lever ju ändå i året 2024, inte 2004. LA2 (diskussion) 9 oktober 2024 kl. 15.59 (CEST)Svara

Men överst på redigeringsrutan står det ju då också "Ångra transkriberingen". Och om du klickar på det så kommer ditt original tillbaka. Funkar det inte för dig?? Bio2935c (diskussion) 9 oktober 2024 kl. 21.55 (CEST)Svara
Den länken såg jag inte när jag blev superstressad av att mina redigeringar var raderade. Detta är feldesignat. Gör om, gör rätt. --LA2 (diskussion) 10 oktober 2024 kl. 01.56 (CEST)Svara

Special:LintErrors/duplicate-ids

[redigera]

På specialsidorna finns det nu många Lint-fel i en ny kategori som kallas Duplicate-ids. Jag ser att många av sidorna har ett problem med ett duplicate id som kallas pr_page. Detta span id verkar komma från MediaWiki:Proofreadpage_pagenum_template. Jag förstår inte var det duplicate id kommer ifrån eller hur man kan fixar det. Är det någon som kann hjälpa mig med det? Tack.

https://sv.wikisource.org/wiki/MediaWiki:Proofreadpage_pagenum_template

<span id="pr_page" class="OptionText" title="länkar till inskanningar"> PWidergren (diskussion) 11 oktober 2024 kl. 00.04 (CEST)Svara

Det är den mallen som styr hur sidnumren (i vänsterspalten) ser ut när sidorna transkluderas till huvudnamnrymden. Idag sätter den ett två hårdkodade id-attribut pr_page samt zzz på det objektet vilket är fel då id ska vara unikt för vart objekt på en webbsida och sidnummermallen används flera gånger per sida i huvudnamnrymden.
Det går att plocka bort dessa två icke-unika id (eller ändra dem från id till class), men frågan är om någon funktionalitet (finess eller dyl.) utgår från att de är där som just id?
Ska man ändå peta i den mallen kan det vara värt att slänga ett öga på en:MediaWiki:Proofreadpage pagenum template som löst det lite annorlunda och lägger till ytterligare data på sidnumret. /Lokal_Profil 13 oktober 2024 kl. 00.07 (CEST)Svara
Jag kan inte hitta någon finess eller användarscript som använder "zzz" eller "pr_page". Om inte @Thurs vet med sig att de används av någon särskild anledning så borde det vara säkert att uppdatera och bara ta bort dem. /Lokal_Profil 17 oktober 2024 kl. 19.59 (CEST)Svara

Ogiltigt intervall

[redigera]

Jag skapade Index:Arbetaren 1870-07-23.pdf, men listan med sidnummer får ett felmeddelande. Varför? LA2 (diskussion) 8 november 2024 kl. 18.25 (CET)Svara

Några minuter senare fungerade det. Kanske någon process som behövde tugga klart. --LA2 (diskussion) 8 november 2024 kl. 18.29 (CET)Svara
Den här PDF-filen har ganska bra upplösning, men vid korrekturläsning på Wikisource är den grynig och svårläst. Skapas OCR-texten ur den gryniga bilden, så förstår man att den blir ganska dålig. Hur får jag se bilden i originalskick? --LA2 (diskussion) 8 november 2024 kl. 22.11 (CET)Svara
Vet inte varför, men ... det händer. Det första jag försöker är att "purge"a nånting på Commons; antagligen kommer de ihåg för mycket.
https://commons.wikimedia.org/w/index.php?title=File:IndexFilnamnetHär.pdf&action=purge
Har alltid funkat för mig. Bio2935c (diskussion) 9 november 2024 kl. 04.26 (CET)Svara

Ersätta inskannad fil

[redigera]

Hej alla. Jag har stött på en handfull index det jag funderat på att ersätta den inskannade filen. Antingen för att filen är av riktigt låg kvalité (tidig Google books) eller för att indexet enbart innehåller delar av verket.

Min fråga är om det finns en standardrekommendation för dessa situationer, samt om det finns nått verktyg för att flytta de transkriberade sidorna om antalet sidor i den skannade filen ändras, eller om rekommendationen är att ladda up filen under ett nytt namn. / Lokal_Profil 17 november 2024 kl. 19.23 (CET)Svara

För att ge två konkreta exempel:
Att ersätta en fil med en nyinskanning är inte särskilt krångligt om man håller sig till samma antal sidor på samma plats eller om den enda ändringen är att man lägger till sidor i slutet, det gjorde jag med Index:En studie i rött 1918.djvu en gång. Betydligt mer komplicerat är om sidor ska flyttas eller nya sidor infogas i ett verk som redan är korrekturläst. Jag känner inte till att någon har försökt sig på detta och vad jag vet finns det inget verktyg - med ett omfattande index med många korrekturlästa sidor skulle det nog innebära många timmars pillande för att få allt rätt. Thuresson (diskussion) 17 november 2024 kl. 21.43 (CET)Svara

Hjälp med Johan Winbergs Kok-Bok

[redigera]

Transkribering av Johan Winbergs Kok-Bok är nu färdig. Lite grundläggande kommentarer och förslag till uppdelning av recepten i kapitel finns nu. Den som är intresserad, kom gärna med inspel om uppdelning, formulering av kommentarer, etc.

Jag är inge bra när det kommer till att formatera tabeller så jag uppskattar verkligen assistans på den punkten: Johan Winbergs Kok-Bok/tabell. Peter Isotalo 23 november 2024 kl. 12.20 (CET)Svara

Någon form av innehållsförteckning vore bra och om det inte finns någon användbar i boken så är det väl inte så svårt att skapa en egen och lägga på bokens förstasida. Thuresson (diskussion) 23 november 2024 kl. 13.05 (CET)Svara
Bra input. Har lagt upp en enklare grundplåt. Peter Isotalo 24 november 2024 kl. 17.57 (CET)Svara

Status för OCR för svensk fraktur

[redigera]

Jag skulle vilja kolla hur det står till med vår OCR på fraktur på svenska. För min del är jag främst intresserad av tillämpning på tryck från före cirka 1800. En sak som jag känner drar ner på mitt engagemang här är ju att det känns så otroligt ineffektivt. Ibland undrar jag för mig själv om det ens går snabbare med OCR än att jag gör allt själv från scratch. Min upplevelse är att det är väldigt mycket tid som går åt till pilligt efterarbete.

Jag provade att köra den färgglada Google-knappen och fick det här resultatet i en slumpvis vald sida i en kokbok från 1737. Efter en ganska enkel manuell rensning och lite radbrytning som inte kräver mycket till tankearbete så krävs ändå så här mycket manuell handpåläggning.

Finns det något sätt att minska på mängden manuell insats? Tänker t.ex. att kunna köra OCR på stora sjok av sidor eller att sök-och-ersätta på återkommande fel som att "låt" ska vara "lät", "skår" -> "skär", "wål" -> "wäl".

Eller kanske off-wiki som man kan köra äldre verk på fraktur igenom och sen lägga in här? Peter Isotalo 24 november 2024 kl. 20.40 (CET)Svara

Håller med om att det är otillfredsställande. Det jag använder är Wikimedia OCR med Google som motor och språk angivet till svenska, men det behövs en del justeringar vid korrekturläsning.
En möjlig lösning vore att träna en Transkribus-modell på svensk fraktur. Vi har ju gott om korrekturlästa texter här som skulle kunna användas som träningsdata. Jag tror att man skulle få till en förbättring redan med något 100-tal sidor träningsdata om man använder den generella modellen för tryckt text som utgångspunkt för träningen. Belteshassar (diskussion) 7 december 2024 kl. 17.06 (CET)Svara
Är detta ett unikt svenskt problem, så borde Wikimedia Sverige engagera sig. Men det är väl ett globalt problem att OCR är halvdålig? Alltså snarare ett område för Wikimedia Foundation eller en koalition av några stora föreningar (Deutschland, France). Hur gör franska och tyska Wikisource? Har de bra OCR för sina språk? --LA2 (diskussion) 11 december 2024 kl. 13.53 (CET)Svara

Zoner

[redigera]
Zoner (spalter) markerade i Finereader.

Följande är relaterat till ovanstående, så jag gör en underrubrik.

Den kommersiella OCR-programvaran Finereader, som jag brukar använda, delar in textsidan i zoner (spalter, kolumner, områden) och sedan OCR-tolkas varje zon. Allt kan göras automatiskt, men man kan också manuellt kontrollera varje steg. Genom att manuellt kontrollera zonerna, undviker man att den läser långa rader tvärs över två spalter, vilket spar mycket arbete vid korrekturläsningen. Den fria programvaran Tesseract delar förstås också upp textsidan i zoner innan texten tolkas i varje zon, men vanligen redovisas inte zonindelningen, utan man får bara en resulterande text. Jag tycker att Wikisource / ProofreadPage borde vidareutvecklas för att redovisa zoner. Finns det några förebilder för detta, någon fri programvara som tar vara på zonindelningen från Tesseract och låter användaren justera dessa, innan man går vidare med texttolkning? --LA2 (diskussion) 11 december 2024 kl. 14.04 (CET)Svara