Pomoc: O wikiúdajoch
Wikiúdaje sú slobodný zdroj vedomostí, čitateľných ľuďmi i strojmi. Je to jeden z mnohých wiki-projektov, financovaných a riadených Wikimedia Foundation, neziskovou organizáciou, zameriavajúcou sa na voľne kopírovateľné údaje, obrázky a pod., najviac asi známou vďaka Wikipédii. Každý z Wikimedia projektov má vlastné zameranie, napríklad Wikipédia slúži pre encyklopedické údaje, Wikislovník pre výrazy a ich definície, synonymá a pod. Zameraním Wikiúdajov sú štruktúrované údaje.
Táto stránka je celkovým prehľadom štruktúrovaných údajov. Pokiaľ ste sa s nimi už niekedy zoznámili, ale chcete sa naučiť viac o ich špecifickom využití na wikiúdajoch, ako vidieť a využiť tieto údaje, alebo ako prispieť vlastnými, prosím prejdite na časť o prepájaní údajov.
Ako porozumieť wikiúdajom
Štruktúrované údaje pochádzajú z údajov, ktoré už boli uložené (väčšinou na niektorom inom projekte Wikimedia), no sú opäť uložené v podobe, v ktorej je zakódovaný ich zmysel a vzťahy medzi týmito údajmi.
Mimochodom, čo sú to údaje? A prečo by ste sa mali zaujímať najmä o štruktúrované údaje?
Definícia údajov
Veľké údaje, experimentálne údaje, voľné údaje, metaúdaje - možno ste sa s týmito pojmami už niekedy stretli.
Každý tento pojem má trochu odlišný význam, ale všetky sú postavené na spoločnom chápaní údajov a ich funkcii - opisovaní okolitého sveta a pomoci nám ho pochopiť.
Údaje môžu byť vlastne chápané i ako pôvodca informácií, pretože informácie môžu byť získané z údajov.
Toto funguje, pretože keď údaje zredukujeme do ich základnej podoby, predstavujú len súhrn krátkych vedomostí o veciach. Tieto vedomosti môžu byť kvantitatívne (ako napríklad hmotnosť a pod.), ako i kvalitatívne (farba...). Napríklad môžeme povedať, že Mount Everest je vysoký 8,848 metrov, čím vyjadríme kvantitatívny údaj, alebo o aute môžeme povedať, že je červené, čím vyjadríme kvalitatívny údaj.
Ako je spomenuté vyššie, informácia nie je to isté, ako údaj, ale výsledok zbierania a analýzy údajov. Napríklad 8,848 (údaj) je len bezvýznamné číslo, pokiaľ nevieme, že ide o výšku hory; môžeme však povedať Mount Everest je so svojou výškou 8,848 metrov nad morom najvyšším vrchom sveta (informácia), pokiaľ poznáme štandardné jednotky dĺžky a poznáme výšky iných vrchov sveta. Je omnoho jednoduchšie uzatvárať takéto závery, mať nové postrehy, vedomosti a uzákoňovať fakty, ak sú naše údaje štruktúrované - k tejto myšlienke sa ešte vrátime.
Kde sú údaje?
Údaje sú všade okolo nás. Existuje mnoho ich zdrojov, vrátane zdrojov finančných, biologických a sociálnych údajov. Aj táto stránka má údaje! Má napríklad, celkový počet slov, dátum kedy bola vytvorená, i dátumy posledných úprav, tému a obsah, počet prezretí a jazyky, v ktorých je dostupná.
Každopádne, i keď môže byť zdrojom údajov teoreticky úplne čokoľvek, údaje, ktoré nie sú uložené a primerane usporiadané vlastne neexistujú. Bez materskej štruktúry sa údaje zas objavujú nezmyselne a v konečnom dôsledku i tak podávajú bezhodnotné informácie.
Usporiadaním údajov sa myslí kategorizácia podľa vopred zavedených a jednoznačných modelov. Usporiadané a kategorizované údaje sú to, čo chápeme pod údajmi štruktúrovanými.
Kde je tá stále spomínaná štruktúra?
Na internete štruktúra vlastne vládne. Drvivá väčšina webstránok je vytvorená pomocou HTML, jednoduchého programovacieho jazyka, ktorý umožňuje základnú tvorbu (tvorbu štruktúry) webstránok.
Programovacie jazyky sú tiež používané na označovanie a opisovanie obsahu stránok, takže ich vyhľadávacie nástroje, boty, a aplikácie ako RSS feeds dokážu lepšie nájsť, spracovať a porozumieť im. Napríklad <title>
označenie hovorí týmto botom a aplikáciam ako sa daná stránka volá.
Okrem pomoci s štruktúrou a zdieľanými elementami webstránky Wikiúdaje poskytujú štruktúru pre všetky vedomosti obsiahnuté vo Wikipédii i v ostatných Wikimedia projektoch. Zvládajú to vďaka softvéru Wikibase, bez ktorého by vlastne nemohli fungovať. Štruktúra nie je priamo pridávaná do Wikipédie, alebo do ostatných stránok projektu Wikimedia, ani nevyžaduje od užívateľov Wikiúdajov žiadne informácie o programovacích jazykoch, schémach údajov ani nič podobné, ale údaje sú sem pridávané pomocou jednoduchých a ľahko používateľných ukladacích formulárov.
All data stored on Wikidata can be used to generate all kinds of automated and up to date lists or tables or other structured pages in any Wikimedia site or elsewhere.
Údaje vrchov | ||
---|---|---|
Vrchy | Vlastnosť | Hodnoty |
Mount Everest | height | 8,848 m |
K2 | hauteur | 8,611 m |
Kanchenjunga | height | 8,586 m |
Lhotse | height | 27940 ft |
Štruktúrovanie údajov
Pre ukážku dôležitosti štruktúry údajov, pozrime sa na Tabuľku 1. V tejto tabuľke vidíme údaje o štyroch najvyšších vrchoch sveta. Pokiaľ chceme vedieť konkrétny údaj, napríklad výšku druhého najvyššieho vrchu sveta, stačí sa nám pozrieť na hľadaný údaj a na jeho hodnotu. Každopádne, tri zo štyroch vrchov majú vlastnosť zapísanú v Anglickom jazyku (height=výška) a jeden v jazyku francúzkom (hauteur=výška). Takisto len tri hodnoty sú v metroch. No zatiaľ čo my možno porozumieme tým „height“ a „hauteur“ a tým metrom a stopám, stroj, rovnako ako softvér nie.
Bolo by, prirodzene, pre ľudí i stroje omnoho jednoduchšie spracovať informácie, ako i odpovedať na našu otázku o najvyššom vrchu na Zemi, pokiaľ by všetky základné údaje boli uložené v podobnej forme, i keď sa prezentácia vlastne líši.
„Modelovanie“ údajov
Zbierka štruktúrovaných údajov, akou sú Wikiúdaje je organizovaná pomocou „modelu údajov“. Modely údajov sú čitateľné pre stroje (v origináli „machine-readable“), čo znamená, že im rozumejú počítače. I keď sú počítače veľmi energické, nie vždy sú také šikovné ako my, najmä keď príde na základné odôvodňovanie. Ako napríklad vo vyššie spomenutom príklade, počítač nie je schopný pochopiť, že „height“ a „hauteur“ znamená to isté, i keby ste mu to už niekedy povedali.
-
vec:"Zem"
-
vlastnosť:"najvyšší bod"
-
hodnota:"Everest"
Údaje vrchov | ||
---|---|---|
Vrch | Vlastnosť | Hodnota |
Mount Everest | continent | Asia |
K2 | continent | Asia |
Kanchenjunga | continent | Asia |
Lhotse | continent | Asia |
Modely údajov sa líšia v závislosti od potreby analýzy týchto údajov, rozsahu a koncepčného rámca súboru, ako i technických požiadaviek systému. Každopádne, všetky modely údajov zvyčajne určia, ktorý druh údajov je systémom podporovaný, a ktoré spojenia medzi nimi dokáže tento pochopiť. Napríklad, model údajov dokáže určiť, aby „height“ a „hauteur“ boli prepojené, aby systém pochopil, že oba reprezentujú jeden pojem, alebo aby hodnoty v stopách boli automaticky premenené na metre. Model údajov z Wikiúdajov udáva spôsob, ktorým môžu byť údaje pridávané a upravované priamo pužívateľmi. Wikiúdaje sa tak rozvíjajú pomocou ľudí,ktorí v priebehu času pridávajú stále viac údajov.
Modely údajov tiež v podstate prekladajú určité vzorce, nájditeľné v ľudskej reči do niečoho, pochopiteľného aj pre počítače. Napríklad po slovensky povieme: „Mount Everest je najvyšší vrch sveta.“ Toto je tá pôvodná forma, akú nájdeme na Wikipédii, ako i na ostatných Wikimedia projektoch, no počítače z nej nič nemajú, pretože jej jednoducho nepochopia.
Vo Wikiúdajoch, túto informáciu nájdeme ako informáciu, ktorá obsahuje pár vlastnosť-hodnota, podľa vzorca:
Earth (Q2) (vec) → highest point (P610) (vlastnosť) → Mount Everest (Q513) (hodnota)
Okrem toho, Wikiúdaje tiež obsahujú informáciu o položke (vyššie ako „vec“) „Mount Everest“ (hovoriacu, že ide o vrch - anglicky „mountain“):
Mount Everest (Q513) (vec) → instance of (P31) (vlastnosť) → mountain (Q8502) (hodnota)
Note that because other items can be used as the values for statements, and all items have their own unique page on Wikidata, this means that all items in the system can be linked together through a series of statements. Because Wikidata uses a machine-readable format, this interlinking of data allows new relationships and connections to be discovered and processed by machines. For example, in Table 2 we see new data for our mountains, this time about their geographical location by continent but nothing about their heights. Assuming this continent data was linked to the mountain height data, we would feel more confident making predictions or drawing certain conclusions about it, like saying that Asia is home to the world's highest mountains.
„Prepájanie“ údajov
Besides being a collection of structured data, Wikidata also supports linked data. Linked data refers to the practice of publishing structured data so that it can be interlinked.
For Wikidata this means that volunteer-contributed data can also be linked to other datasets, databases, and data sources from all around the web and from diverse initiatives outside of the Wikimedia family. For example, Wikidata currently allows interlinking with datasets and databases as diverse as Google Books, Canmore (one of the Historic Environment Scotland databases), the Vatican Library, OmegaWiki, and MusicBrainz.
By following linked data principles and practices, Wikidata is also able to support and be used by other projects.
Linked data principles
Wikidata uses unique identifiers, or uniform resource identifiers (URIs), for all its items as per linked data standards.
While Wikidata uses a unique data model, its content can be exported in RDF, a widely used and standard format for linked data. In Wikidata terms, a statement is composed of an item and a property-value pair. For those familiar with linked data concepts, an item can be viewed as the subject part of a triplet; the property represents a triplet's predicate; and a value is used to express the object of a triplet.
However, Wikidata statements may also contain elements beyond the subject-predicate-object, such as references and qualifiers (for more information, see Help:Statements). This makes it complicated to fully represent Wikidata's content using the language of RDF—more information on these challenges can be found in the document "Introducing Wikidata to the Linked Data Web".
Prispievanie na Wikiúdaje
If you have datasets you would like to contribute to Wikidata, please see Wikidata:Data donation.
Pre prístup k údajom
The data in Wikidata is published under the Creative Commons Public Domain Dedication 1.0, allowing the free reuse of the data. You can copy, modify, distribute and perform the data, even for commercial purposes, all without asking permission.
See Data access for details about the different ways to programmatically access Wikidata's data.
Pozri aj
Pre podobné stránky:
Pre ďalšie informácie:
- Project chat, for discussing all and any aspects of Wikidata
- Wikidata:Glossary, the glossary of terms used in this and other Help pages
- Help:FAQ, frequently asked questions asked and answered by the Wikidata community
- Help:Contents, the Help portal featuring all the documentation available for Wikidata