wikipedia-dump

Here are 77 public repositories matching this topic...

pirate / wikipedia-mirror

🌐 Guide and tools to run a full offline mirror of Wikipedia.org with three different approaches: Nginx caching proxy, Kiwix + ZIM dump, and MediaWiki/XOWA + XML dump

html docker nginx wiki docker-compose mediawiki wikipedia archiving datascience kiwix zim wikipedia-dump wikipedia-mirror openzim xowa internet-archiving mwdumper kiwix-offline-wikipedia

Updated Apr 7, 2021
Shell

yohasebe / wp2txt

Star

A command-line toolkit to extract text content and category data from Wikipedia dump files

ruby nlp machine-learning wikipedia corpus wikipedia-dump

Updated May 13, 2023
Ruby

howl-anderson / chinese-wikipedia-corpus-creator

Sponsor

Star

Corpus creator for Chinese Wikipedia

nlp wikipedia-dump wikipedia-corpus chinese-corpus

Updated Jun 30, 2021
Python

uma-pi1 / OPIEC

Star

Reading the data from OPIEC - an Open Information Extraction corpus

nlp natural-language-processing wiki wikipedia corpus information-extraction dataset corpora corpus-data nlp-resources wikipedia-dump corpus-tools natural-language-understanding open-information-extraction dataset-interface wikipedia-corpus corpus-processing nlp-datasets

Updated Jun 12, 2019
Java

pvoosten / explicit-semantic-analysis

Star

Wikipedia-based Explicit Semantic Analysis, as described by Gabrilovich and Markovitch

java vector java-8 concept lucene esa wikipedia-dump semantic-analysis explicit-semantic-analysis

Updated May 13, 2020
Java

dlenski / wp2git

Star

Downloads and imports Wikipedia page histories to a git repository

git mediawiki wikipedia-dump

Updated Dec 14, 2024
Python

shyamupa / wikidump_preprocessing

Star

Extracting useful metadata from Wikipedia dumps in any language.

multilingual redirects wikipedia python3 disambiguation wikipedia-dump metadata-extraction wikiextractor

Updated Sep 20, 2019
Python

AdyTech99 / volo

Star

An F/OSS solution combining AI with Wikipedia knowledge via a RAG pipeline

natural-language-processing ai wikipedia wikipedia-dump language-processing rag retrieval-augmented-generation

Updated Jan 12, 2025
Python

macbre / mediawiki-dump

Star

Python package for working with MediaWiki XML content dumps

python wikipedia wikia wikipedia-dump fandom python3-library wikipedia-corpus xml-dump mediawiki-dump

Updated Jan 14, 2025
Python

lemire / IndexWikipedia

Sponsor

Star

A simple utility to index wikipedia dumps using Lucene.

java lucene wikipedia-dump

Updated Oct 13, 2020
Java

Dr-Lego / gag-network

Star

Network Visualizer for the 'Geschichten aus der Geschichte' Podcast

javascript python data-science database podcast wikipedia data-visualization sqlite3 network-analysis wikipedia-dump

Updated Nov 25, 2024
Python

OlehOnyshchak / pyWikiMM

Star

Collects a multimodal dataset of Wikipedia articles and their images

Updated Mar 25, 2023
Python

jon-edward / wiki_dump

Star

A library that assists in traversing and downloading from Wikimedia Data Dumps and their mirrors.

wikipedia wikidata wikimedia wikipedia-dump

Updated Dec 17, 2024
Python

akb89 / witokit

Star

A Python toolkit to generate a tokenized dump of Wikipedia for NLP

multilingual nlp wikipedia dump wikipedia-dump tokenize

Updated May 3, 2024
Python

tomer8007 / wikipedia-to-json

Star

Node.js module for parsing the content of wikipedia articles into javascript objects

nodejs javascript parser json wikipedia wikipedia-dump

Updated Oct 24, 2021
JavaScript

wolfgarbe / WikipediaExport

Star

Convert Wikipedia XML dump files to JSON or Text files

wikipedia wikipedia-api wikipedia-page wikipedia-dump wikipedia-search wikipedia-corpus wikipedia-entries

Updated Sep 23, 2020
C#

qcl / master-research

Star

Research for master degree, operation projizz-I/O

nlp knowledge-graph named-entity-recognition wikipedia-dump patty kba yago

Updated Dec 27, 2017
Python

CristianCantoro / wikidump-download-tools

Star

Scripts to download the Wikipedia dumps (available at https://dumps.wikimedia.org/ )

wikipedia wikipedia-dump

Updated Apr 19, 2024
Shell

quqixun / ReadWiki-ZH

Star

Convert WIKI dumped XML (Chinese) to human readable documents in markdown and txt.

wikipedia wikipedia-dump wikipedia-corpus

Updated Mar 25, 2020
Python

DhavalTaunk08 / Wiki-Search-Engine

Star

Contains code to build a search engine by creating an index and perform search over Wikipedia data.

search-engine information-retrieval information-extraction xml-parser wikipedia-dump

Updated Oct 11, 2021
Python

Improve this page

Add a description, image, and links to the wikipedia-dump topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the wikipedia-dump topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

wikipedia-dump

Here are 77 public repositories matching this topic...

pirate / wikipedia-mirror

yohasebe / wp2txt

howl-anderson / chinese-wikipedia-corpus-creator

uma-pi1 / OPIEC

pvoosten / explicit-semantic-analysis

dlenski / wp2git

shyamupa / wikidump_preprocessing

AdyTech99 / volo

macbre / mediawiki-dump

lemire / IndexWikipedia

Dr-Lego / gag-network

OlehOnyshchak / pyWikiMM

jon-edward / wiki_dump

akb89 / witokit

tomer8007 / wikipedia-to-json

wolfgarbe / WikipediaExport

qcl / master-research

CristianCantoro / wikidump-download-tools

quqixun / ReadWiki-ZH

DhavalTaunk08 / Wiki-Search-Engine

Improve this page

Add this topic to your repo