#

wikipedia-dump

Here are 72 public repositories matching this topic...

macbre / faroese-corpus

Some Faroese language statistics taken from fo.wikipedia.org content dump

linguistics corpus-linguistics python3-script wikipedia-dump wikipedia-corpus linguistic-analysis faroe faroese faroese-language

Updated Dec 8, 2022
Python

VityaSchel / wikipedia-speedrun

Website with interactive game, where you have to travel from random page on Wikipedia to Adolf Hitler's page (or any page specified by you in settings).

wikipedia speedrun wikipedia-api wikipedia-dump wikipedia-scraper wikipedia-speedrun

Updated Aug 1, 2022
HTML

priyendumori / Wiki-Search-Engine

A complete search engine experience built on top of 75 GB Wikipedia corpus with subsecond latency for searches. Results contain wiki pages ordered by TF/IDF relevance based on given search word/s. From an optimized code to the K-Way mergesort algorithm, this project addresses latency, indexing, and big data challenges.

search-engine indexing wikipedia-dump ranking-algorithm external-merge-sort tf-idf-score

Updated Sep 12, 2019
Python

SLotAbr / WikiFilms

Russian Wikipedia movie parser

web-scraping wikipedia-dump wikipedia-scraper

Updated Jan 31, 2022
HTML

ramkishore07s / WikiSearchEngine

Index and Search wikiDump

python java search-engine indexing wikipedia-dump

Updated Sep 18, 2018
Java

alicebob / wikiundump

unpack wikipedia XML dumps to files

Updated Sep 29, 2016
Go

rajatyadav1994 / Wise--WikiPedia-Search-Engine

A Search Engine built based on Wikipedia dump of 75GB. Involves creation of Index file and returns search results in real time

search-engine wikipedia-dump wikipedia-corpus infomation-retrieval

Updated Nov 2, 2019
Python

samuelebortolotti / wikidump-lang-breaks-warns

Framework for the extraction of features from Wikipedia XML dumps.

python wikipedia-dump aho-corasick-algorithm gnu-parallel wikipedia-scrapper

Updated Aug 16, 2021
Python

EML4U / WikimediaDumpExtractor

WikimediaDumpExtractor extracts pages from Wikimedia/Wikipedia database backup dumps.

wikipedia-dump wikimedia-data-dump

Updated Oct 14, 2021
Java

MatiasCarabella / formula1WikipediaDataRetriever

Generates a JSON file with F1 Driver stats from a given year based on its wikipedia page

python-script wikipedia-dump

Updated Mar 26, 2023
Python

SasCezar / WikiBank

WikiBank is a new partially annotated resource for multilingual frame-semantic parsing task.

multilingual python mongodb dataset wikipedia-dump wikidata-dump semantic-role-labeling semantic-role

Updated Dec 2, 2019
Python

afuschetto / wiki-extractor

Command line tool to extract plain text from Wikipedia database dumps

wikipedia wikipedia-dump wikipedia-corpus

Updated Feb 25, 2021
Python

kaczla / wikititle

wikititle - script for printing list all Wikipedia title in few language

ruby linux translation wiki wikipedia extract bash-script title wikipedia-dump

Updated Feb 11, 2018
Shell

foxsquad / wikidump

Updated Jun 20, 2019
Python

temurchichua / MagicDumpWikipedia

Wikipedia archive downloader+text parser for every language

python nlp wikipedia wikipedia-dump

Updated Sep 11, 2020
Shell

patniharshit / Wikipedia-Search-Engine

python information-retrieval wikipedia-dump serach-engine

Updated Sep 24, 2017
Python

studerw / wiki-dump-parser

Java tool to Wikimedia dumps into Java Article pojos for test or fake data.

java wiki wikipedia wikipedia-dump fake-data wikiextractor

Updated Dec 5, 2023
Java

dhanavasanth / Inequality-contribution-in-wikipedia

Python | Pandas | Wikipedia | Analysis | Contribution | Gini-Coefficient | Lorenz curve

visualization wikipedia python-script pandas matplotlib dataframe wikipedia-dump gini-coefficient lorenz-curve wikipedia-statistics

Updated Jun 28, 2023
Jupyter Notebook

ALSAREM / word2vec-model-generation

Use the Word2Vec proposed by Google to train models (vectors) to be used in any word2vec application.

word2vec word2vec-model wikipedia-dump word2vec-algorithm

Updated Jan 15, 2018
Python

rsakib15 / WikiSearch

A search system based on the Wikipedia dump dataset.

python search search-engine reactjs wikipedia fuzzy-search indexing searching-algorithms search-algorithms wikipedia-dump

Updated Jun 20, 2021
Python

Improve this page

Add a description, image, and links to the wikipedia-dump topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the wikipedia-dump topic, visit your repo's landing page and select "manage topics."