wikipedia-dump

Here are 72 public repositories matching this topic...

macbre / faroese-corpus

Some Faroese language statistics taken from fo.wikipedia.org content dump

linguistics corpus-linguistics python3-script wikipedia-dump wikipedia-corpus linguistic-analysis faroe faroese faroese-language

Updated Dec 8, 2022
Python

priyendumori / Wiki-Search-Engine

Star

A complete search engine experience built on top of 75 GB Wikipedia corpus with subsecond latency for searches. Results contain wiki pages ordered by TF/IDF relevance based on given search word/s. From an optimized code to the K-Way mergesort algorithm, this project addresses latency, indexing, and big data challenges.

search-engine indexing wikipedia-dump ranking-algorithm external-merge-sort tf-idf-score

Updated Sep 12, 2019
Python

SLotAbr / WikiFilms

Star

Russian Wikipedia movie parser

web-scraping wikipedia-dump wikipedia-scraper

Updated Jan 31, 2022
HTML

ramkishore07s / WikiSearchEngine

Star

Index and Search wikiDump

python java search-engine indexing wikipedia-dump

Updated Sep 18, 2018
Java

rajatyadav1994 / Wise--WikiPedia-Search-Engine

Star

A Search Engine built based on Wikipedia dump of 75GB. Involves creation of Index file and returns search results in real time

search-engine wikipedia-dump wikipedia-corpus infomation-retrieval

Updated Nov 2, 2019
Python

MatiasCarabella / formula1WikipediaDataRetriever

Star

Generates a JSON file with F1 Driver stats from a given year based on its wikipedia page

python-script wikipedia-dump

Updated Mar 26, 2023
Python

afuschetto / wiki-extractor

Star

Command line tool to extract plain text from Wikipedia database dumps

wikipedia wikipedia-dump wikipedia-corpus

Updated Feb 25, 2021
Python

kaczla / wikititle

Star

wikititle - script for printing list all Wikipedia title in few language

ruby linux translation wiki wikipedia extract bash-script title wikipedia-dump

Updated Feb 11, 2018
Shell

foxsquad / wikidump

Star

wikipedia-dump

Updated Jun 20, 2019
Python

VatsalSoni301 / Wikipedia_Search_Engine

Star

Implemented a search engine on the wikipedia dump of size 73.4 GB. In order to retrieve result faster and relevant, indexing and ranking is implemented. Relevance ranking algorithm is implemented using TF-IDF score to rank documents. Creating index takes around 14 hr on a given wikipedia dump. Result is retrieved in less than 1 second.

parsing mergesort python3 indexing ranking nltk preprocessing wikipedia-dump ire etree