Skip to content

miglen/bulgarian-wordlists

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Bulgarian wordlists

Това хранилище съдържа архивирани файлове със думи и имена на български език както и единни граждански номера. Всичката информация в това хранилище е събрана от публични данни, а номерата са генерирани и валидирани използвайки алгоритъм. Използването на предоставената информация е на своя собствена отговорност.

Какво е wordlist?

Това е списък с думи или номера в редактируем текстов файл, обикновено по една на ред. Имат най-различна употреба от системи за валидиране на очаквани входящи данни до речникова атака (dictionary attack) срещу уеб или настолни приложения.

Списъци с думи

Списъците съдържат думи на кирилица с малки букви (lowercase) подредени азбучно в текстови файлове с UTF-8 енкодинг. Налични са в три формата - кирилица, транслителирани, шльокавица.

  • Български първи имена - Списък с имена на български език, включително старобългарски имена. Източници: [1] [2] [3] [4]
  • Български фамилни имена - Списък с фамилни имена на български език, включително старобългарски имена.
  • Населени места - Списък с имената на населените места в България. Източници: [1]
  • Некатегоризирани думи - Други думи на български език без определена категория за момента. Източници: [1] [2]
  • Жаргонни думи - Списък с популярните жаргонни изрази в България. Източници: [1]
  • Неологизми - Списък с новите български думи. Източници: [1]
  • Фразеологизми - Списък с устойчиви изрази (фрази или идиоми), обикновено с преносно значение, употребявани като готова единица в речта. Източник: [1]
  • Неприлични думи - Списък с неприлични (мръсни/нецензурирани) думи на български език. Източници: [1] [2]
  • Абривиатури - Списък с абривиатури и съкращения. Източници: [1]

Единен граждански номер (ЕГН)

Списък с единни граждански номера на български граждани. Списъка е подреден в отделни файлове по години, както и файл със всички възможни валидни номера. Източници: Генерирани номера от 1800г. до 2100г. и валидирани спрямо алгоритъма на ГРАО - ЕСРАГОН използвайки python модула за egn.

Изтегляне: Всички в един файл - egn.zip или Файлове по години - egn.zip (109 млрд. записа)

Изтегляне

Тип Кирилица Транслителирани Шльокавица Записи
Български първи имена bg-names-cyrillic.txt bg-names-latin.txt bg-names-6lyokavica.txt 31666
Български фамилни имена bg-familynames-cyrillic.txt N/A N/A 55265
Населени места bg-geo-cyrillic.txt bg-geo-latin.txt bg-geo-6lyokavica.txt 4657
Жаргонни думи bg-jargon-cyrillic.txt N/A N/A 15264
Неологизми bg-neologisms-cyrillic.txt N/A N/A 2381
Фразеологизми bg-idioms-cyrillic.txt N/A N/A 6924
Неприлични думи bg-obscene-cyrillic.txt N/A N/A 469
Абривиатури bg-abbreviations-cyrillic.txt N/A N/A 13767
Некатегоризирани думи bg-words-cyrillic.txt bg-words-latin.txt bg-words-6lyokavica.txt 752537
Всички думи all-cyrillic.txt all-latin.txt all-6lyokavica.txt 755130

Принос и разработка

За да добавите нови думи или файлове използвайте функционалноста на github. Добавяйте записи само във файловете с кирилица, останалото се генерира след като използвате скриптовете.

Логиката на генериране на записите е следната:

  1. Записи на Кирилица > Транслитерация > Сортирание и премахване на повтаряеми записи > Транслирани записи
  2. Записи на Кирилица > Шльокавица > Сортирание и премахване на повтаряеми записи > Записи на Шльокавица
  3. Шльокавица + Транслирани записи > Сортирание и премахване на повтаряеми записи > Записи на латиница
  4. Латиница + Кирилица > Всички записи
  5. Генериране на rainbow таблици