Skip to content

Latest commit

 

History

History
53 lines (38 loc) · 5.7 KB

HW2.md

File metadata and controls

53 lines (38 loc) · 5.7 KB

Выполняется работа строго в репозитории python-dh-hw в файле HW2.ipynb, лежащем в корне репозитория.

NB! Перед выполнением обязательно посмотрите образец оформления работы.

Задание 1

Дан текст (можно взять любой, необязательно этот):

варкалось хливкие шорьки пырялись по наве и хрюкотали зелюки как мюмзики в мове о бойся бармаглота сын он так свирлеп и дик а в глyще рымит исполин злопастный брандашмыг

Необходимо выделить все биграммы в этом тексте и сохранить их список в какую-либо переменную. Биграммы -- это пары стоящих рядом слов, например, "варкалось хливкие", "хливкие шорьки" и т.д.

Подсказка №1: текст нужно разбить на слова с помощью функции split(), а потом использовать цикл for для создания списка биграмм. На каждой итерации цикла нужно печатать биграмму, а потом добавлять ее в список.

Подсказка №2: количество биграмм в тексте = количество слов в тексте - 1.

Задание 2

  1. Если вы не делали git pull или git clone: cкачать архив с текстовыми файлами отсюда и распаковать его. Если делали, то все нужные файлы уже есть в папке poems.
  2. Распечатать текущую директорию и список всех файлов и папок в ней. Посчитать и распечатать количество файлов.
  3. Пройтись циклом по рабочей директории, читая содержимое каждого файла и записывая его в новый файл poems.txt По завершении цикла должен получиться файл со всеми стихотворениями!

Задание 3

Удивительная кошка

Несчастная кошка порезала лапу-
Сидит, и ни шагу не может ступить.
Скорей, чтобы вылечить кошкину лапу
Воздушные шарики надо купить!

И сразу столпился народ на дороге-
Шумит, и кричит, и на кошку глядит.
А кошка отчасти идет по дороге,
Отчасти по воздуху плавно летит!

  1. Скопировать текст, сохранить его в переменную.
  2. Узнать длину текста в символах.
  3. Очистить текст от пунктуации, используя list compehensions. На выходе должен получиться список слов.
  4. Объединить слова из получившегося списка в строку через пробел.
  5. С помощью list comprehensions проверить, написано ли слово с большой буквы, и если да, то привести его к нижнему регистру. На выходе должен получиться список из всех слов стихотворения, написанных с маленькой буквы (не только те, которые изначально были с маленькой буквы, а все).
  6. Узнать длину текста в словах.
  7. Узнать количество уникальных слов.
  8. Распечатать последние 10 слов.
  9. Соединить полученный в пункте 3 список в строку. Слова в строке должны быть написаны через знак переноса строки.
  10. Распечатать с 20 по 30 символ этой строки (включительно).
  11. Разбить текст на биграммы, записать их в переменную и посчитать частотность каждой биграммы. Биграммы должны быть в виде списка кортежей.

Подсказка №1 -- это пары стоящих рядом слов, например, "варкалось хливкие", "хливкие шорьки" и т.д.

Подсказка №2: количество биграмм в тексте = количество слов в тексте - 1.

После решения задач необходимо выложить решение в Github. и проверить, что вы видите ваше решение по ссылке https://github.com/*ваш username на github*/python-dh-hw/blob/master/HW2.ipynb

NB! В этом и в следующих заданиях коммиты следует делать через консольный интерфейс, а сообщения коммитов должны быть осмысленными. Перед началом работы обязательно повторите Cеминар 1, где описан порядок работы с GitHub.