Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ложное разбиение предложений внутри кавычек и скобок, разбиение списков #11

Open
Ogonik opened this issue Dec 2, 2020 · 1 comment

Comments

@Ogonik
Copy link

Ogonik commented Dec 2, 2020

text = "1. Текст юридической нормы согласно постановлению Правительства РФ от 25.05.2020 №3543 "О размещении информации и т.д. Общие положения" (зарегистрировано Министервом юстиции РФ. Регистрационный номер 3333) выделяются М.М. Мишустиным следующие истории: \n1. История 1; \n2. История 2; \n3.2. История 3\nа) История 2."

На входе есть такой текст (см. выше). По юридическим нормам русского языка это одно предложение

На выходе имеем ложное разбиение предложений внутри скобок, внутри кавычек, и при обработке списков.

Вопросы:

  1. Это сознательное решение о подобном поведении в случаях обработки кавычек и скобок?
  2. Можете подсказать точки изменений, которые позволят подобные вещи исправить и считать текст выше одним предложением?

Заранее спасибо :)

@kucenko
Copy link

kucenko commented Feb 9, 2021

Добрый день, тоже столкнулся с похожей проблемой

По поводу кавычек, я заметил что такая проблема происходит при разбиении предложения по ".", в итоге предложения бьются на несколько. Для решения этой проблемы я реализовал свое правило

Исходя из кода можно писать свои правила вот так:
sentenize_my = SentSegmenter(split=SentSplitter(pattern=DELIMITER, window=10), rules=MY_RULES + RULES)

Но это не задокументировано, потому нужно понимать риски

Соответственно в MY_RULES будет массив со своими правилами

Так же проблема с разделителями решается с помощью добавления своих разделителей в DELIMITER

Код можно почитать по пути segmenters/sentenize.py

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants