Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Смайлики из трёх символов не сегментируются в один токен :-) #17

Open
xamgore opened this issue Feb 12, 2022 · 0 comments

Comments

@xamgore
Copy link

xamgore commented Feb 12, 2022

Тест-кейс:

from razdel import tokenize
print([_.text for _ in tokenize(`:-)`)]) 
# [`:`, `-`, `)`]
  • В регулярке ATOM каждый символ пунктуации рассматривается как отдельный атом, то есть слияние ожидается от процедуры сегментации
  • В процедуре punct судя по всему только содержимое двух атомов приходит, :-, -). Видимо, раньше здесь какое-то другое правило склеивало :- в один буффер, а punct проверяло завершающую скобочку ).
    # SMILE = re.compile(r'^' + r'[=:;]-?[)(]{1,3}' + '$', re.U)
    if SMILE.match(tok.buffer + right):
       return JOIN

Предлагаемый патч, проверяем третий токен

def punct(split):
    if split.left_1.type != PUNCT or split.right_1.type != PUNCT:
        return

    left = split.left
    right = split.right

+    if split.right_2 and SMILE.match(split.buffer + right + split.right_2.text):
+        return JOIN

    if SMILE.match(split.buffer + right):
        return JOIN

    if left in ENDINGS and right in ENDINGS:
        # ... ?!
        return JOIN

    if left + right in ('--', '**'):
        # ***
        return JOIN
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant