말레이어 지원 문의 #12

hosunleex · 2020-02-26T08:13:56Z

이흥섭 개발자님, 수고가 많으십니다.

생업을 하시는라 바쁘신 가운데 저도 제 업을 위해 한글라이즈를 매일 사용하고 있습니다.
코드가 고로 바뀐 뒤로 훨씬 빨라졌다고 느껴집니다.^^

트랜스리터레이션에 AI를 도입하면 좋겠지만 자발적으로 도움을 주실 수 있는 전산언어학 트레이너들을 구할 수 있을지 미지수네요. 업무 때문에 만하임 대학의 Tesseract OCR 트레이닝 데이터를 사용하고 있는데 속도와 정확성의 개선에 경외감이 느껴질 정도입니다. 40여개 언어로 작업 중인데 해상도가 떨어져 알아볼 수 없거나 구겨진 서류들도 이제는 정확하게 읽어냅니다.

한글라이즈도 AI 트레이닝 데이터가 구축되면 전세계언어들을 규칙에 맞게 다 표기할 수 있을텐데요...^^;;;

한글이 워낙 변방 언어이고 토크나이저도 절망적이어서 그냥 신경을 끄고 삽니다.

바쁘신 것으로 알고 있고 염치는 없지만 혹시 말레이시아어도 지원이 가능하신지 문의를 드려봅니다.

한글라이즈를 만들어 주셔서 감사합니다.

sublee · 2020-02-26T08:35:05Z

이렇게 따뜻한 메시지 전해주셔서 감사합니다 :) 보람을 느낍니다.

말씀하신대로 AI에 기반하면 품질을 많이 높일 수 있을 것 같습니다. 언젠가 또 불타오를 때 타진해보고 싶네요. 나중에 조언을 부탁드리겠습니다.

말레이시아어에 대해선 한글라이즈 고안하신 @iceager 님께 질문을 넘기겠습니다.

iceager · 2020-02-26T15:03:38Z

안녕하세요? 좋은 말씀 감사드립니다. 현재 한글라이즈는 원어 철자에 일정한 규칙을 적용하여 한글로 변환시킵니다. 한글라이즈를 개발할 때 말레이어도 지원하려고 했는데 두 가지 문제에 부딪히게 됩니다. 하나는 외래어 표기법에서 e의 발음이 [ə]일 때 '으'로 적고 나머지 경우에 '에'로 적도록 한 것입니다. 즉 철자만 봐서는 perak을 '페락'으로 적어야 하는지 '프락'으로 적어야 하는지 알 수 없습니다. 말레이어 발음을 찾을 수 있는 자료가 있어서 언제 e를 '으'로 적고 언제 '에'로 적는지 AI를 훈련할 수 있으면 좋겠지만 아직까지 그런 자료는 찾기가 힘듭니다. 또 하나의 문제는 말레이어 고유명사 가운데는 말레이시아식(영어식) 또는 인도네시아식(네덜란드어식) 구식 철자를 쓰는 것이 많다는 것입니다. 예를 들어 말레이시아식 구철자에서 ch는 신철자의 c 'ㅊ'을 나타내고 인도네시아식 구철자에서 ch는 신철자의 kh 'ㅎ'/'ㄱ'을 나타내기 때문에 이것도 사전에 의지할 수 밖에 없습니다. 약간 다른 문제는 말레이어권 고유명사 가운데는 사실 영어, 중국어(민남어, 광둥어), 타밀어 등 다른 언어에서 온 것이 많아서 말레이어 발음 규칙을 따르지 않는 것이 많다는 것입니다. 말레이시아 인명만 봐도 Tony Fernandes, Michelle Yeoh, Ananda Krishnan 등 영어, 포르투갈어, 민남어, 타밀어 등에서 온 이름을 쓰는 이들이 많습니다. 이런 경우는 한글라이즈에서 다루지 않을 수도 있겠지만 일반인이 말레이어권 고유명사 가운데 어느 것이 말레이어식 이름인지 알기 어려우니 고민이 됩니다. 그러니 현재로서 말레이어 지원에 가장 큰 장벽은 AI를 훈련시킬만큼 방대한 정확한 표기 사전 자료 구축이라고 생각합니다. 혹시 도움이 될만한 자료를 아시면 알려주시기 바랍니다. 현재 적어도 일반명사의 경우는 위키낱말사전에서 발음 설명이 같이 나온 말레이어 표제어가 대략 3천 개, 인도네시아어 표제어가 대략 2천 개이니(물론 겹치는 것이 많겠지만) 자료가 아주 없는 것은 아니지만 아무래도 외래어 표기 수요가 많은 고유명사 쪽으로는 너무 빈약합니다. 그래서 당장은 말레이어 지원이 어렵습니다.

…

On Wed, 26 Feb 2020 at 16:35, Heungsub Lee ***@***.***> wrote: Assigned #12 <#12> to @iceager <https://github.com/iceager>. — You are receiving this because you were assigned. Reply to this email directly, view it on GitHub <#12?email_source=notifications&email_token=AADKL3GWDY4MDE2O53UNY23REYST7A5CNFSM4K37KPPKYY3PNVWWK3TUL52HS4DFWZEXG43VMVCXMZLOORHG65DJMZUWGYLUNFXW5KTDN5WW2ZLOORPWSZGOW4SJCPQ#event-3072627006>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AADKL3GWADLRBBAO7MZSW6DREYST7ANCNFSM4K37KPPA> .

hosunleex · 2020-02-28T00:32:13Z

박종성 개발자님, 작은 제안에 너무나 상세한 설명을 주셔서 감사합니다. 아래의 링크에는 영국식 영어 65118개와 미국식 영어 125927개, 크메르어는 3286개, 말레이어는 28215개 등의 IPA 사전이 정규화되어 제공되고 있고 계속 갱신 중입니다. https://github.com/open-dict-data/ipa-dict 말레이인 개발자도 말레이 코퍼스를 구축하고 자연어 처리를 훈련시키고 있습니다만, 본인도 low resource라고 인정하고는 있습니다. https://github.com/huseinzol05/Malaya-Dataset 위의 개발자는 고유명사를 아래의 범주로 구분하여 AI로 훈련시키는 것 같습니다. https://malaya.readthedocs.io/en/latest/Entities.html#describe-supported-entities OTHER - Otherlaw - law, regulation, related law documents, documents, etclocation - location, placeorganization - organization, company, government, facilities, etcperson - person, group of people, believes, etcquantity - numbers, quantitytime - date, day, time, etcevent - unique event happened, etc 다만 이 내용은 실체(entities)를 인식시키기 위함이며 발음과는 무관한 것 같습니다. 박종성님께서도 코로나 조심하시고 건강하시길 바랍니다.

…

On Thu, Feb 27, 2020 at 12:03 AM iceager ***@***.***> wrote: 안녕하세요? 좋은 말씀 감사드립니다. 현재 한글라이즈는 원어 철자에 일정한 규칙을 적용하여 한글로 변환시킵니다. 한글라이즈를 개발할 때 말레이어도 지원하려고 했는데 두 가지 문제에 부딪히게 됩니다. 하나는 외래어 표기법에서 e의 발음이 [ə]일 때 '으'로 적고 나머지 경우에 '에'로 적도록 한 것입니다. 즉 철자만 봐서는 perak을 '페락'으로 적어야 하는지 '프락'으로 적어야 하는지 알 수 없습니다. 말레이어 발음을 찾을 수 있는 자료가 있어서 언제 e를 '으'로 적고 언제 '에'로 적는지 AI를 훈련할 수 있으면 좋겠지만 아직까지 그런 자료는 찾기가 힘듭니다. 또 하나의 문제는 말레이어 고유명사 가운데는 말레이시아식(영어식) 또는 인도네시아식(네덜란드어식) 구식 철자를 쓰는 것이 많다는 것입니다. 예를 들어 말레이시아식 구철자에서 ch는 신철자의 c 'ㅊ'을 나타내고 인도네시아식 구철자에서 ch는 신철자의 kh 'ㅎ'/'ㄱ'을 나타내기 때문에 이것도 사전에 의지할 수 밖에 없습니다. 약간 다른 문제는 말레이어권 고유명사 가운데는 사실 영어, 중국어(민남어, 광둥어), 타밀어 등 다른 언어에서 온 것이 많아서 말레이어 발음 규칙을 따르지 않는 것이 많다는 것입니다. 말레이시아 인명만 봐도 Tony Fernandes, Michelle Yeoh, Ananda Krishnan 등 영어, 포르투갈어, 민남어, 타밀어 등에서 온 이름을 쓰는 이들이 많습니다. 이런 경우는 한글라이즈에서 다루지 않을 수도 있겠지만 일반인이 말레이어권 고유명사 가운데 어느 것이 말레이어식 이름인지 알기 어려우니 고민이 됩니다. 그러니 현재로서 말레이어 지원에 가장 큰 장벽은 AI를 훈련시킬만큼 방대한 정확한 표기 사전 자료 구축이라고 생각합니다. 혹시 도움이 될만한 자료를 아시면 알려주시기 바랍니다. 현재 적어도 일반명사의 경우는 위키낱말사전에서 발음 설명이 같이 나온 말레이어 표제어가 대략 3천 개, 인도네시아어 표제어가 대략 2천 개이니(물론 겹치는 것이 많겠지만) 자료가 아주 없는 것은 아니지만 아무래도 외래어 표기 수요가 많은 고유명사 쪽으로는 너무 빈약합니다. 그래서 당장은 말레이어 지원이 어렵습니다. On Wed, 26 Feb 2020 at 16:35, Heungsub Lee ***@***.***> wrote: > Assigned #12 <#12> to > @iceager <https://github.com/iceager>. > > — > You are receiving this because you were assigned. > Reply to this email directly, view it on GitHub > < #12?email_source=notifications&email_token=AADKL3GWDY4MDE2O53UNY23REYST7A5CNFSM4K37KPPKYY3PNVWWK3TUL52HS4DFWZEXG43VMVCXMZLOORHG65DJMZUWGYLUNFXW5KTDN5WW2ZLOORPWSZGOW4SJCPQ#event-3072627006>, > or unsubscribe > < https://github.com/notifications/unsubscribe-auth/AADKL3GWADLRBBAO7MZSW6DREYST7ANCNFSM4K37KPPA> > . > — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub <#12?email_source=notifications&email_token=AHAD5B7DJE7YQ2ROAGBQTHLRE2AEXA5CNFSM4K37KPPKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOENASH3Y#issuecomment-591471599>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AHAD5B6NQRCPLCSUREYPXBLRE2AEXANCNFSM4K37KPPA> .

sublee assigned iceager Feb 26, 2020

sublee added the enhancement New feature or request label Feb 26, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

말레이어 지원 문의 #12

말레이어 지원 문의 #12

hosunleex commented Feb 26, 2020

sublee commented Feb 26, 2020

iceager commented Feb 26, 2020 via email

hosunleex commented Feb 28, 2020 via email

말레이어 지원 문의 #12

말레이어 지원 문의 #12

Comments

hosunleex commented Feb 26, 2020

sublee commented Feb 26, 2020

iceager commented Feb 26, 2020 via email

hosunleex commented Feb 28, 2020 via email