Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

无法正常显示的字符编码 #20

Open
LlinWing opened this issue Jun 10, 2023 · 4 comments
Open

无法正常显示的字符编码 #20

LlinWing opened this issue Jun 10, 2023 · 4 comments

Comments

@LlinWing
Copy link

LlinWing commented Jun 10, 2023

在抽样观察20230147/huggingface.20230147.1.网页/61.jsonl时,发现数组下标为12的json中含有无法正常显示的字符:
image
用jieba分词后显示为:
image
我使用chatGPT建议的以下代码正则匹配“无法正常显示的字符”:
def count_unprintable_characters(string):
pattern = r'[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]'
matches = re.findall(pattern, string)
return len(matches)
发现在该jsonl的10万条json中,有超过1.1万条有这种情况。
请问这是正常的还是语料出错了?

@esbatmop
Copy link
Owner

这部分语料来源于common crawl 的开源数据集,现有老外做的开源数据集都不考虑中文编码问题。而且现有转码工具和python自身的中文编码都还留着很多坑。各种乱码深究源头可能要追述到中国错过了上一次工业革命,本身很多字符集编码转码都不是中国人开发的。我们的语料增强小组正在对中文编码问题进行深入研究:https://github.com/alanshi/charset_mnbvc

就目前来看,发现这种问题请使用时从语料集中排出这些无法正常显示的字符。

@FlyCarrot
Copy link

借楼问下编码相关的问题,最近在看里面的一些内容,发现部分文档虽然是.txt格式,但是直接open读取的时候,解码不管是utf-8还是gb2312都会失败,这个有考虑过统一格式吗?也许是我打开方式不对,还请指点一下。

@esbatmop
Copy link
Owner

esbatmop commented Aug 18, 2023

借楼问下编码相关的问题,最近在看里面的一些内容,发现部分文档虽然是.txt格式,但是直接open读取的时候,解码不管是utf-8还是gb2312都会失败,这个有考虑过统一格式吗?也许是我打开方式不对,还请指点一下。

目前压缩包里txt格式的文件,都是我们在往jsonl统一格式时,发现有编码问题所以暂停的。可以使用我们语料增强小组最新提供的工具:https://wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E

@chinoll
Copy link

chinoll commented Nov 15, 2023

借楼问下编码相关的问题,最近在看里面的一些内容,发现部分文档虽然是.txt格式,但是直接open读取的时候,解码不管是utf-8还是gb2312都会失败,这个有考虑过统一格式吗?也许是我打开方式不对,还请指点一下。

目前压缩包里txt格式的文件,都是我们在往jsonl统一格式时,发现有编码问题所以暂停的。可以使用我们语料增强小组最新提供的工具:wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E

在hf上传的语料中发现Unicode特殊区段的字符未被过滤,请问这是故意保留的吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants