Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

我有大量算力,支持开源项目,请大家把数据尽量洗干净 #6

Open
BlinkDL opened this issue Jan 30, 2023 · 7 comments

Comments

@BlinkDL
Copy link

BlinkDL commented Jan 30, 2023

大家好,我是 https://www.zhihu.com/question/570713548/answer/2845310510

记得n年前我也上里屋,哈哈。建议项目建个 Discord,可以在 Discord 找我:https://discord.gg/bDSBUMeFpc

@esbatmop
Copy link
Owner

esbatmop commented Jan 30, 2023

1.越往后的包数据清洗的越干净。我们在第一阶段(到本月底,项目成立一个月整,且顺利完成1Tb数据堆量小目标)后,会启动对历史数据压缩包的重新清洗打包工作。
2.我们的判断是,堆量的优先级更高,数据人人能洗。目前数据清洗任务由yufei的组负责,可以去里屋或者Trello向这个组提需求和提供代码(另一个issue中有项目进展Trello的链接)。
3.我们也有将数据集放到huggingface上的精加工计划,目前pomelo在负责其中一块工作,可以去里屋催他。
4.这是一个社区主导的项目,里屋社区是项目主要讨论区。

@BlinkDL
Copy link
Author

BlinkDL commented Jan 30, 2023

另外这里有 900G 中文语料 https://huggingface.co/datasets/oscar-corpus/OSCAR-2201
语料多了之后需要做去重,之前有论文发现过度重复对于模型性能有影响

@esbatmop
Copy link
Owner

esbatmop commented Jan 30, 2023

在收录数据时会尽量避免不重复收录.
但是不同来源数据间的去重并不是这个语料集需要考虑的工作.
本语料集对标的是chatGPT训练使用的40T数据,这份包括了网页数据的40T数据也是没有做内部去重的.

@zhiqiangohuo
Copy link

个人建议。现在放到huggingface上的数据属于法律文书甚至还有学习强国上的。 这些包含了部分隐私信息的情况。个人任务这部分数据还是暂时不公开或者脱敏的好,不然很容易担责。

@esbatmop
Copy link
Owner

个人建议。现在放到huggingface上的数据属于法律文书甚至还有学习强国上的。 这些包含了部分隐私信息的情况。个人任务这部分数据还是暂时不公开或者脱敏的好,不然很容易担责。

这部分数据是国家有法律法规明确公开公示的。请你指出来包含隐私信息的具体文件。

@GDUTT1
Copy link

GDUTT1 commented Oct 18, 2023

在收录数据时会尽量避免不重复收录. 但是不同来源数据间的去重并不是这个语料集需要考虑的工作. 本语料集对标的是chatGPT训练使用的40T数据,这份包括了网页数据的40T数据也是没有做内部去重的.

请教一下chatGPT使用了40T数据,这一信息是从哪里来获得的呢?

@xinghuang2050
Copy link

另外这里有 900G 中文语料 https://huggingface.co/datasets/oscar-corpus/OSCAR-2201 语料多了之后需要做去重,之前有论文发现过度重复对于模型性能有影响

OSCAR-2201是一个多语种的文本库,Huggingface上总共123GB,请问它解压之后含有900GB的中文语料吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants