我有大量算力，支持开源项目，请大家把数据尽量洗干净 #6

BlinkDL · 2023-01-30T03:49:19Z

大家好，我是 https://www.zhihu.com/question/570713548/answer/2845310510

记得n年前我也上里屋，哈哈。建议项目建个 Discord，可以在 Discord 找我：https://discord.gg/bDSBUMeFpc

esbatmop · 2023-01-30T06:52:21Z

1.越往后的包数据清洗的越干净。我们在第一阶段（到本月底，项目成立一个月整，且顺利完成1Tb数据堆量小目标）后，会启动对历史数据压缩包的重新清洗打包工作。
2.我们的判断是，堆量的优先级更高，数据人人能洗。目前数据清洗任务由yufei的组负责，可以去里屋或者Trello向这个组提需求和提供代码(另一个issue中有项目进展Trello的链接)。
3.我们也有将数据集放到huggingface上的精加工计划，目前pomelo在负责其中一块工作，可以去里屋催他。
4.这是一个社区主导的项目，里屋社区是项目主要讨论区。

BlinkDL · 2023-01-30T12:43:36Z

另外这里有 900G 中文语料 https://huggingface.co/datasets/oscar-corpus/OSCAR-2201
语料多了之后需要做去重，之前有论文发现过度重复对于模型性能有影响

esbatmop · 2023-01-30T13:21:44Z

在收录数据时会尽量避免不重复收录.
但是不同来源数据间的去重并不是这个语料集需要考虑的工作.
本语料集对标的是chatGPT训练使用的40T数据,这份包括了网页数据的40T数据也是没有做内部去重的.

zhiqiangohuo · 2023-03-15T07:06:58Z

个人建议。现在放到huggingface上的数据属于法律文书甚至还有学习强国上的。这些包含了部分隐私信息的情况。个人任务这部分数据还是暂时不公开或者脱敏的好，不然很容易担责。

esbatmop · 2023-03-22T08:57:24Z

个人建议。现在放到huggingface上的数据属于法律文书甚至还有学习强国上的。这些包含了部分隐私信息的情况。个人任务这部分数据还是暂时不公开或者脱敏的好，不然很容易担责。

这部分数据是国家有法律法规明确公开公示的。请你指出来包含隐私信息的具体文件。

GDUTT1 · 2023-10-18T07:34:28Z

在收录数据时会尽量避免不重复收录. 但是不同来源数据间的去重并不是这个语料集需要考虑的工作. 本语料集对标的是chatGPT训练使用的40T数据,这份包括了网页数据的40T数据也是没有做内部去重的.

请教一下chatGPT使用了40T数据，这一信息是从哪里来获得的呢？

xinghuang2050 · 2023-10-25T02:25:02Z

另外这里有 900G 中文语料 https://huggingface.co/datasets/oscar-corpus/OSCAR-2201 语料多了之后需要做去重，之前有论文发现过度重复对于模型性能有影响

OSCAR-2201是一个多语种的文本库，Huggingface上总共123GB，请问它解压之后含有900GB的中文语料吗？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

我有大量算力，支持开源项目，请大家把数据尽量洗干净 #6

我有大量算力，支持开源项目，请大家把数据尽量洗干净 #6

BlinkDL commented Jan 30, 2023

esbatmop commented Jan 30, 2023 •

edited

BlinkDL commented Jan 30, 2023

esbatmop commented Jan 30, 2023 •

edited

zhiqiangohuo commented Mar 15, 2023

esbatmop commented Mar 22, 2023

GDUTT1 commented Oct 18, 2023

xinghuang2050 commented Oct 25, 2023

我有大量算力，支持开源项目，请大家把数据尽量洗干净 #6

我有大量算力，支持开源项目，请大家把数据尽量洗干净 #6

Comments

BlinkDL commented Jan 30, 2023

esbatmop commented Jan 30, 2023 • edited

BlinkDL commented Jan 30, 2023

esbatmop commented Jan 30, 2023 • edited

zhiqiangohuo commented Mar 15, 2023

esbatmop commented Mar 22, 2023

GDUTT1 commented Oct 18, 2023

xinghuang2050 commented Oct 25, 2023

esbatmop commented Jan 30, 2023 •

edited

esbatmop commented Jan 30, 2023 •

edited