Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Resource] Useful tools & lecture related to data science #131

Open
BrambleXu opened this issue Apr 24, 2019 · 1 comment
Open

[Resource] Useful tools & lecture related to data science #131

BrambleXu opened this issue Apr 24, 2019 · 1 comment
Assignees
Labels

Comments

@BrambleXu
Copy link
Owner

BrambleXu commented Apr 24, 2019

这个issue打算放一些我个人觉得不错的工具和教程,做一个备份。

2024/04

2024/03

2024/02

2024/01

2023/11

  • deepeval: 用来测试LLM结果的,LLM输出结果评测这方面确实需要一个好用的工具
  • taipy:能在前后端实现ML产品的工具

2023/09

2023/07

2023/03

2023/02

2023/01

2022

2022/12

  • pydantic: 花了整整一天,本来打算用pydantic给segal做数据验证的,结果最终还是放弃这个方案,直接在init里用if进行检查了。原因主要有两点,pydantic和pytorch这种封装严重的第三方库很不友好,比如Dataset class就无法进行验证,每次都会被pydantic报错。还有一个原因在于pydantic的test不好写。因为使用mock的时候,如果想要设定某个函数的输出值,比如sampler.query = MagicMock(return_value=2,会被pydantic报错,说sampler没有query这个属性值,但实际上query是函数。根据这次的经验,对pydantic的适用场景有了一些感想。主要适用于一些数据结构比较简单的,很少用到第三方依赖的项目。对于涉及到pytorch, tensorflow这种比较复杂的深度学习项目,还是直接用if进行判断做数据验证比较好

2022/10

PyCon JP的一些资料:

2022/09

image

2022/04

  • 写日语文章的时候,可以用这个工具检查文法,prh, 还有vscode的扩展prh。可以把一些常见的错误写好,トレニング-> トレーニング、エンティティ->固有表現、デーテ->データ
  • 关于OKR的设定,比如个人方面的目标设定Personal OKR Example

2022/03

  • 直接将B站的视频转换为mp3的网站,offliberty

2022/02

2021

2021/08

2021/05

  • Error-riddled data sets are warping our sense of how good AI really is: 这篇文章不错, 涉及到的论文

2021/04

2021/01

2020

2020/12

2020/11

2020/10

2020/8

2020/7

2020/6

关于抗疫的视频,太感动了:

2020/5

关于投资

关于开发:

关于日语:

  • 日语语法指南, 语法精要
  • 見出し語=見出し, 意思是标题,headline。「私は新聞の見出ししか読まない」"I only read the headlines of newspapers"

2020/4

2020/3

2020/2

2020/1

2019

2019/12

PyCon china 2018:

关于健身:

  • Dynamic Stretching Routine: Best Full Body Warm Up: 动态拉伸来热身。下腰触脚(拉伸大腿后侧),Knee To Chest(抱腿拉伸臀部肌肉),Side Lunge Touching Heel(拉伸大腿内侧),Lunge With A Lean(大腿前侧),Arm Circles(用手臂带动肩部的放松)
  • 3 Reasons to Complete Challenging Exercises First: 先热身。然后把最重要的训练放在一开始,这些训练是那些需要用到多个关节和部位的训练。
  • Light Weights vs Heavy Weights for Muscle Growth文章:低重量高频次和高重量低频次对于肌肉的增加效果基本一样。但是高重量低频次在抓举方面对于肌肉的增大效果更好。添加drop sets,通过低重量高频次来提高提高乳酸阈值。
  • How To Add Drop Set Training To Your Workout: 使用drop set的话,可以更好的利用上面两种训练效果。
  • How to Gain Muscle Faster With ‘time Under Tension’ Training: 这篇文章提到了TUT这个概念。它指的是在一个set里肌肉承受拉力的时间。为了能让肌肉增长,要保证受力时间。1 不要浪费大量时间在简单的锻炼上;2 保持一个稳定的节奏,each rep during a set would be 2/4/0 (lifting, lowering, pause);3 在离心运动上花更多时间,指的是上面lowering的部分,时间越长对肌肉破坏越大,能促进增长;4 关注form,不要因为疲劳破坏姿势。这里我理解的是每次动作要做完整,每个rep不要只做到一部分;5 使用drop set;保持高强度,重量和锻炼一定要有挑战性,才能促进肌肉增长。比如Use at least 60% of your 1-rep max for a lift to maximize gains.

2019/11

Some information about fuzzy matching: 没有找到日语的相关工具

2019/10

2019/09

image
(图1)

image
(图2)

Linux basic

  • Shell 教程. 文章最下面有5个链接。前两个里先看视频教程,速查表很多东西都没有涉及到,但视频里有讲。下面三个链接里,第一个Bash scripting cheatsheet
    挺有方便的,写bash脚本的话直接拿来参考。
  • 机器学习、深度学习中常用的Linux命令

Deep Learning Tools

可视化

文章

关于RE的文章

关于Transformer的文章

关于BERT的文章

@BrambleXu BrambleXu self-assigned this Apr 24, 2019
@BrambleXu BrambleXu changed the title Useful resource tools&lecture related to AI [Resource] Useful tools & lecture related to AI Apr 24, 2019
@BrambleXu BrambleXu changed the title [Resource] Useful tools & lecture related to AI [Resource] Useful tools & lecture related to data science Apr 24, 2019
@BrambleXu BrambleXu pinned this issue Oct 9, 2019
@BrambleXu BrambleXu unpinned this issue Nov 19, 2019
@BrambleXu
Copy link
Owner Author

分词

将text转换为特征向量

关于NLP的模型

关于NLP的task

可视化

@BrambleXu BrambleXu pinned this issue Feb 1, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant