Skip to content

TEDのwebページをクローリングし、動画や字幕テキストをスクレイピング.おまけでコーパス作り(全データは取れていない)

Notifications You must be signed in to change notification settings

kkkodai/TED_scraper

Repository files navigation

TED_scraper

videoをスクレイピング

  • video_crawler.py
    • クローリングにより取得したurlをcsvとして保存
    • total_page = 77 というのは20180423時点のもの、最新はhttps://www.ted.com/talks?page=の最大番号をサイト右下からチェック可能
  • video_scraper.py
    • url先の動画を取得
    • 取ってこないことがあるため、正しく取れているか確認する必要あり(原因不明)
      • unscraped_df[link][count1].txtは取得できなかった動画のdf["link"][count1]が記載される

transcriptをスクレイピング

  • script_scraper.py
    • 日英の字幕文を獲得(タグ付き)
    • 取ってこないことがあるため、正しく取れているか確認する必要あり(原因不明)
      • notexist_numberを確認

コーパス作成

  • script_regex.py
    • スクリプトの修正

後日追加予定↓

  • make_corpus.py
    • script_regex.pyにより作成されたファイルから日英コーパスを作成

データセット

  • ted-link.csvを使って作成
    • csv自体は20180423時点のもの
  • ted_script
    • ted_script_tag_ja.zipはscript_scraper.pyから取得した日本語訳文のデータ
    • ted_script_tag_en.zipはscript_scraper.pyから取得した英語訳文のデータ
    • 抽出失敗したファイルもあり全部は取れていない

About

TEDのwebページをクローリングし、動画や字幕テキストをスクレイピング.おまけでコーパス作り(全データは取れていない)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages