Releases · webrecorder/browsertrix-crawler

02 May 16:01

ikreymer

v1.1.1

22b2136

Browsertrix Crawler v1.1.1 Latest

Latest

What's Changed

Avoid crashes when editing / creating profile and navigation is interrupted
profiles: ensure all page.goto() promises have at least catch block/a… by @ikreymer in #559
profiles: ensure initial page.load() is awaited by @ikreymer in #561

Full Changelog: v1.1.0...v1.1.1

Contributors

ikreymer

Assets 2

19 Apr 04:57

ikreymer

v1.1.0

15d2b09

Browsertrix Crawler v1.1.0

Major Features

Support for QA Crawling (https://crawler.docs.browsertrix.com/user-guide/qa/)

What's Changed

QA Crawl Support (Beta) by @ikreymer in #469
Use RFC2606 invalid domain names by @vnznznz in #514
Fixes from 1.0.3 release -> main by @ikreymer in #517
Unify WARC writing + CDXJ indexing into single class by @ikreymer in #507
upgrade puppeteer-core to 22.6.1 by @ikreymer in #516
avoid cloudflare detection of puppeteer when using browser profiles: by @ikreymer in #518
add an extra --postLoadDelay param to specify how many seconds to wait after page-load by @ikreymer in #520
Gracefully handle non-absolute path for create-login-profile --filename by @tw4l in #521
Make /app world-readable to better support non-root usage by @vnznznz in #523
merge V1.0.4 change -> main: by @ikreymer in #527
Revert "Make /app world-readable to better support non-root usage" by @ikreymer in #529
ensure all warcwriter write operations go through a queue. by @ikreymer in #528
qa/replay crawl loading improvements by @ikreymer in #526
Separate writing pages to pages.jsonl + extraPages.jsonl to use with new py-wacz by @ikreymer in #535
Adblock support by @ikreymer in #534
Remove no longer needed invalid Brave update URLs by @tw4l in #539
Better logging of all queue WARCWriter operations by @ikreymer in #536
qa: filter out non-html pages by @ikreymer in #541
Fix for --rolloverSize for individual WARCs in 1.x by @ikreymer in #542
Set mime type for html pages by @tw4l in #545
allow minio to connect to other regions by @mguella in #543
replay counts: don't filter out URLs with __wb_method to avoid dispar… by @ikreymer in #552
Add crawler QA docs by @tw4l in #551
Support site-specific wait via browsertrix-behaviors by @ikreymer in #555
warcinfo: fix version to 1.1 to avoid confusion (part of #553) by @ikreymer in #557

New Contributors

@mguella made their first contribution in #543

Full Changelog: v1.0.4...v1.1.0

Contributors

ikreymer, vnznznz, and 2 other contributors

Assets 2

15 Apr 21:53

ikreymer

v1.1.0-beta.5

efebc33

Browsertrix Crawler 1.1.0 Beta 5 Pre-release

Pre-release

What's Changed

Separate writing pages to pages.jsonl + extraPages.jsonl to use with new py-wacz by @ikreymer in #535
Adblock support by @ikreymer in #534
Remove no longer needed invalid Brave update URLs by @tw4l in #539
Better logging of all queue WARCWriter operations by @ikreymer in #536
qa: filter out non-html pages by @ikreymer in #541
Fix for --rolloverSize for individual WARCs in 1.x by @ikreymer in #542
Set mime type for html pages by @tw4l in #545

Full Changelog: v1.1.0-beta.4...v1.1.0-beta.5

Contributors

ikreymer and tw4l

Assets 2

05 Apr 01:14

ikreymer

v1.1.0-beta.4

c247189

v1.1.0-beta.4 Pre-release

Pre-release

What's Changed

Gracefully handle non-absolute path for create-login-profile --filename by @tw4l in #521
refactor handling of max size for html/js/css by @ikreymer in #525
merge V1.0.4 change -> main: by @ikreymer in #527
ensure all warcwriter write operations go through a queue. by @ikreymer in #528
qa/replay crawl loading improvements by @ikreymer in #526

Full Changelog: v1.1.0-beta.3...v1.1.0-beta.4

Contributors

ikreymer and tw4l

Assets 2

03 Apr 22:23

ikreymer

v1.0.4

a3f93ca

Browsertrix Crawler v1.0.4

What's Changed

refactor handling of max size for html/js/css by @ikreymer in #525
Fix for #522, issues loading pages with large streaming js/css

Full Changelog: v1.0.3...v1.0.4

Contributors

ikreymer

Assets 2

29 Mar 00:21

ikreymer

v1.1.0-beta.3

5152169

Browsertrix Crawler 1.1.0 Beta 3 (QA Support) Pre-release

Pre-release

What's Changed

Use RFC2606 invalid domain names by @vnznznz in #514
Fixes from 1.0.3 release -> main by @ikreymer in #517
Unify WARC writing + CDXJ indexing into single class by @ikreymer in #507
upgrade puppeteer-core to 22.6.1 by @ikreymer in #516
avoid cloudflare detection of puppeteer when using browser profiles: by @ikreymer in #518
add an extra --postLoadDelay param to specify how many seconds to wait after page-load by @ikreymer in #520

Full Changelog: v1.1.0-beta.2...v1.1.0-beta.3

Contributors

ikreymer and vnznznz

Assets 2

26 Mar 21:11

ikreymer

v1.0.3

c2846d1

Browsertrix Crawler 1.0.3

What's Changed

fixes redirected seed (from #475) being counted againt page limit: by @ikreymer in #509
sitemap improvements: gz support + application/xml + extraHops fix by @ikreymer in #511

Full Changelog: v1.0.2...v1.0.3

Contributors

ikreymer

Assets 2

23 Mar 05:11

ikreymer

v1.1.0-beta.2

ecbc1d8

Browsertrix Crawler 1.1.0 Beta 2 (QA Crawl Support Beta) Pre-release

Pre-release

What's Changed

Docs: Minor fixes to edit link & clarifications by @Shrinks99 in #501
Improved support for running as non-root by @ikreymer in #503
improvements to 'non-graceful' interrupt to ensure WARCs are still closed gracefully by @ikreymer in #504
service worker capture fix: disable by default for now by @ikreymer in #506
QA Crawl Support (Beta) by @ikreymer in #469

New Contributors

@Shrinks99 made their first contribution in #501

Full Changelog: v1.1.0-beta.1...v1.1.0-beta.2

Contributors

ikreymer and Shrinks99

Assets 2

22 Mar 20:38

ikreymer

v1.0.2

22a7351

Browsertrix Crawler 1.0.2

What's Changed

service worker capture fix: disable service workers by default for now, add cli option by @ikreymer in #506

Full Changelog: v1.0.1...v1.0.2

Contributors

ikreymer

Assets 2

21 Mar 20:58

ikreymer

v1.0.1

93c3894

Browsertrix Crawler 1.0.1

What's Changed

Docs: Minor fixes to edit link & clarifications by @Shrinks99 in #501
Improved support for running as non-root by @ikreymer in #503
improvements to 'non-graceful' interrupt to ensure WARCs are still closed gracefully by @ikreymer in #504

New Contributors

@Shrinks99 made their first contribution in #501

Full Changelog: v1.0.0...v1.0.1

Contributors

ikreymer and Shrinks99

Assets 2

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

What's Changed

Contributors

Major Features

What's Changed

New Contributors

Contributors

What's Changed

Contributors

What's Changed

Contributors

What's Changed

Contributors

What's Changed

Contributors

What's Changed

Contributors

What's Changed

New Contributors

Contributors

What's Changed

Contributors

What's Changed

New Contributors

Contributors

Releases: webrecorder/browsertrix-crawler

Browsertrix Crawler v1.1.1

What's Changed

Contributors

Browsertrix Crawler v1.1.0

Major Features

What's Changed

New Contributors

Contributors

Browsertrix Crawler 1.1.0 Beta 5

What's Changed

Contributors

v1.1.0-beta.4

What's Changed

Contributors

Browsertrix Crawler v1.0.4

What's Changed

Contributors

Browsertrix Crawler 1.1.0 Beta 3 (QA Support)

What's Changed

Contributors

Browsertrix Crawler 1.0.3

What's Changed

Contributors

Browsertrix Crawler 1.1.0 Beta 2 (QA Crawl Support Beta)

What's Changed

New Contributors

Contributors

Browsertrix Crawler 1.0.2

What's Changed

Contributors

Browsertrix Crawler 1.0.1

What's Changed

New Contributors

Contributors