owlbot

Archive bot

requirements

warc3
requests
dnspython
lxml

Usage

# require the policy URL for robots User-Agent
import os
policy = "http://example.com/your/crawl/policy"
os.environ["OWLBOT_POLICY"] = policy

import io
import gzip
import shutil
from owlbot.archive import Archive

# create WARCFile
filename = "example.warc.gz"
fp = io.BytesIO()
arc = Archvie(filename, fileobj=fp)

# crawl & archive web page
resp = arc.get("http://example.com/")
if resp.code == 200:
    for link in resp.links():
        arc.get(link)

# compress data
fp.seek(0)
with gzip.open(filename, "wb") as wfp:
    shutil.copyfileobj(fp, wfp)

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
owlbot		owlbot
tools		tools
.gitignore		.gitignore
.travis.yml		.travis.yml
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
run_tests		run_tests
setup.py		setup.py
test-requirements.txt		test-requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

owlbot

owlbot

tools

tools

.gitignore

.gitignore

.travis.yml

.travis.yml

LICENSE

LICENSE

README.md

README.md

requirements.txt

requirements.txt

run_tests

run_tests

setup.py

setup.py

test-requirements.txt

test-requirements.txt

Repository files navigation

owlbot

requirements

Usage

About

Releases

Packages

Languages

License

info-labs/owlbot

Folders and files

Latest commit

History

Repository files navigation

owlbot

requirements

Usage

About

Topics

Resources

License

Stars

Watchers

Forks

Languages