perf: fix SIMD-inlining #131

AaronO · 2023-04-13T22:22:50Z

Drastically improving throughput on larger inputs (3x+ for large URIs or header-values)

There are 2 optimizations in this PR:

Removing two unnecessary instructions when computing trailizing_zeros / bytes-validated.
We don't need to or the upper half of the register with xFF we can instead compute trailing-zeros on the meaningful bits by using eax (u32) instead of rax (u64) and ax (u16) instead of eax (u32) for AVX2 and SSE4.2 respectively.
Correctly scoping target_feature pragmas to allow SIMD validators to be inlined, so when looped we benefit from greater register reuse etc... See:
- https://doc.rust-lang.org/reference/attributes/codegen.html#the-target_feature-attribute
- https://rust-lang.github.io/rfcs/2045-target-feature.html

Benchmarks

Summary table

(Disclaimer: aggregated by ChatGPT, which "computed" the ratio rows which aren't exactly correct but close enough)

Test	128b	256b	512b	1024b	2048b	4096b
Before
Header	38	66	123	263	484	946
URI	19	44	116	237	465	937
After
Header	30	39	55	88	193	300
URI	12	20	35	65	127	270
Improvement
Header Ratio	~1.5x	~1.5x	~2.0x	~3.0x	~2.5x	~3.0x
URI Ratio	~1.5x	~2.0x	~3.5x	~3.5x	~3.5x	~3.5x

Raw benches

before:
test header/value_128b ... bench:           38 ns/iter (+/- 3)
test header/value_256b ... bench:           66 ns/iter (+/- 0)
test header/value_512b ... bench:           123 ns/iter (+/- 2)
test header/value_1024b ... bench:          263 ns/iter (+/- 13)
test header/value_2048b ... bench:          484 ns/iter (+/- 19)
test header/value_4096b ... bench:          946 ns/iter (+/- 7)

test uri/uri_128b ... bench:          19 ns/iter (+/- 3)
test uri/uri_256b ... bench:          44 ns/iter (+/- 1)
test uri/uri_512b ... bench:         116 ns/iter (+/- 1)
test uri/uri_1024b ... bench:         237 ns/iter (+/- 3)
test uri/uri_2048b ... bench:         465 ns/iter (+/- 3)
test uri/uri_4096b ... bench:         937 ns/iter (+/- 58)

after:
test header/value_128b ... bench:           30 ns/iter (+/- 1)
test header/value_256b ... bench:           39 ns/iter (+/- 1)
test header/value_512b ... bench:           55 ns/iter (+/- 2)
test header/value_1024b ... bench:          88 ns/iter (+/- 4)
test header/value_2048b ... bench:          193 ns/iter (+/- 49)
test header/value_4096b ... bench:          300 ns/iter (+/- 4)

test uri/uri_128b ... bench:          12 ns/iter (+/- 3)
test uri/uri_256b ... bench:          20 ns/iter (+/- 0)
test uri/uri_512b ... bench:          35 ns/iter (+/- 1)
test uri/uri_1024b ... bench:          65 ns/iter (+/- 4)
test uri/uri_2048b ... bench:         127 ns/iter (+/- 2)
test uri/uri_4096b ... bench:         270 ns/iter (+/- 36)

Drastically improving throughput on larger inputs (3x+ for large URIs or header-values)

Also cleanup, builds off seanmonstar#131

AaronO added 2 commits April 13, 2023 22:08

perf: fix SIMD-inlining

c8ded18

Drastically improving throughput on larger inputs (3x+ for large URIs or header-values)

Revert unrelated Cargo.toml change

3bfd1a8

AaronO mentioned this pull request Apr 13, 2023

perf: improve non-SIMD with wordwise validation #123

Merged

AaronO added a commit to AaronO/httparse that referenced this pull request Apr 14, 2023

perf: optimize SIMD runtime overhead

71b13da

Also cleanup, builds off seanmonstar#131

AaronO mentioned this pull request Apr 14, 2023

cleanup: SIMD runtime detection #132

Merged

seanmonstar approved these changes Apr 18, 2023

View reviewed changes

seanmonstar merged commit d745bd2 into seanmonstar:master Apr 18, 2023
31 checks passed

AaronO added a commit to AaronO/httparse that referenced this pull request Apr 18, 2023

perf: optimize SIMD runtime overhead

0d555b0

Also cleanup, builds off seanmonstar#131

AaronO deleted the perf/simd-inlining branch April 24, 2023 19:02

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

perf: fix SIMD-inlining #131

perf: fix SIMD-inlining #131

AaronO commented Apr 13, 2023 •

edited

perf: fix SIMD-inlining #131

perf: fix SIMD-inlining #131

Conversation

AaronO commented Apr 13, 2023 • edited

Benchmarks

Summary table

Raw benches

AaronO commented Apr 13, 2023 •

edited