h2o for kv cache compression #1468

n1ck-guo · 2024-04-10T07:37:20Z

Type of Change

feature

Description

H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models
paper

NTD

Expected Behavior & Potential Risk

None

How has this PR been tested?

how to reproduce the test (including hardware information)

Dependency Change?

any library dependency introduced or removed

Signed-off-by: n1ck-guo <heng.guo@intel.com>

github-actions · 2024-04-10T07:37:44Z

⛈️ Required checks status: Has failure 🔴

Warning
If you do not have the access to re-run the CI-Summary bot, please contact VincyZhang for help. If you push a new commit, all of the workflow will be re-triggered.

Groups summary

🔴 Format Scan Tests workflow

Check ID	Status	Error details
format-scan (pylint)	failure	download	❌
format-scan (bandit)	success		✅
format-scan (cloc)	success		✅
format-scan (cpplint)	success		✅

These checks are required after the changes to intel_extension_for_transformers/transformers/modeling/kv_cache_compression/__init__.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/h2o.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/__init__.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_bloom.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_gpt_neox.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_llama.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_mistral.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_mixtral.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_opt.py.

🟢 Optimize Unit Test workflow

Check ID	Status
optimize-unit-test-baseline	success	✅
optimize-unit-test-PR-test	success	✅
Genreate-OptimizeUT-Report	success	✅

These checks are required after the changes to intel_extension_for_transformers/transformers/modeling/kv_cache_compression/__init__.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/h2o.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/__init__.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_bloom.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_gpt_neox.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_llama.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_mistral.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_mixtral.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_opt.py.

🟢 NeuralChat Unit Test

Check ID	Status
neuralchat-unit-test-baseline	success	✅
neuralchat-unit-test-PR-test	success	✅
Generate-NeuralChat-Report	success	✅

These checks are required after the changes to intel_extension_for_transformers/transformers/modeling/kv_cache_compression/__init__.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/h2o.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/__init__.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_bloom.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_gpt_neox.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_llama.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_mistral.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_mixtral.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_opt.py.

🔴 Engine Unit Test workflow

Check ID	Status	Error details
engine-unit-test-baseline	failure	download	❌
engine-unit-test-PR-test	cancelled		🚫
Genreate-Engine-Report	skipped		❓

These checks are required after the changes to intel_extension_for_transformers/transformers/modeling/kv_cache_compression/__init__.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/h2o.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/__init__.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_bloom.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_gpt_neox.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_llama.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_mistral.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_mixtral.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_opt.py.

🟢 Chat Bot Test workflow

Check ID	Status	Error details
call-inference-llama-2-7b-chat-hf / inference test	success		✅
call-inference-mpt-7b-chat / inference test	success		✅

These checks are required after the changes to intel_extension_for_transformers/transformers/modeling/kv_cache_compression/__init__.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/h2o.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/__init__.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_bloom.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_gpt_neox.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_llama.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_mistral.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_mixtral.py, intel_extension_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_opt.py.

Thank you for your contribution! 💜

Note
This comment is automatically generated and will be updates every 180 seconds within the next 6 hours. If you have any other questions, contact VincyZhang or XuehaoSun for help.

for more information, see https://pre-commit.ci

...ion_for_transformers/transformers/modeling/kv_cahe_compression/h2o_real_drop/modify_llama.py

...on_for_transformers/transformers/modeling/kv_cahe_compression/h2o_sim_drop/modify_gptneox.py

Signed-off-by: biao.fang <biao.fang@intel.com>

for more information, see https://pre-commit.ci

intel_extension_for_transformers/transformers/modeling/kv_cache_compression/h2o.py

Signed-off-by: n1ck-guo <heng.guo@intel.com>

for more information, see https://pre-commit.ci

...nsion_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_mistral.py

examples/huggingface/pytorch/text-generation/h2o/run_lm_eval_harness.py

Signed-off-by: n1ck-guo <heng.guo@intel.com>

for more information, see https://pre-commit.ci

Signed-off-by: n1ck-guo <heng.guo@intel.com>

for more information, see https://pre-commit.ci

Signed-off-by: biao.fang <biao.fang@intel.com>

Signed-off-by: n1ck-guo <heng.guo@intel.com>

…n-for-transformers into hengguo/h2o

Signed-off-by: n1ck-guo <heng.guo@intel.com>

for more information, see https://pre-commit.ci

Signed-off-by: n1ck-guo <heng.guo@intel.com>

…n-for-transformers into hengguo/h2o

Signed-off-by: n1ck-guo <heng.guo@intel.com>

for more information, see https://pre-commit.ci

Signed-off-by: n1ck-guo <heng.guo@intel.com>

for more information, see https://pre-commit.ci

Signed-off-by: n1ck-guo <heng.guo@intel.com>

…n-for-transformers into hengguo/h2o

for more information, see https://pre-commit.ci

Signed-off-by: n1ck-guo <heng.guo@intel.com>

for more information, see https://pre-commit.ci

n1ck-guo · 2024-05-21T07:07:57Z

pre-commit.ci autofix

for more information, see https://pre-commit.ci

Signed-off-by: n1ck-guo <heng.guo@intel.com>

for more information, see https://pre-commit.ci

h2o for kv cache compression

41d8647

Signed-off-by: n1ck-guo <heng.guo@intel.com>

n1ck-guo requested review from PenghuiCheng, VincyZhang and wenhuach21 April 10, 2024 07:37

[pre-commit.ci] auto fixes from pre-commit.com hooks

eb7f564

for more information, see https://pre-commit.ci

wenhuach21 reviewed Apr 10, 2024

View reviewed changes

...ion_for_transformers/transformers/modeling/kv_cahe_compression/h2o_real_drop/modify_llama.py Outdated Show resolved Hide resolved

wenhuach21 reviewed Apr 10, 2024

View reviewed changes

...ion_for_transformers/transformers/modeling/kv_cahe_compression/h2o_real_drop/modify_llama.py Outdated Show resolved Hide resolved

wenhuach21 reviewed Apr 10, 2024

View reviewed changes

...on_for_transformers/transformers/modeling/kv_cahe_compression/h2o_sim_drop/modify_gptneox.py Outdated Show resolved Hide resolved

BiaoFangAIA and others added 3 commits April 23, 2024 16:36

rebuild

c46ea7d

Signed-off-by: biao.fang <biao.fang@intel.com>

merge

95ff9ae

Signed-off-by: biao.fang <biao.fang@intel.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

9d27733

for more information, see https://pre-commit.ci

wenhuach21 reviewed Apr 25, 2024

View reviewed changes

intel_extension_for_transformers/transformers/modeling/kv_cache_compression/h2o.py Outdated Show resolved Hide resolved

n1ck-guo and others added 4 commits April 25, 2024 03:01

update

444490d

Signed-off-by: n1ck-guo <heng.guo@intel.com>

update

4309089

Signed-off-by: n1ck-guo <heng.guo@intel.com>

merge

8c5272e

Signed-off-by: n1ck-guo <heng.guo@intel.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

1b83e52

for more information, see https://pre-commit.ci

wenhuach21 reviewed Apr 29, 2024

View reviewed changes

...nsion_for_transformers/transformers/modeling/kv_cache_compression/models/modeling_mistral.py Outdated Show resolved Hide resolved

wenhuach21 reviewed Apr 29, 2024

View reviewed changes

examples/huggingface/pytorch/text-generation/h2o/run_lm_eval_harness.py Outdated Show resolved Hide resolved

n1ck-guo and others added 3 commits May 7, 2024 04:26

update

3fd73cb

Signed-off-by: n1ck-guo <heng.guo@intel.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

a2d3ae0

for more information, see https://pre-commit.ci

Merge branch 'main' into hengguo/h2o

ddf5445

VincyZhang added the WIP label May 13, 2024

n1ck-guo and others added 7 commits May 14, 2024 01:43

Merge branch 'main' into hengguo/h2o

91d4394

real drop

a83e6d6

Signed-off-by: n1ck-guo <heng.guo@intel.com>

modify real drop code

92c8a62

Signed-off-by: n1ck-guo <heng.guo@intel.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

70a1cf3

for more information, see https://pre-commit.ci

fix

bc9eade

Signed-off-by: biao.fang <biao.fang@intel.com>

update for real drop and sim mode, using the same api

9aa25f6

Signed-off-by: n1ck-guo <heng.guo@intel.com>

Merge branch 'main' into hengguo/h2o

03cdc8d

n1ck-guo and others added 7 commits May 16, 2024 21:14

change to new api

877329d

Signed-off-by: n1ck-guo <heng.guo@intel.com>

Merge branch 'hengguo/h2o' of https://github.com/intel/intel-extensio…

b435e3e

…n-for-transformers into hengguo/h2o

clean code

5068552

Signed-off-by: n1ck-guo <heng.guo@intel.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

5e5f589

for more information, see https://pre-commit.ci

fix

d0dce7d

Signed-off-by: n1ck-guo <heng.guo@intel.com>

Merge branch 'hengguo/h2o' of https://github.com/intel/intel-extensio…

febb76a

…n-for-transformers into hengguo/h2o

add example

24c4725

Signed-off-by: n1ck-guo <heng.guo@intel.com>

n1ck-guo requested review from yintong-lu and WeiweiZhang1 May 20, 2024 06:20

n1ck-guo and others added 15 commits May 20, 2024 14:36

Merge branch 'main' into hengguo/h2o

5bd3f16

clean

955e132

Signed-off-by: n1ck-guo <heng.guo@intel.com>

pylint

91efe57

Signed-off-by: n1ck-guo <heng.guo@intel.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

4190edb

for more information, see https://pre-commit.ci

pylint

e71bf92

Signed-off-by: n1ck-guo <heng.guo@intel.com>

pylint

41f016c

Signed-off-by: n1ck-guo <heng.guo@intel.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

d49487f

for more information, see https://pre-commit.ci

fix import error

9ac5eca

Signed-off-by: n1ck-guo <heng.guo@intel.com>

update

09def0b

Signed-off-by: n1ck-guo <heng.guo@intel.com>

Merge branch 'hengguo/h2o' of https://github.com/intel/intel-extensio…

5cae1fd

…n-for-transformers into hengguo/h2o

[pre-commit.ci] auto fixes from pre-commit.com hooks

3042dd4

for more information, see https://pre-commit.ci

pylint

3a992ab

Signed-off-by: n1ck-guo <heng.guo@intel.com>

pylint

8c89cbc

Signed-off-by: n1ck-guo <heng.guo@intel.com>

merge

072ad76

Signed-off-by: n1ck-guo <heng.guo@intel.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

4c26487

for more information, see https://pre-commit.ci

pre-commit-ci bot and others added 5 commits May 21, 2024 07:09

[pre-commit.ci] auto fixes from pre-commit.com hooks

741c7cd

for more information, see https://pre-commit.ci

add example readme

0800df2

Signed-off-by: n1ck-guo <heng.guo@intel.com>

update

558dfd9

Signed-off-by: n1ck-guo <heng.guo@intel.com>

merge

d6de2b3

Signed-off-by: n1ck-guo <heng.guo@intel.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

693983f

for more information, see https://pre-commit.ci

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

h2o for kv cache compression #1468

h2o for kv cache compression #1468

n1ck-guo commented Apr 10, 2024 •

edited

github-actions bot commented Apr 10, 2024 •

edited

n1ck-guo commented May 21, 2024

h2o for kv cache compression #1468

Are you sure you want to change the base?

h2o for kv cache compression #1468

Conversation

n1ck-guo commented Apr 10, 2024 • edited

Type of Change

Description

Expected Behavior & Potential Risk

How has this PR been tested?

Dependency Change?

github-actions bot commented Apr 10, 2024 • edited

⛈️ Required checks status: Has failure 🔴

Groups summary

n1ck-guo commented May 21, 2024

n1ck-guo commented Apr 10, 2024 •

edited

github-actions bot commented Apr 10, 2024 •

edited