Skip to content

Latest commit

 

History

History
116 lines (66 loc) · 4.46 KB

README.zh-CN.md

File metadata and controls

116 lines (66 loc) · 4.46 KB

SecBERT

standard-readme compliant Donate

中文说明 | English

SecBERT 是一个在网络安全领域的文本上训练得到的 BERT 模型,旨在学习网络安全领域的知识。

本项目使用预训练的语言模型BERT(Bidirectional Encoder Representations from Transformers)来处理网络安全领域的文本数据,以提高恶意软件分类的准确性。BERT是一种基于Transformer架构的深度学习模型,可以捕捉句子中的上下文信息,从而更好地理解文本数据。该项目使用BERT作为预训练的语言模型,在其基础上进行微调,以适应网络安全领域的文本分类任务。具体来说,该项目使用了一个名为SecBERT的BERT模型,用于对恶意软件进行分类,其输入数据包括二进制文件和文本文档等。通过对SecBERT模型的微调,该项目取得了在公开数据集上的较好表现,证明了利用预训练的语言模型处理网络安全文本数据的可行性和有效性。

Table of Contents

下载预训练模型

SecBERT 模型目前可以直接通过 Huggingface的框架直接安装使用:

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("jackaduma/SecBERT")

model = AutoModelForMaskedLM.from_pretrained("jackaduma/SecBERT")


tokenizer = AutoTokenizer.from_pretrained("jackaduma/SecRoBERTa")

model = AutoModelForMaskedLM.from_pretrained("jackaduma/SecRoBERTa")


预训练模型权重

已发布了预训练模型的 pytorch 版本。 使用 Hugging Face library 创建了pytorch 版本, 在此,本 repo 展示了如何使用。

Huggingface Modelhub

在你自己的模型中使用 SecBERT

SecBERT 模型包含了所有必须的文件,和BERT的格式一直,可以在你自己的模型中插入使用。

If you use PyTorch, refer to Hugging Face's repo where detailed instructions on using BERT models are provided.

Fill Mask

我们旨在建立一个 网络安全领域的文本上的语言模型,可预见的是, 它可以明显提高网络安全领域的文本相关的下游任务 (NER, 文本分类, 语义理解,问答等)。

如下,展示了 Fill-Mask pipeline ,对比 Google Bert, AllenAI SciBert 和 这里训练的 SecBERT .

cd lm
python eval_fillmask_lm.py

Downstream-tasks

TODO


Star-History

star-history


Donation

If this project help you reduce time to develop, you can give me a cup of coffee :)

AliPay(支付宝)

ali_pay

WechatPay(微信)

wechat_pay

License

MIT © Kun