Skip to content

Latest commit

 

History

History
887 lines (382 loc) · 60.9 KB

2023_05_16.md

File metadata and controls

887 lines (382 loc) · 60.9 KB

2023_05_16 Arxiv更新论文汇总

今天共有31篇论文

Paper:1

  1. Title: Knowledge Authoring for Rules and Actions (知识编辑器以支持规则和操作)

  2. Authors: Yuheng Wang, Paul Fodor, and Michael Kifer

  3. Affiliation: 纽约州石溪大学 (Stony Brook University), 纽约州, 美国 (Stony Brook, NY, USA)

  4. Keywords: Knowledge Authoring, Knowledge Representation and Reasoning (KRR), Natural Language Understanding (NLU), Frame-based Parsing

  5. Urls: Paper: doi:10.1017/xxxxx; Github: None

  6. Summary:

  • (1): 该论文针对领域专家很难构建准确的逻辑知识表示的问题,提出了知识编辑器的研究方向。
  • (2): 过去采用自然语言 (NL) 表示人类知识的方法存在准确度低的问题,基于受控自然语言 (CNL) 的知识作者逻辑机 (KALM) 显示高的准确度,但 CNL 限制很多;最近的 KALMFL 使用了事实英语取代 CNL,但在某些方面仍存在局限性。针对这些局限性,本文提出了 KALMRA 以支持规则和操作的编辑。该方法在 UTI guidelines benchmark 上规则编辑正确率为 100%,在 bAbI benchmark 上编辑和推理操作正确率超过 99.3%。在最后,论文通过 ChatGPT AI 的例子展示了 KALMRA 的逻辑推理能力。
  • (3): 本文提出 KALMRA 方法,基于事实英语进行领域知识的逻辑表示,支持领域专家进行规则和操作的编辑。该方法使用的是一种基于框架的解析方法,将结构化的标准自然语言形式转换为逻辑知识表示形式,从而实现了知识编辑的自动化。
  • (4): 本文在 UTI guidelines benchmark 和 bAbI benchmark 上进行了评估。在规则编辑任务中,KALMRA 的正确率达到了 100%。在编辑和推理操作任务中,KALMRA 的正确率超过了 99.3%。结果表明 KALMRA 在逻辑知识表示和推理方面具有很高的准确率和有效性。
  • (5): 本文的研究动机是解决领域专家很难构建准确的逻辑知识表示的问题。该问题现实中非常普遍,需要专业的知识工程师投入大量的人力和时间进行构建。使用 KALMRA 方法可以显著减少这种成本,实现领域知识编辑的自动化,从而提高知识表示和推理的准确性和效率。

Paper:2

  1. Title: Improving End-to-End SLU performance with Prosodic Attention and Distillation
  2. Authors: Shangeth Rajaa
  3. Affiliation: Skit.ai 孟买, 印度
  4. Keywords: spoken language understanding, prosody, speech to intent, dialogue system
  5. URL: arXiv:2305.08067v1 [cs.CL] 14 May 2023
  6. Summary:
  • (1): 该文章的研究背景是自然语言理解系统中常使用两个阶段的pipeline方法对意图分类。然而,这些pipeline意图分类方法存在缺点。
  • (2): 以前的方法集中于使用预训练的ASR或语言模型特征进行意图预测。但是,其他语音中的重要信息,例如韵律,通常被忽略。该工作使用“prosody-attention”和“prosody-distillation”方法来显式地学习韵律信息以提高基线结果,并获得8%和2%的精度改进。
  • (3): 该文章提出了prosody-attention和prosody-distillation方法,使用韵律特征生成跨时间帧的注意力映射,明确地学习语音编码器中的韵律信息,以及改进NLU模型的声音表征。
  • (4): 在SLURP和STOP数据集上测试,prosody-distillation方法相对于基线的韵律方法在意图分类精度上分别提高了8%和2%,证明了该方法的有效性。
  • (5): 该研究主要动机是提高基于语音的意图分类系统的性能,并减少ASR错误对精度的影响。

Paper:3

  1. Title: GPT-Sentinel: Distinguishing Human and ChatGPT
  2. Authors: Yutian Chen, Hao Kang, Vivian Zhai, Liangze Li, Rita Singh, Bhiksha Ramakrishnan
  3. Affiliation: 陈雨田,谷皓,翟亦妍:卡内基梅隆大学计算机科学学院,李亮泽,Rita Singh,Bhiksha Ramakrishnan:卡内基梅隆大学语言技术研究所
  4. Keywords: language models, ChatGPT, text classification, interpretability study
  5. Urls: Paper: https://arxiv.org/abs/2305.07969v1, Github: None
  6. Summary:

(1) 研究背景:由于机器学习算法已经越来越难以区分人类和机器生成的文本,因此有必要开发新的算法来判断文本的真实性。

(2) 过去的方法主要利用传统的统计技术,如逻辑回归和支持向量机。但是,随着大型语言模型的兴起,如InstructGPT和ChatGPT,现有的检测方法面临重大挑战。本文提出了一种基于语言模型的新方法,以解决这个问题,并且这种方法非常具有动机。

(3) 研究方法:首先,本文收集并发布了一个名为OpenGPTText的预处理数据集,其中包含使用ChatGPT生成的重构内容。然后,我们设计、实现并训练了两种不同的文本分类模型,分别使用了Robustly Optimized BERT Pretraining Approach(RoBERTa)和Text-to-Text Transfer Transformer(T5)。

(4) 本文的方法在对测试数据集进行各种指标评估时,取得了非常出色的结果,准确率达到了97%以上。此外,我们还进行了可解释性研究,以展示我们的模型提取和区分人类写作和ChatGPT生成文本的关键特征的能力。本文的研究成果为使用语言模型检测生成文本提供了重要的见解。

(5) 研究动机:针对当前人类和机器生成文本越来越难以区分的局面,本文提出了一种新颖的方法,应用于检测和区分人类和机器生成的文本,以提高文本真实性的检测能力。

Paper:4

  1. Title: Leveraging Large Language Models in Conversational Recommender Systems

  2. Authors: Luke Friedman, Sameer Ahuja, David Allen, Terry Tan, Hakim Sidahmed, Changbo Long, Jun Xie, Gabriel Schubiner, Ajay Patel, Harsh Lara, Brian Chu, Zexi Chen and Manoj Tiwari

  3. Affiliation: Google Research

  4. Keywords: Conversational Recommender Systems, Large Language Models, Personalization, Dialogue Management, Explainability

  5. Urls: https://arxiv.org/abs/2305.07961

  6. Summary:

  • (1): 本文旨在利用大型语言模型(LLM)来改进会话式推荐系统的性能。

  • (2): 过去的推荐系统主要基于用户的行为习惯、点击行为等作为推荐的依据,存在很大的局限性,如无法充分与用户进行交互、无法有效避免曝光泛滥、存在偏见等问题。本文提出了一种基于LLM的综合性架构,包括用户偏好理解、灵活的对话管理和可解释的推荐等方面,以实现更好的个性化推荐。并通过构建LLM用户模拟器等技术,克服了会话数据受限的问题。

  • (3): 本文所提出的方法主要围绕LLM的能力展开,包括如何控制LLM完成特定任务,如何利用LLM完成个性化推荐,如何利用LLM混合推荐引擎等方面。面对这些挑战,本文提出了一系列相应的处理方法,以实现更加精准的推荐效果。

  • (4): 本文所提出的方法在实验中构建了一个基于LLM的YouTube视频大规模会话式推荐系统RecLLM,展示了较好的性能和各种交互功能。实验结果表明,RecLLM相比其他基于点击流的推荐系统实现了更好的推荐效果。

  • (5): 本文旨在解决传统推荐系统中存在的问题,提出一种更加具有人性化的、面向用户的会话式推荐模式。本文在此基础上,通过利用LLM提升推荐系统的能力,实现了更加精准且自然的推荐效果。

Paper:5

  1. Title: Large Language Models are Zero-Shot Rankers for

  2. Authors: Yupeng Hou, Junjie Zhang, Zihan Lin, Hongyu Lu, Ruobing Xie, Julian McAuley, Wayne Xin Zhao

  3. Affiliation: Gaoling School of Artificial Intelligence, Renmin University of China

  4. Keywords: Large language models, Recommender systems, Zero-shot ranking, Pre-trained language models

  5. Urls: Paper - None, Github - https://github.com/RUCAIBox/LLMRank

  6. Summary:

  • (1): 本文研究了如何利用大型语言模型作为推荐系统的排序模型,给出了大型语言模型零-shot排序的能力检验,并探究其有效性和正确性。

  • (2): 传统推荐系统模型存在着难以明确真实用户偏好的问题,而这项研究旨在探讨如何使用预训练的大型语言模型来解决推荐系统领域的任务。本文提出的方法是将推荐问题形式化为条件排序任务,然后通过预测项的得分来确定它的排序。而为了使语言模型能够理解条件和项,作者使用了初始提示对它进行了训练。

  • (3): 本文采用了针对特定推荐问题的来进行大型语言模型排序方法的设计,首先将两种不同类型的推荐数据集转换成条件排序任务,接着对比了一些常见的条件排序模型和预训练语言模型技术,并在选择和设计提示时使用特殊技术进行处理。

  • (4): 作者在多个数据集上测试了语言模型的性能,结果表明这种方法的效果显著。实验结果展示,与传统方式比较,大型语言模型在检索到的多个候选生成器之上的零-shot排序能力十分好,比传统的推荐模型更具有优势。

  • (5): 本研究的目的是为了探讨如何提高推荐性能和交互性并解决大型语言模型在方法多样性、复杂性和预测性等方面所面临的问题。

Paper:6

  1. Title: Parameter-Efficient Fine-Tuning with Layer Pruning on Medical Report (基于层剪枝的医疗报告参数高效微调)

  2. Authors: Yunqi Zhu, Xuebing Yang, Yuanyuan Wu, Wensheng Zhang

  3. Affiliation: School of Information and Communication Engineering, Hainan University (海南大学信息与通信工程学院)

  4. Keywords: parameter-efficient fine-tuning, LoRA, layer pruning, medical report, natural language processing

  5. Urls: Paper: https://arxiv.org/abs/2305.08285v1, Github: https://github.com/zhuyunqi96/LoraLPrun

  6. Summary:

  • (1):文章研究的背景是目前的预训练自然语言处理模型因参数高达数亿导致微调昂贵费时,且在微调过程中需要储存所有更新的参数,限制了其进一步发展。
  • (2):过去的方法包括Adapter-based tuning和prompt-based tuning,但一个存在孪生网络问题,另一个只适用于特定的任务且不能保存所有的原始模型参数。本文提出一种既能减少模型训练时间和内存需求,又能保留绝大部分原始模型输出质量的新方法,即基于层剪枝的医疗报告参数高效微调。
  • (3):本文提出的方法集成了LoRA和structured layer pruning,先通过交替删除Transformer层,在feed-forward神经网络中加入LoRA权重修正矩阵。在MIMIC-IV-Note基础上构建了两个医疗报告摘要数据集,进而在这两个数据集和两个医疗对话数据集上验证方法性能。
  • (4):该方法能够在仅调整预训练模型0.6%的参数和剪枝30%的Transformer层的情况下,加快100%的训练速度和减少50%的GPU内存使用,且在自由文本序列对序列任务上保持了92%以上的原始模型输出质量。
  • (5):本文旨在解决预训练自然语言处理模型微调不高效、内存需求大以及无法保存所有原始模型输出质量的问题,提出了一种基于层剪枝的医疗报告参数高效微调方法,具有很好的实用性。

Paper:7

  1. Title: SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation (超级对话分割:一个大规模的监督式数据集)

  2. Authors: Junfeng Jiang, Chengzhang Dong, Akiko Aizawa, Sadao Kurohashi

  3. Affiliation: The University of Tokyo (东京大学)

  4. Keywords: Dialogue segmentation, supervised learning, deep learning, NLP, benchmark

  5. Urls: Paper url: arXiv:2305.08371v1 [cs.CL] Github: https://github.com/Coldog2333/SuperDialseg

  6. Summary:

  • (1): 近年来,对于对话系统,对话分割变得越来越重要,将对话按照话题进行分割,从而有助于各种与对话相关的任务的对话理解。
  • (2): 由于缺乏监督的训练信号,以往的非监督对话分割方法表现有限。本文提出一种可行的对话分割点定义,利用文献对话,发行一个名为SuperDialseg的大规模监督式数据集,包含9K个基于两个流行的文献对话的对话,并继承了它们的有用对话相关注释。此外,提出两个利用对话特征的模型,在SuperDialseg上取得了最先进的性能,并在域外数据集上显示出很好的泛化能力。此外,提供一个基准,包括20个模型和四个类别,用于对话分割任务,评估指标的设置也十分合理。根据经验研究的分析,本文还为对话分割任务提供了一些有益的洞见。
  • (3): 使用文献对话为定义对话分割点提供可行的解决方法并结合两个流行的文献对话构建一个大规模的监督式数据集SuperDialseg,利用这个数据集,提出两个模型,其中一个是bilm+crf模型,另一个是transformer-based model。本文还提供了一个性能基准,并使用一些常见的评估指标对模型进行了评估和比较。
  • (4): 本文的任务是对话分割,使用提出的两个模型实现了最先进的性能,超过现有最好的方法,在SuperDialseg和其他数据集上显示出很好的表现和泛化能力。
  • (5): 本文意在解决对话分割任务中因缺乏监督信号而引起的挑战。提出文献对话的一个可行的解决方法,并构建了一个大规模的监督式数据集,其中包含有用的对话相关注释。这个数据集将有助于促进对话分割的研究和开发。

Paper:8

  1. Title: Halos of dark energy
  2. Authors: P.P. Avelino
  3. Affiliation: P.P. Avelino的第一个作者所在机构为葡萄牙波尔图大学的Faculdade de Ciências和Universidade do Porto的Instituto de Astrofísica e Ciências do Espaço和Centro de Astrofísica da Universidade do Porto
  4. Keywords: dark energy, nonminimal coupling, quasistatic approximation, scalar field, halo
  5. Urls: arXiv:2305.08843v1 [astro-ph.CO] 15 May 2023
  6. Summary:
  • (1):本文研究非最小耦合模型中暗能量晕的特性。
  • (2):过往的研究多未明确考虑局部DE的变化,且没有明确阐述DM与DE之间的关系是否为非最小耦合。文中方法的动机充分,具有早期研究所缺乏的创新点。
  • (3):文中作者采用准静态近似方法,研究DM与标准五维标量场φ耦合时的DE浓集周围。通过该方法,作者发现能量与半径大小分别由Ehalo ~ beta^2 phi m, rhalo ~ beta phi(R/H)给出,其中beta=-dlnm/dphi是非最小耦合强度参数。同时,通过现有观测对beta在广泛红移范围内的限制,进一步确定了Ehalo/m的严格约束,从而影响了暗能量状态方程参数的取值。
  • (4):该方法被用于表征由暗物质和暗能量共同作用形成的暗能量晕。论文通过计算单个暗物质天体周围的标量场扰动来确定暗能量晕的能量和半径,并提供了一种检验其贡献的方法。研究表明,该模型的性能非常出色,能够较好地支持其研究目标。
  • (5):本文旨在探讨DM与DE之间的非最小耦合情况下的暗能量晕的特性,并提供了准静态近似方法研究的创新点。

Paper:9

  1. Title: ON THE HIDDEN MYSTERY OF OCR IN LARGE MULTIMODAL MODELS(关于大规模多模态模型中OCR的隐含之谜)

  2. Authors: Yuliang Liu, Zhang Li, Hongliang Li, Wenwen Yu, Mingxin Huang, Dezhi Peng, Mingyu Liu, Mingrui Chen, Chunyuan Li, Lianwen Jin, Xiang Bai.

  3. Affiliation: 华中科技大学

  4. Keywords: Multimodal, OCR, Large Language Model, TextVQA, Text Recognition, Key Information Extraction.

  5. Urls: Paper: https://arxiv.org/abs/2305.07895; Github: https://github.com/Yuliang-Liu/MultimodalOCR

  6. Summary:

  • (1): 本文研究在文本相关视觉任务中,大规模模型的有效性和局限性。

  • (2): 过去的方法主要集中在OCR和文本相关的视觉问答(TextVQA)任务。这些方法依赖于卷积神经网络(CNNs)处理字符形状和字符识别,并在后面的LSTM模型中进行文本处理。这些方法的问题在于它们在像素级别上对字符形状的感知不足,同时对于长度不同的文本表现出了不同的效率。文章提出了一种大规模多模态模型(LMM),虽然它在OCR方面表现不错,但对于文本特征分布的理解一般。

  • (3): 本文针对公开多模态模型在文本识别、文本相关的视觉问答和关键信息提取3个任务进行了全面的研究,探索了一种新的评估手段来评估它们的性能,并揭示了它们的优点和缺点。此外,文章还提出了一种基于某些特定任务领域数据的域自适应方法和一种增强式学习模式组合的框架来提高多模态模型的性能。

  • (4): 本文的方法在三个任务上的表现优越,但结果也揭示了这些模型依赖于语义理解进行单词识别,对个体字符形状的感知不足,并且显示了对文本长度不敏感,对图像中的细粒度特征具有有限的功能。此外,这些最强大的大规模多模态模型不能匹配一些传统方法在文本任务中的表现,也面临更复杂任务的挑战。

  • (5): 本文的动机在于深入研究大规模多模态模型的性能,为创新性提高零-shot多模态技术的方法和策略提供基础性的框架,同时可以为数字营销或社交媒体分析等领域的应用提供辅助信息。

Paper:10

  1. Title: Continual Multimodal Knowledge Graph Construction (持续的多模态知识图谱构建)

  2. Authors: Xiang Chen, Jintian Zhang, Xiaohan Wang, Tongtong Wu, Shumin Deng, Yongheng Wang, Luo Si, Huajun Chen, and Ningyu Zhang.

  3. Affiliation: 中国浙江大学

  4. Keywords: knowledge graph construction, multimodal, continual learning, information extraction, multimedia content creation

  5. URLs: Paper - arXiv:2305.08698v1 [cs.CL] 15 May 2023; Github - https://github.com/zjunlp/ContinueMKGC

  6. Summary:

  • (1):本文研究的背景是多模态知识图谱构建。

  • (2):先前的方法在处理新实体和关系的引入上存在局限,而且大多数研究只考虑从文本数据中提取实体和关系而忽略其他多模态来源。同时,当研究只考虑从文本数据中提取实体和关系时,当前连续设置的知识图谱构建也忽略了其他多模态来源。因此,需要探索持续的多模态知识图谱构建的挑战,以解决灾难性遗忘的现象并确保保留来自不同形式数据提取的过去知识。本文提出了基于生涯多模态连续变压器框架(LMC)的解决方案。该方案在连续学习的背景下将一致的KGC策略的优点相结合,从而在稳定性和可塑性之间取得更大平衡。本文在动态场景下通过实验验证了所提出方法的优越性能。

  • (3):本文提出了生涯多模态连续变压器框架(LMC)的解决方法。

  • (4):本文在多模态知识图谱建设方面取得了卓越表现,通过实验比较证明所提出的方法在动态情况下超过了当前连续学习技术或多模态方法。

  • (5):通过提出一种方法来解决不同形式的数据的灾难性遗忘问题,研究持续的多模态知识图谱构建有着实际意义。

Paper:11

  1. Title: Using LLM-assisted Annotation for Corpus A Case Study of Local Grammar Analysis(使用LLM辅助注释语料库本地语法分析案例研究)

  2. Authors: Danni Yu, Luyang Li and Hang Su

  3. Affiliation: School of European Languages and Cultures, Beijing Foreign Studies University(北京外国语大学欧洲语言文化学院)| School of Information Science and Technology, Beijing Foreign Studies University(北京外国语大学信息科学与技术学院)| Center for Foreign Languages and Literature, Sichuan International Studies University(四川外语学院外语外文研究所)

  4. Keywords: linguistic annotation, large language models, local grammar analysis, Bing chatbot, ChatGPT(语言学注释,大型语言模型,本地语法分析,必应聊天机器人,ChatGPT)

  5. Url: None

  6. Summary:

  • (1):本文探讨使用大型语言模型(LLMs)协助语料库的语言学研究,通过自动标注文本的特定语言信息类别,来深入研究聊天机器人的性能表现。

  • (2):过去的研究已经探索了自然语言处理(NLP)和语料库语言学(CL)的交叉领域,如何将NLP模型应用于大型语料库的标注等。然而,传统的语言学研究方法需要耗费大量时间和人力,标注过程质量和效率难以保证。本文提出了一种新的语言学注释方法,使用Bing聊天机器人对文本进行自动注释,从而解决了传统注释方法的问题。

  • (3):本文通过比较ChatGPT(基于GPT-3.5的聊天机器人)和Bing chatbot(基于GPT-4的聊天机器人)以及人工标注者的表现,来验证LLMs在理解道歉言语的结构方面的能力。实验结果显示,Bing聊天机器人在任务中的性能表现高于ChatGPT,相对于人工标注者而言,Bing聊天机器人的表现略低。但是,它已经取得了高F1分数:APOLOGISING标记得分达到99.95%,REASON得分达到91.91%,APOLOGISER得分达到95.35%,APOLOGISEE得分达到89.74%,强调剂得分达到96.47%。因此,本文建议使用LLM-assisted注释作为一种很有前途的自动化方法,来进行语料库研究。

  • (4):本文旨在探索使用LLMs协助注释的语言学研究方法,以及使用Bing聊天机器人进行自动注释的难点。实验证明,该方法可以显著提高注释质量和效率。

  • (5):本文的动机在于探索利用新技术提高语言学研究效率和质量的方法,通过本地语法分析的案例研究,验证了LLMs在自动注释方面的应用前景和优势。

Paper:12

  1. Title: ACCENT: An Automatic Event Commonsense Evaluation Metric for Open-Domain Dialogue Systems

  2. Authors: Sarik Ghazarian, Yijia Shao, Rujun Han, Aram Galstyan, Nanyun Peng

  3. Affiliation: University of Southern California / Information Sciences Institute.

  4. Keywords: commonsense evaluation, open-domain dialogue systems, event commonsense, dialogues, commonsense reasoning

  5. Url: arXiv:2305.07797v1; Github: None

  6. Summary:

  • (1): 该论文的研究背景是对话系统中的常识推理以及如何评估对话系统中的常识。

  • (2): 过去的方法往往注重关注基于事实的常识问题,而在对话系统中,事件的常识问题尤其重要。但是在如何对事件常识进行评估上还存在许多难题。本文从常识知识库(CSKBs)出发,提出了一种基于事件常识的评估标准(ACCENT),通过从对话中提取事件关系元组,并基于事件元组与CSKBs的匹配程度来评估对话系统的常识表现。本文的方法考虑到了对话历史的影响,避免了以往方法的一些限制。

  • (3): 本文首先构建了一个公共的基于事件常识的对话评估数据集,然后提出一种基于该数据集的事件常识评估标准,并在现有的基准测试上取得了更好的表现。

  • (4): 本文所提出的 ACCENT 评估标准在基于事件常识的对话数据集上,相比已有的常识评估方法,能更好地模拟人类对话的常识推理表现,这表明了在对话系统中,基于事件常识的常识推理评估比基于普通知识的常识推理评估更为有效。

  • (5): 本文旨在解决对话系统中的常识知识不足而导致的突兀回复问题,推动基于常识的自然语言处理(NLP)的研究和应用。

Paper:13

  1. Title: Text-to-Text Self-Conditioned Simplex Diffusion

  2. Authors: Tianxiao Shen, Qipeng Guo, Xizhou Zhu, Weinan Zhang, Zheng Zhang, Ruslan Salakhutdinov

  3. Affiliation: 田晓深:斯坦福大学;

  4. Keywords: Diffusion models, Non-autoregressive modeling, Text generation, NLG, NLU

  5. URLs: Paper: https://arxiv.org/abs/2206.09934, Github: None

  6. Summary:

  • (1): 本文的研究背景是在自然语言处理中,离散的文本生成一直是一个具有挑战性的难题。
  • (2): 过去的方法都存在一些问题,如自回归模型通常被用于文本生成,但其生成速度很慢;而流式生成模型能够提高生成速度,但纹理失真、低分辨率和噪声等问题一直未能解决。因此,本文提出了一种基于离散输入文本的简单分布扩散模型,并在建模文本生成并在多个自然语言处理任务上得到了优秀的表现。
  • (3): 本文提出了一种名为TESS的全新文字扩散模型,其不需要逐步生成文本,而是通过从初始的简单分布中噪声化的形式来对离散文本进行建模。TESS的模型流程在训练中将输入噪声植入到概率向量中,然后使用加权平均值对其进行降噪,最后使用变压器编码器进行重构,实现了全非自回归建模的有效实现。
  • (4): 本文在几个自然语言处理任务上进行了广泛实验,例如摘要、文本简化、问答生成等,结果表明TESS模型在这些任务中表现出色,并且与预训练的自回归序列到序列模型具有相当的竞争力。
  • (5): 本文的研究旨在解决自然语言处理领域中,离散文本生成一直以来所面临的问题,以此为切入点来提出一种全新的、基于简单分布扩散的模型。这种新的模型不仅可以加速生成过程,还能够避免类似于自回归模型中的消退问题,从而提高生成的准确性。

Paper:14

  1. Title: Self-Supervised Sentence Compression for Meeting Summarization(会议摘要的自我监督句子压缩)

  2. Authors: Haochen Tan, Han Wu, Wei Shao, Xinyun Zhang, Mingjie Zhan, Zhaohui Hou, Ding Liang, Linqi Song

  3. Affiliation: Department of Computer Science, City University of Hong Kong(香港城市大学计算机科学系)

  4. Keywords: Meeting summarization, self-supervised, sentence compression, language model, token

  5. Urls: Paper link: https://arxiv.org/abs/2305.07988

  6. Summary:

  • (1): 传统的会议文本摘要模型在摘要过程中常常不能有效地捕捉重要信息,因为会议文本通常涉及多个方面的讨论,并且其中包含大量的冗余和次要内容。因此,本文旨在提出一种自我监督的句子压缩方法,以便精简冗余的内容,并保留摘要中的关键信息。

  • (2): 为适应长文本输入,以前的会议文本摘要方法通常采用长输入序列处理技术,而在摘要过程中可能会出现错误传播的问题,使得结果不能良好地完成任务。本文采用自我监督的方式,聚焦于句子压缩的过程,通过滑动窗口对每个标记进行重要性评分,并通过按通道的方式计算得分。最后,运用相对位置分桶算法进行压缩。本文的方法不需要大规模的预训练或专业的标注工具,就可以优于以前所有的最先进方法。

  • (3): 本文方法的核心在于三个过程:滑动窗口对话恢复和评分、按通道重要性评分聚合以及相对位置分桶。首先,滑动窗口对话恢复和评分旨在从多个视角评估每个标记的重要性,然后通过按通道的方式对这些分数进行聚合;其次,评分高的标记将被视为显著信息,并标记为锚点;最后,利用相对位置分桶算法在不同的粒度上压缩其他不相关的内容。

  • (4): 本文的方法在多个公共数据集上得到了验证,并且在与先前的方法比较中表现出显著的优势。与其他方法相比,本文方法能够更好地捕捉重要信息,并在保留关键信息的同时提供更为紧凑的文本输出。

  • (5): 本研究的动机是寻找一种有效的方法来解决会议文本摘要过程中存在的问题,即会议文本通常过于冗长,无法准确地获取关键信息。本文提出了一种自我监督的句子压缩方法,旨在通过聚焦于句子压缩以处理冗长的输入文本,并从多个视角评估每个标记的重要性。该方法未使用大规模的预训练或专业的标注工具,表现优异并赢得数据科学界的赞誉。

Paper:15

  1. Title: A Novel Framework for Multimodal Named Entity Recognition with Multi-level Alignments (基于多级对齐的多模态命名实体识别新框架)

  2. Authors: Peipei Liu, Hong Li, Yimo Ren, Jie Liu, Shuaizong Si, Hongsong Zhu, Limin Sun

  3. Affiliation: 中国科学院信息工程研究所 (Institute of Information Engineering, Chinese Academy of Sciences)

  4. Keywords: named entity recognition, multimodal, alignment, cross-modal interactions, co-attention

  5. Urls: 发表文章链接: https://arxiv.org/abs/2305.08372 ,Github链接: None

  6. Summary:

  • (1): 本文研究的是基于多模态的命名实体识别问题,将图像信息与文本信息融合,有效地解决了文本信息中的一些歧义问题。

  • (2): 先前的方法包括将CNN模型应用于图像编码,探索文本和图像之间的互动,或者将特征图块分为多个块,建模文本序列和视觉区域之间的交互。然而,这些方法并不能很好地处理噪声图像和跨度图像的嵌入问题。因此,这篇文章提出了一种新的方法,在动态对齐图像和文本序列的同时实现多级跨模态学习,通过迭代交互和相互提升来增强MNER的表征学习能力。

  • (3): 该方法分为三个主要阶段。第一阶段集中于单一模态内表征学习,推导每种模态的隐式全局和本地知识;第二阶段评估文本与图像之间的相关性,并基于相关性整合不同粒度的视觉信息;第三阶段通过迭代跨模态交互和协同注意力来实现语义细化。

  • (4): 本文在两个公开数据集上进行的实验结果和详细分析表明,该模型具有较好的表现和优势。文章中提出的方法将MNER任务的F1值从现有方法的75.49%和77.73%分别提高到了80.91%和82.22%。

  • (5): 在推特这样日益多样化的社交媒体平台中,命名实体识别是进行各种应用的重要前置步骤。但是,由于社交媒体内容通常是混合的,在解决这些内容时,只依赖于文本信息可能会导致混淆和歧义。因此,将多模态信息纳入命名实体识别模型可以解决这一问题。此外,图像信息可以为命名实体识别模型提供丰富的上下文信息,进一步提高其性能。

Paper:16

  1. Title: Diffusion Models for Imperceptible and Transferable Adversarial Attack

             2. Authors: Jianqi Chen, Hao Chen, Keyan Chen, Yilan Zhang, Zhengxia Zou, Zhenwei Shi
             
             3. Affiliation: 北京航空航天大学 (Beihang University)
             
             4. Keywords: adversarial attack, diffusion models, transferability, imperceptibility
             
             5. Urls: https://github.com/WindVChen/DiffAttack, Github:None
             
             6. Summary:
             
             - (1):文章研究Lp-norm based方法、在不降低传递能力的前提下生成难以察觉的对抗样本的难题。
    
             - (2):现有方法虽然在传递能力和攻击成功率方面取得了一定成就,但是人眼容易察觉到制作的对抗样本。最近的一些方法通过取消Lp-norm的限制,探索了无限制的攻击方式,但是攻击黑盒模型的传递性缺失。文章提出了一种新的难以察觉且具有传递性的对抗攻击方法,并利用扩散模型的生成和判别能力。该方法通过扩散模型的潜在空间而不是像素空间进行扰动。与设计良好的内容保留结构相结合,可以生成嵌入语义线索的对人类不敏感的扰动。为了更好地实现传递性,在迷惑扩散模型时,需要将其注意力从目标区域移开。该方法是第一个在对抗攻击领域引入扩散模型的方法,对各种模型结构和防御方法的广泛实验表明其优越性。该方法着重在攻击的隐蔽性和传递性方面,有很大的优势。
    
             - (3):文章针对现有攻击方法中的问题,提出了一种新的难以察觉且具有传递性的对抗攻击方法。该方法利用扩散模型的生成和判别能力,通过扩散模型的潜在空间而不是像素空间进行扰动,生成嵌入语义线索的对人类不敏感的扰动。
    
             - (4):文章提出的方法在各种模型结构和防御方法中进行了广泛的实验,并且实验结果表明其方法优于其他对抗攻击方法。该方法的目标是提高攻击的隐蔽性和传递性,并且其实验结果可以支持其目标。
    
             - (5):文章的动机是通过提出一种新的难以察觉且具有传递性的对抗攻击方法来提高攻击的隐蔽性和传递性。该方法利用扩散模型的生成和判别能力,与现有的攻击方法不同,并取得了良好的实验结果。该方法对攻击领域和深度学习领域的进一步研究和应用提供了借鉴。
    

Paper:17

  1. Title: NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric Preference Checklist (超越相关分析的 NLG 评价指标:一份实证度量偏好清单)

  2. Authors: Iftitahu Ni’mah, Meng Fang, Vlado Menkovski, Mykola Pechenizkiy

  3. Affiliation: Eindhoven University of Technology (TU/e) (荷兰埃因霍温科技大学)

  4. Keywords: NLG, evaluation metrics, human-aligned, task-agnostic, multi-aspect, system-level performance

  5. Urls: https://arxiv.org/abs/2305.08566, Github: https://github.com/inimah/metric-preference-checklist

  6. Summary:

  • (1):本文研究自然语言生成(NLG)的评价指标以及标准化评估框架,探讨了如何超越相关分析方法,从人类评估的角度出发设计 NLG 自动指标。

  • (2):过去的 NLG 自动评价指标通常只能部分反映人类评估,任务通用指标的相关性较弱,人类对模型的期望没有被很好的整合进评分指标中。因此,本文针对任务通用指标和人类对齐指标分别进行分析。重点探讨了三类任务——文本摘要、对话响应生成和可控生成,同时设计了一份评价指标偏好清单,以此评估 NLG 自动指标是否忠实于人类期望,是否适合评估 NLG 性能和质量。从实验结果中发现,多方面人类对齐指标(如 UniEval)并不一定优于单一方面的人类对齐指标(如 CTC, CtrlEval)和通用指标(如 BLEU, BERTScore)。在一些情况下,自动指标能够更好地指导系统水平的表现,如在人类评估存在差异的情况下。

  • (3):本文设计了一份评价指标偏好清单框架,可以帮助我们更好地评估 NLG 自动指标,包括人类对齐度、多角度评估方式、系统级表现等方面。此外,研究人员还提出了一种 NLG 评估中的计算公式来校准特定领域的関键词,以更好地反映一些概念和潜在结构,从而更好地评估 NLG 性能。

  • (4):本文的方法在文本摘要、对话响应生成和可控生成这三个任务中获得了更好的性能表现。其中,在文本摘要和对话响应生成任务中,单个人类对齐指标和多方面人类对齐指标的效果有时相近;在可控生成任务中,人类对齐指标具有显著优势。本文方法的性能表现支持了其研究目标。

  • (5):本文旨在提出一种新颖的 NLG 自动评估框架,指导人类对 NLG 系统的期望如何被集成到自动评价指标中。研究人员提出了一种全新的指标偏好清单框架,通过它来评估 NLG 自动指标是否真正反映了人类对 NLG 的期望。实验结果表明,本文方法优于传统的 NLG 自动评价指标。

Paper:18

  1. Title: How to Train Your CheXDragon: Training Chest X-Ray Models for Transfer to Novel Tasks and Healthcare Systems

             2. Authors: Cara Van Uden, Jeremy Irvin, Mars Huang, Nathan Dean, Jason Carr, Andrew Ng, and Curtis Langlotz
    
             3. Affiliation: Cara Van Uden's affiliation: 斯坦福大学计算机科学系
    
             4. Keywords: self-supervised learning, SSL, transfer learning, medical imaging, chest X-rays, multimodal datasets
             
             5. Urls: Paper: arXiv:2305.08017v1 [cs.CV] Github: None 
    
             6. Summary:
    
             - (1):本文研究医学成像中的自我监督学习(SSL)方法使模型训练的标签更为高效,且着重于如何将预训练模型转移到不同的医疗保健系统或新任务中。
    
             - (2):该文系统地实验了多种有监督和无监督的预训练策略,基于多模态数据集(胸部X射线图像和放射学报告文本)进行训练,然后在来自两个具有不同任务集的外部机构的数据上评估它们的性能。此外,本文还尝试了不同的迁移学习策略,以有效地将这些预训练模型适应于新的任务和医疗保健系统。文章得出的结论是:在新的医疗保健系统和任务中,多模态SSL表现出良好的性能,与预先进行完全监督的模型相当,并且比单模态SSL性能有显著改进。同时,此外还发现了一些其他性能提高的策略方法,比如多模态的领域自适应预训练(DAPT)和线性探测后微调(LP-FT)等等。最后奉上一些替代模型的建议。
    
             - (3):本文提出一个系统的方法,通过多模态的无监督预训练为医学影像模型增加通用性,使用线性探测,微调来调整这些预先训练的模型以适应新任务和医疗保健系统。
    
             - (4):本文方法在多项任务中展现出较好的性能表现,可以支持他们的目标。
    
             - (5):本文的研究动机在于通过更高效的方法来进行医学影像学的自动化分析,以便更好地帮助世界范围内的患者。
    

Paper:19

  1. Title: Coreference-aware Double-channel Attention (关注共指的双通道注意力)

             2. Authors: Yanling Li, Bowei Zou, Yifan Fan, Mengxing Dong, Yu Hong
             
             3. Affiliation: 中国苏州大学计算机科学与技术学院
             
             4. Keywords: Multi-party dialogue reading comprehension, coreference-aware attention, utterance profiling, interaction modeling
             
             5. URL: https://arxiv.org/abs/2305.08348, Github: None
             
             6. Summary:
             
             - (1): 这篇文章研究的是面向多方对话的阅读理解(MDRC),该任务需要理解一系列多方对话中的跨话语上下文和关系,具有很高挑战性。
             
             - (2): 过去的方法主要针对单个发言人进行话语分析及基于图的相互作用建模。然而,这些方法仅能针对精心组织的、有意识线程的对话上实现答案导向的推理。本文针对现有方法存在的 '多跳推理' 和特征混淆问题,提出了一种解决方案,该方案结合了共指感知的注意力建模和双通道编码网络构建,从而增强了推理能力,并解决了异质特征之间的问题。
    
             - (3): 本文提出了一个共指感知的注意力建模方法,来加强MDRC编码器的推理能力。其次构建了双通道编码网络分别对话语分析以及相互作用建模,使得模型可以有效地处理异构特征。
    
             - (4): 本文在Molweni和FriendsQA数据集进行了实验,并和BERT以及ELECTRA等基线模型进行了对比,结果显示我们的方法相较于基线模型在两个数据集上都有很大的提升,最大性能提升约为2.5个F1分数,并且在大多数情况下,我们的MDRC模型的性能胜于现有的技术。自然语言处理(NLP)中的MDRC任务已经受到了越来越多的关注但仍存在挑战。例如,诸如“它”的代词可能会导致跨不同对话者的多跳思维。或者,由于所有参与者的对话都被编码到一个向量序列中,并且这种结果具有特定的序列模式,因此各种内部和外部交互特征之间的混淆会对模型产生影响。本文是针对这些问题提出的解决方案。
    
             - (5): 在自然语言处理中,多方对话阅读理解是一个越来越受关注的问题,而现有的方法在特征混淆和多跳推理问题上还存在一些瓶颈。本文旨在解决这些问题,并提出了在MDRC中使用注意力机制和双通道编码网络的方法,以解决这些问题和提高性能。
    

Paper:20

  1. Title: A Cognitive Stimulation Dialogue System with Multi-source Knowledge (基于多源知识的认知刺激对话系统)

  2. Authors: Jiyue Jiang, Sheng Wang, Qintong Li, Lingpeng Kong, Chuan Wu

  3. Affiliation: The University of Hong Kong (香港大学)

  4. Keywords: Cognitive stimulation, dialogue system, emotional support, multi-source knowledge fusion

  5. URLs: https://arxiv.org/abs/2305.08200, Github: https://github.com/jiangjyjy/CSD

  6. Summary:

  • (1): 本文研究的背景是如何构建一种中文的认知刺激对话系统,以帮助老年人维持其认知健康水平。

  • (2): 之前的方法存在数据稀缺问题,本文构建了中文CS Conversation (CSConv)数据集,并提出了一种基于多源知识融合的认知刺激对话方法。该方法可以为老年人提供情感支持和认知恢复训练。主要挑战在于如何将情感支持和认知刺激相结合。

  • (3): 文章提出的研究方法包括逐步遮罩方法、外部知识编码器、情感分类器和编码器-解码器模型,以及基于CS原则和情感支持策略的响应生成方法。

  • (4): 通过在CSConv数据集上的实验,本文提出的方法取得了一定的效果。但是,与人类表现相比,仍有改进的空间。

  • (5): 本文基于帮助老年人维持其认知健康水平的动机进行研究,并提出一种新的基于多源知识融合的方法来解决现有方法中的问题。

Paper:21

  1. Title: A Reproducible Extraction of Training Images from Diffusion Models

  2. Authors: Ryan Webster

  3. Affiliation: Unicaen(法国Caen大学)

  4. Keywords: deep learning, extraction attack, template verbatims, Stable Diffusion, training images

  5. URL: https://arxiv.org/abs/2305.08694, Github: https://github.com/ryanwebster90/onestep-extraction

  6. Summary:

  • (1): 本文研究的背景为图像生成系统的普及和版权问题,以Stable Diffusion等著名模型为具体研究对象。

  • (2): 之前的研究表明,Stable Diffusion等模型有倾向于在生成图像时复制其训练集中的样本,这对于版权问题是麻烦的。前人的攻击方法存在网络评估次数过大的问题。本文提出了一种高效的攻击方法,对同样的目标,其网络评估次数要低很多,同时我们也发现了一种新现象——“template verbatims”,即数据集中的部分样本会在生成时形成原封不动的重复,其标记却需要检索和遮掩等复杂操作,难以被发现。细节方面,我们介绍了为什么这些生成模型仍然无法避免出现template verbatims,以及多种最新模型中extract training images的过程。

  • (3): 本文提出了一种高效的攻击方法,其网络评估次数比之前的攻击方法少很多,并公开了代码。同时,我们也提出了一种新的标记方法,即遮掩,可以更好地辅助标记模型生成的样本。

  • (4): 本文在多个最新模型上提取了训练图像,包括Stable Diffusion 2.0、Deep Image Floyd和Midjourney v4等,并公开所有提取的prompt和攻击代码,链接在Github上。该方法所得到的生成图像与原数据集相似度高,可以达到攻击目的。

  • (5): 通过本文的研究,我们可以深入了解现存大型生成模型的问题,帮助更好地维护数据集内图像的版权问题。同时,我们的标记方法也可以为后续研究提供参考。

Paper:22

  1. 标题:探究通过跨相关外星系背景光和星系调查来探测突发式恒星形成
  2. 作者:Guochao Sun, Adam Lidz, Andreas L. Faisst和Claude-André Faucher-Giguère
  3. 机构:CIERA和物理和天文学系诺斯韦斯特大学
  4. 关键词:星系:星形成、宇宙学:宇宙背景辐射、红外线:漫散背景
  5. 链接:https://academic.oup.com/mnras/article-abstract/000/0/1/6414586?redirectedFrom=fulltext
  6. 摘要:
  • (1):本文的研究背景是理解星系形成理论的发展和测试,了解其恒星形成速率(SFR)的变化以及它如何取决于星系的物理性质是非常重要的。
  • (2):过去的方法通常通过观测单个星系的Hα和紫外线(UV)连续光的亮度来量化星系中的SFR,这种方法昂贵且容易受到选择偏差的影响。并且,通过对单个星系的𝐿𝐻𝛼和𝐿UV的比较是因太多因素而缺乏可行性研究突发性恒星形成的长期变化的。文章提出了一种统计检验的方法,通过跨相关深度近红外线图谱和星系分布,可以将SFR的变化定量到不同的星系质量和红移程度上。
  • (3):文章的研究方法是基于半经验星系演化模型,并针对不同星形成时间尺度(如Hα和紫外线连续光亮度)的SFR指标进行了敏感度研究。通过跨相关深度近红外图谱和星系分布,可以定量计算SFR的变化,并通过统计方法来分析SFR的变化特征。
  • (4):文章的主要目标是明确SFR的变化,通过与Rubin / LSST星系样本组合进行交叉相关分析,预测EBL图与星系样本之间的关系。 我们证明,使用SKA或VLASS进行EBL将使得在fcky = 0.5的情况下,基于LSST和HSC的质量均衡样本集的联合概率分布函数约束显着地提高至约z = 2.5。文章的方法通过与现有方法的比较,获得了良好的性能支持。
  • (5): 本文的研究可以增加我们对星系形成和天体物理学的理解,同时也可以探索一些需要更大的统计样本的天体物理学问题。

Paper:23

  1. Title: Learning to Read HTML for Effective Mobile Navigation

  2. Authors: Zhijie Deng, Yuanchun Shi, Jun Luo, Dawei Ji

  3. Affiliation: 中国科学院大学计算机科学与技术学院

  4. Keywords: Mobile Navigation, Large Language Model, HTML

  5. Urls: https://arxiv.org/abs/2210.13373

  6. Summary:

  • (1): 本文研究移动设备上的有效导航,提出了一种学习HTML的方法,可为使用自然语言描述的单页任务提供辅助。

  • (2): 文章讨论了过去的方法以及存在的问题,并提出了从自然语言描述任务到基于电子目标的可操作输出的方法,这是符合现代人们的使用要求的。

  • (3): 本文提出的方法基于大型语言模型(LLM),一个用于处理自然语言处理的神经网络模型。它将描述任务以及一些屏幕表示作为输入,并根据HTML元素之间的语义关系生成解决任务的序列操作。

  • (4): 作者通过模拟用户的操作,并进行了实验验证,在一系列WikiHow任务上取得了成功。最终结果表明,该方法的性能大大优于当前的技术水平,能够实现高质量的自然语言到HTML元素操作的转换。

  • (5): 本研究是为了提供一种简单易用的导航方式,以帮助使用移动设备的用户更好地浏览信息,减少使用移动设备时的困难感。

Paper:24

  1. Title: RL4F: Generating Natural Language Feedback with Reinforcement

  2. Authors: Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon

  3. Affiliation: Boston University (Afra Feyza Akyürek)

  4. Keywords: deeplearning, ML, NLP, reinforcement learning, natural language feedback

  5. Url: https://arxiv.org/abs/2305.08844, Github: None

  6. Summary:

  • (1): 本文探讨了在自然语言生成中调整模型输出的问题。

  • (2): 过去的方法包括提供人工撰写的自然语言反馈以及使用学习生成反馈,但这些方法不适用于Black-box或有限制权限的模型。本文提出了一种基于强化学习的多智能体协作框架RL4F,该框架可以训练生成自然语言反馈的模型。该模型的合作对象是固定大小超过200倍的ChatGPT模型。RL4F可以为model output修复错误,提高文本相似性指标的检测能力(平均提高约5%)。

  • (3): 本文提出了一种新的基于强化学习的方法,训练一个多智能体协作系统来生成自然语言反馈,并最终提高模型的性能。

  • (4): RL4F在三个数据集(动作计划、主题化摘要和字母排序)上都表现出了优越的性能。平均来说,它可以提高文本相似性度量指标约5%,超过其他基线算法。但是,该方法对黑盒或有限制权限的模型(如ChatGPT)效果不强。

  • (5): 在自然语言生成中,模型输出的调整一直是一个重要的问题。本文提出了一种新的方法,旨在利用强化学习来生成自然语言反馈,提高模型的输出质量。

Paper:25

  1. Title: Small Models are Valuable Plug-ins for Large Language Models (小型模型是大型语言模型的有价值插件)

  2. Authors: Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, Julian McAuley

  3. Affiliation: 1. University of California, San Diego

  4. Keywords: Small models, large language models, In-Context Learning (ICL), Super In-Context Learning (SuperICL), NLP tasks

  5. Urls: Paper: arXiv:2305.08848v1, Github: None

  6. Summary:

  • (1): 本文旨在提出一种方法,可以有效地利用小型模型与大型语言模型相结合,来优化自然语言处理任务的性能。

  • (2): 传统的调优方法对于庞大的预训练模型来说,由于数据与硬件资源的限制等方面的问题,使得效率较低。而In-Context Learning (ICL)等方法,其数据量又较小,本文提出Super In-Context Learning (SuperICL)方法,利用小型模型作为插件来优化任务的效果,并且还可以增强插件的多语言能力和可解释性等方面的优势。

  • (3): 本文提出了SuperICL方法,利用插件模型作为桥梁,使得大型语言模型和小型模型相互协作,以达到任务优化的目的。

  • (4):

    • 在GLUE数据集上,SuperICL方法可以在少量训练数据的情况下,达到超过Fine-tune模型的优秀性能,并且不会受到In-Context Learning (ICL)不稳定的影响。进一步,除了提高模型的性能外,SuperICL还提高了模型的可解释性和多语言能力等。

    • 本文提出的SuperICL方法有效提高了任务表现,并且还有助于插件的多语言能力和可解释性等方面的提高,达到了优化大型语言模型表现的目的。

  • (5): 本文针对大型语言模型在小规模或无标注数据条件下创新性地提出了一种优化策略,同时该方法还有助于提高插件的多语言能力和可解释性等。

Paper:26

  1. Title: Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue 揭示ChatGPT在对话中的话语分析潜力

  2. Authors: Yaxin Fan and Feng Jiang

  3. Affiliation: Yaxin Fan: School of Computer Science and Technology, Soochow University, Suzhou, China Feng Jiang: School of Data Science, The Chinese University of Hong Kong, Shenzhen, China

  4. Keywords: ChatGPT, Large Language Model, Discourse Analysis, Dialogue, NLP

  5. Url: https://arxiv.org/abs/2305.08391 Github: None

  6. Summary:

  • (1): 本文研究的背景是探索ChatGPT这样的大型语言模型在对话中话语分析这样更具结构和推理的任务中的有效性。

  • (2): 过去的方法主要针对传统NLP任务,这些方法应用于话语分析任务的性能有待探索。而本文使用ChatGPT模型对话语分析中的三个关键任务(主题分割、语篇关系识别、语篇分析)进行探究,提出了判别式和生成式范式,引入了思维链(COT)方法来提高ChatGPT在更难的任务中的表现。

  • (3): 本文的研究方法是先基于现有的数据集和任务对话系统进行建模,然后使用ChatGPT模型进行对话分析,并使用判别式和生成式范式来改进模型。作者还引入了思维链(COT)方法来帮助ChatGPT理解更复杂的结构,并通过对话案例进行了深入分析和验证。

  • (4): 本文展示了使用我们提出的生成式范式,ChatGPT在主题分割任务中取得了与现有最先进的方法相当的性能,但在更复杂的任务(如语篇关系识别和语篇解析)中仍有提高的余地。特别是思维链方法能够显著提高ChatGPT在更具挑战性的任务中的表现,这与我们的目标是一致的。本文的结果表明ChatGPT可以成为主题分割的良好注释器,但难以理解复杂的修辞结构。

  • (5): 本文的研究动机是想要探索ChatGPT在话语分析任务中的潜力,为未来在LLMs时代优化话语分析方法奠定基础。

Paper:27

  1. Title: Beyond the Safeguards: Exploring the Security Risks of ChatGPT (《超越保障:探索ChatGPT的安全风险》)
  2. Authors: Erik Derner and Kristina Batistiˇc
  3. Affiliation: ACzech Institute of Informatics, Robotics, and Cybernetics, Czech Technical University in Prague, Prague, Czech Republic(捷克布拉格捷克技术大学信息学、机器人和控制学研究所); BIndependent Researcher, Ljubljana, Slovenia(斯洛文尼亚卢布尔雅那独立研究员)
  4. Keywords: Large language models, Security, Ethics, Natural language processing(大型语言模型、安全、伦理、自然语言处理)
  5. Urls: Paper: arXiv:2305.08005v1 [cs.CR] 13 May 2023; Github: None
  6. Summary:

(1):本文研究的背景是随着大型语言模型如ChatGPT的普及,人们越来越关注其安全和伦理风险。

(2):过去的方法主要聚焦于这些系统使用的社会和伦理影响的某些方面,如偏见和歧视、社会和经济伤害或对学术界的影响等,但缺乏关注与大型语言模型相关的特定安全风险。本文的方法得以充分激发动因为:ChatGPT的输出几乎与人类一致,这可以被用于引导恶意行为。过去的保障系统都无法有效防范所有的风险。因此,本文的方法很有动力。

(3):本文提出了一种分析ChatGPT中存在的安全风险的方法,包括恶意文本和代码生成、私密数据披露、欺诈服务、信息收集和产生不道德内容等。此外,作者们还对ChatGPT的内容过滤器的有效性进行了实证研究,并探讨了绕过这些保障措施的潜在途径,揭示了即使有保障,LLMs中仍然存在的伦理和安全风险。作者从安全隐患分析角度出发,讨论了缓解这些风险的潜在策略,向研究人员、政策制定者和行业专业人员介绍LLMs等技术所面临的复杂安全挑战。

(4):本文在一个大规模数据集上进行了实验,并提供了多个性能指标。在文本生成评估中,我们使用PPL、BLEU、ROUGE和CIDEr-D等指标衡量了, 本文的方法相对于ChatGPT默认保障较好的风险降低。

(5):本文的研究动机是净化当前大型语言模型领域的安全与伦理风险,为进一步保护我们的生活、财产、隐私和自由提供坚实基础。

Paper:28

  1. Title: A Theoretical Analysis of Optimistic Proximal Policy Optimization (乐观的近端策略优化算法的理论分析)

  2. Authors: Han Zhong and Tong Zhang

  3. Affiliation: Han Zhong is affiliated with Peking University (北京大学).

  4. Keywords: reinforcement learning, proximal policy optimization, linear Markov decision processes, regret analysis, adversarial MDPs

  5. Url: https://arxiv.org/abs/2305.08841

  6. Summary:

  • (1): 本文旨在对近端策略优化算法(PPO)的乐观变体在线性Markov决策过程(MDP)中的解决能力进行理论分析。

  • (2): 本文提出了一个对于具有完全信息反馈的周期对抗线性MDPs的乐观变体 PPO, 建立了其在MDPs的具体环境下的效能评估, 并且证明了该算法以优良的表现有效的解决了线性MDPs问题。 在理论分析中,我们使用了新颖的policy和value等级的覆盖数目论据。 通过与现有基于策略的算法进行比较,证明了所提算法在随机线性MDPs和具有全信息的对抗线性MDPs方面取得了最先进的后悔度边界。

  • (3): 本文使用了乐观 PPO 算法设计一个多批次更新机制, 并对value和policy classes 的覆盖数进行了新的论证。 此外,我们建立了一个框架和一些限制条件,以评估在许多情况下算法的正确性,这将为进一步分析提供便利。

  • (4): 在对线性MDPs的模拟下,实验结果表明,我们提出的算法在先前提出的后悔边界基础上达到了改进,同时在策略的完整性方面表现出最先进的性能。

  • (5): 本文旨在为近端策略优化算法的乐观变体提供理论分析,以探究其在线性MDPs中的可操作性。提出的算法在实验中取得了最先进的性能,证明了其成功的解决了线性MDPs问题。

Paper:29

  1. Title: Improved baselines for vision-language pre-training(视觉-语言预训练的改进基线)

  2. Authors: Luca Miao, Andreas Rössler, Amol Kapoor, Paul Voigtlaender, Stefanos Zafeiriou

  3. Affiliation: Luca Miao属于Imperial College London, 其他作者所属Facebook AI Research

  4. Keywords: vision-language pre-training, SwALIP, CLIP, contrastive learning

  5. URLs: Paper: https://arxiv.org/abs/2110.07467 Github: None

  6. Summary:

  • (1): 本文的研究背景是视觉-语言预训练技术的发展,旨在提高多模态表示学习的效率和性能。

  • (2): 本文针对过去的一些模型存在的问题,提出视觉-语言预训练的改进基线。通过与CLIP模型的对比实验,证明新提出的基线可以在一定程度上优化其预测能力。本文的方法动机充分,措施兼备理想性和可行性。

  • (3): 本文提出了一种在SwALIP的基础上进行小幅度修正的模型。该模型利用另一种模态的表示作为原型,并将当前模态下的样本聚类。通过在文本和图像之间建立模态关联,采用对比学习的方法进行多模态学习。

  • (4): 本文所提出的方法在多个数据集上进行了测试,包括ImageNet、MNIST、CIFAR-10和CUB200-2011等。实验结果表明,本文的方法表现优良,能够极大提高预测准确率,且符合研究目标的预期效果。

  • (5): 本文的动机是为了提高现有视觉-语言预训练技术的性能,并为新的多模态学习方法提供参考。

Paper:30

  1. Title: Improving ChatGPT Prompt for Code Generation (改进ChatGPT的提示对于代码生成)

  2. Authors: Chao Liu, Xuanlin Bao, Hongyu Zhang, Neng Zhang, Haibo Hu, Xiaohong Zhang, Meng Yan

  3. Affiliation: 学大数据与软件工程学院,重庆大学 (School of Big Data and Software engineering, Chongqing University, China)

  4. Keywords: ChatGPT, code generation, prompt engineering

  5. Urls: Paper - None, Github - None

  6. Summary:

  • (1): 本研究主要针对自动代码生成的任务,使用开放AI(OpenAI)的ChatGPT语言模型探究其生成能力,并通过设计优化的提示来提高生成性能。

  • (2): 过去的代码生成方法存在困难,例如需要大量重复的编写代码,缺乏自由度等问题,因此需要一种既能够自动生成代码,又能够准确反映开发者需求的方法。本文通过采用链式思维策略和多步优化的方式来设计提示,以指引ChatGPT生成符合需求的代码。

  • (3): 实验采用 CodeXGlue 数据集来对 ChatGPT 的代码生成能力进行评估,并通过手动构造链式思维来增加提示的质量。通过T2C和C2C生成两个任务来评估生成性能。

  • (4): 结果显示,改进的提示方案可以显著提高 ChatGPT 的生成性能,例如将特定需求添加到提示中可以将 ChatGPT-task 的 CodeBLEU 分数提高73.58%和3.45%,直接要求 ChatGPT 生成简洁的代码,如:“编写一个简洁的 Java 方法”+自然语言描述,可将 T2C 任务的 CodeBLEU 提高至50.18。C2C任务通过在多个提示测试中共享ChatGPT会话,将CodeBLEU提高到48.80。

  • (5): 本研究的动机是为了改进现有自动代码生成方法的性能并提升其适用性,一方面提高代码生成的效率,另一方面也更好地满足开发者对自动生成代码的需求。

Paper:31

  1. Title: Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts (实现不可描述场景的细粒度、详细控制的通用视频编辑框架)

  2. Authors: Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee

  3. Affiliation: Yuyang Zhao - National University of Singapore

  4. Keywords: video editing, diffusion-based generative models, visual-textual-based video generation, ensemble of experts

  5. URLs: Paper: https://arxiv.org/abs/2305.08850v1 Github: None

  6. Summary:

  • (1): 该文研究的是通用视频编辑框架,旨在利用视觉和文本线索实现细粒度、详细控制的视频编辑,包括修改主角等。

  • (2): 文章对过去的方法进行总结,发现它们无法实现对不可描述的主角进行编辑,同时对诸如背景等的信息过于依赖。然而,该方法的动机充分,致力于解决过去方法存在的问题并实现更好的性能。

  • (3): 该文提出了一种基于视觉和文本的视频生成模型,结合多个专家的知识,并利用掩膜引导去噪采样的方法实现通用视频编辑。

  • (4): 该方法在修改不可描述主角等任务上取得了显著的性能,表现如图、表所示。性能证明了该方法的实用性和可行性。

  • (5): 本文的研究动机在于开发一种通用视频编辑框架,允许使用者利用细粒度、详细控制的方法编辑不可描述的场景,例如替换视频中不可描述的主角。