2023_05_19 Arxiv更新论文汇总

今天共有37篇论文

Paper:1

Title: X-IQE: eXplainable Image Quality Evaluation

         2. Authors: Yixiong Chen

         3. Affiliation: 香港中文大学深圳数据科学研究院

         4. Keywords: explainable, image quality evaluation, large language models, text-to-image generation, transparency, cost-effective, efficient 

         5. Urls:

Paper: arXiv:2305.10843v1 [cs.CV] 18 May 2023

Github: https://github.com/Schuture/Benchmarking-Awesome-Diffusion-Models

          6. Summary:
          - (1):本文研究背景是图片质量评估在实际应用中的重要性。
          - (2):现有的评估方法可以被归为人工评估和模型评估两大类，但是这两种方法都存在一定的缺陷。本文提出的基于大型语言模型LMM的可解释图像质量评估方法X-IQE，可以在不需要模型训练或微调的情况下，通过生成文本解释来评估文本到图像生成方法的表现。X-IQE 的优点在于它可以区分真实图像和生成图像，评估文本和图像之间的对齐情况，评估图像的美学质量等。相较于人工评估，X-IQE 更具成本效益和高效性，并且可以显著提高深度图像质量评估模型的可解释性和透明性。同时，X-IQE 在 DrawBench 数据集上的表现媲美现有的 COCO Caption 数据集上的评估方法，解决了以前的评估模型在处理曲解的生成提示和识别生成图像中的文本时存在的缺陷。
          - (3):本文提出的方法利用64层的MiniGPT-4和一个分层的思维链来生成模型输出解释文本，该文本具有和人工评估高度相关性的优点。本文还介绍了一种多标签损失函数，同时考虑了图像文本对齐性和文本转换一致性的情况。                
          - (4):本文通过在 Diffusion model 生成的图像上验证 X-IQE 方法的效果。结果表明，X-IQE 在 COCO Caption 数据集上的表现与现有的领先评估方法（SOTA）相当，同时解决了以前评估模型在 DrawBench 数据集上的缺陷。              
          - (5):本文的研究动机在于提出一种新的、可解释的图像质量评估方法，提高图像质量评估的透明性和成本效益。该方法可以应用于各种例如文本到图像生成、图像分类等领域，具有广泛的应用前景。

Paper:2

Title: Adversarial Robustness as a Prior for Learned Representations
Authors: Nicholas Carlini, Chang Liu
Affiliation: Nicholas Carlini: University of California, Berkeley, USA; Chang Liu: Alibaba Group, China
Keywords: adversarial robustness, deep learning, image classification, computer vision
Urls: Paper: https://arxiv.org/abs/1906.00945, Github: None
Summary:

(1): 本文探讨深度学习中对抗性鲁棒性的理论和实践问题。
(2): 本文提出了一种新的训练策略——将对抗性鲁棒性作为先验来约束表示学习，进而提高深度学习模型的鲁棒性，并在图像分类任务中证明其有效性。本文还探讨了过去的一些方法的问题，如在训练和评估时对抗性攻击的不一致性问题。
(3): 本文的训练策略是基于在表示学习阶段添加正则化项以提高鲁棒性。此外，本文采用了一种改进的对抗性训练方法，以简化训练过程。
(4): 本文的方法在多个数据集上展示出了相对于传统方法显著的提高，尤其是在对抗性攻击下的表现。通过在对抗性攻击下的准确率和标准测试集上的表现进行比较，本文证明了其鲁棒性的提高并阐明了其有效性。
(5): 本文旨在解决深度学习中的对抗性攻击问题，探索在表示学习中尽可能多地利用抗性鲁棒性的方法来保持模型性能。同时本文还探讨了训练阶段和测试阶段之间的不一致问题，提出了一种更一致的分析方法。

Paper:3

Title: UniControl 一种针对野外生成的统一扩散模型
Authors: Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun Fu, and Ran Xu
Affiliation: Northeastern University （第一作者 Can Qin）
Keywords: Deep Learning, Controllable Visual Generation, UniControl, Diffusion Model, Computer Vision
Urls: Paper: https://arxiv.org/abs/2305.11147v1; Github: None
Summary:

(1): 本文旨在解决图像生成过程中难以控制空间、结构、几何元素的问题，提出了一种新的统一扩散模型——UniControl，旨在将生成模型的多样性和控制性相结合。
(2): 过去的生成模型大多面临两难的情况，其生成图像的控制性和多样性往往也会矛盾。在一定程度上, 经过语言驱动的情况下，解决了多样性生成问题，但无法精确控制像素级别的结构和空间。UniControl 能够确保像素级别生成并具有控制性和多样性，并可适用于单一的框架内。
(3): 介绍了一种新的针对野外生成的统一扩散模型（UniControl），通过引入task-aware HyperNet来调制diffusion models，保证UniControl具有处理多种控制条件，在该模型架构下启用任意语言提示的功能，并且能够适应不同裁剪任务，同时保留高度精确化的视觉条件。
(4): 该方法应用在9个代表性C2I任务上，并展现了与单任务控制模型相当的预测性和准确性。在对比实验中，UniControl通常能超越模型大小相当的单一任务模型的性能。这一控制的通用性定位了UniControl作为控制型视觉生成领域的显著进步。
(5): 本文旨在解决生成模型中控制的难题，促进多样化的生成效果，并结合语言驱动以实现图像生成过程中视觉元素精确控制和多样性的统一性。

Paper:4

Title: IMAD: IMAGE-AUGMENTED MULTI-MODAL DIALOGUE
Authors: Moskvoretskii Viktor, Frolov Anton, Kuznetsov Denis
Affiliation: DeepPavlov.ai深度帕夫洛夫人工智能
Keywords: Natural Language Processing, Deep Learning, Machine Learning, IMAD, Dialogue Dataset, Multi-modal Dataset, Dialogue Systems, Multi-modality
Urls: Paper link: arXiv:2305.10512v1 [cs.CL] Github: None
Summary:

(1):本文的研究背景是对话系统在处理文本通信方面的高性能表现，但其还没有有效地融合视觉信息，这是一个重要的挑战。
(2):现有的在对话生成中整合图像的模型仅关注于图像本身，忽略了图像在对话中的上下文信息。该文提出了一个新颖的多模态对话系统方法，在对话上下文中对图像进行解释，以此扩展当前对话系统的功能，使其从单一模态（文本）向多模态转换。该方法可以自动构建多模态对话数据集，该数据集中包含图像和对话内容的有效组合。该文提出了一种两阶段的方法，第一阶段利用文本到图像的相似性和句子相似性来识别可以用图像替代的话语。第二阶段，我们通过从一组相关的图像中选择子集，并使用视觉问答模型进行过滤来替换那些话语。使用此方法，本文构建了IMAD数据集。此外，该文提出了一个基线模型，该模型是在IMAD数据集上训练的，在不含图像的数据集上训练的模型和BlenderBot相比，效果更好。
(3):本文的研究方法是构建一个视觉信息融合在对话系统中的方法，通过在实际对话中解释图像，将多模态输入纳入对话，并使用一个两阶段的自动构造多模态对话数据集的方法。
(4):本文在构建的IMAD数据集上提出的基线模型优于在不含图像的数据集和BlenderBot上训练的模型，表明该方法能有效地将图像信息融入到对话系统中。
(5):本文的动机是将图像融合进对话系统中，使其从单模态向多模态发展。针对缺乏有效英文数据集的问题，提出了一种自动构造多模态对话数据集的方法，以及一种基于该数据集的视觉信息融合的对话模型。

Paper:5

Title: Blackout Diffusion: Generative Diffusion Models in Discrete-State Spaces
Authors: Javier E. Santos, Zachary R. Fox, Nicholas Lubbers, Yen Ting Lin
Affiliation: Javier E. Santos is affiliated with Computational Earth Science Group (EES-16), Earth and Environmental Sciences Division, Los Alamos National Laboratory, Los Alamos, NM 87545, USA.
Keywords: generative models, diffusion models, discrete-state spaces, deep learning, reverse-time stochastic process
Urls: Paper link: http://proceedings.mlr.press/v202/santos23a/santos23a.pdf, Github: None
Summary:

(1): 该文介绍了一个新型生成性扩散模型——Blackout Diffusion，以处理离散状态空间的问题。
(2): 传统的生成性扩散模型通常使用高斯扩散过程训练反向转换模型，并从高斯噪声中生成样本，然而，现实世界中的数据往往存在于离散状态空间中。而过去的方法主要基于高斯扩散，并且处理非连续数据的时候必须使用量化和去量化的方法，这些方法可能并不理想，比如在基因表达和分子结构等实验中，数据具有离散状态性质，量化处理可能导致信息损失。Blackout Diffusion的提出很好地解决了这些问题。
(3): 该文介绍了离散状态下的Markov过程，并提出了基于离散态Markov过程的前向扩散过程理论，使用确切分析方法来推导连续状态高斯扩散的相关理论，并找到了连续时间设置下的反向随机过程和评分函数以及离散时间设置下的反向映射。而Blackout Diffusion则是基于这个框架来学习从空图像而不是从噪声样本中生成样本。
(4): 该文在CIFAR-10、Binarized MNIST和CelebA数据集上进行了实验并证实了这种方法的可行性。结果表明，在不同的数据集上，Blackout Diffusion的性能均远优于传统方法。
(5): 该文建立了一个离散状态下的扩散理论框架，以推导适用于非高斯类型的生成扩散模型。Blackout Diffusion模型可处理任何离散状态生成问题。

Paper:6

Title: ONE-PEACE (探索一种通用的表示模型，面向无限挑战性多模态任务)
Authors: Peng Wang, Shijie Wang, Junyang Lin, Shuai Bai, Xiaohuan Zhou, Jingren Zhou, Xinggang Wang, Chang Zhou
Affiliation: DAMO Academy, Alibaba Group (阿里巴巴集团达摩院)
Keywords: representation model, multi-modal, self-attention, pretraining, performance
Urls: Paper: https://arxiv.org/abs/2305.11172 GitHub code: https://github.com/OFA-Sys/ONE-PEACE
Summary:

(1):本文的研究背景是关于多模态表示模型的研究，探索如何有效地构建一个通用模型来处理多种类型的数据；
(2):以往的方法主要集中于单模态模型，多模态数据的利用效果欠佳，因此需要有一个通用模型进行学习。本文的方法通过一个高度可扩展的模型ONE-PEACE，它包括模态适配器、共享的自注意力层和模态FFNs。同时，为了更好地利用多模态数据的信息，本文提出了两个模态-不可知的预训练任务（跨模态对齐对比和内部模态去噪对比），在保持模态信息的同时，对不同的模态间进行对齐。此外，本文的方法不使用任何预先训练的vision或language模型来初始化，同时为图像分类、语义分割、音频检索、音频分类、图像-文本检索、视觉定位等多个任务均提供了领先的性能表现。
(3):本文提出了名为ONE-PEACE的模型，它是一个高度可扩展的模型，可无缝对接多种数据类型。我们使用两个模态不可知的预训练任务对ONE-PEACE进行了预训练，即跨模态对齐对比任务和内部模态去噪对比任务，并使用模态适配器、共享的自注意层和模态FFN进行模型架构设计。这种设计允许通过添加适配器和FFN来轻松扩展新的模态，同时也可以通过自注意层实现多模态融合，从而构建一个高度可扩展的通用模型。
(4):我们在许多常见的多模态任务上对ONE-PEACE进行评估，包括图像分类、语义分割、音频检索、音频分类、图像-文本检索、视觉定位等，在这些任务中，ONE-PEACE均取得了领先的性能表现。这些实验结果证明了本文方法的可扩展性和优越表现。
(5):本文的研究动机是为了探索如何构建一个通用模型，可以处理各种类型的数据，同时具有可扩展性和优越的表现。通过本文提出的方法，我们展示了跨多种任务类型的高性能表现，证明了本文方法的有效性和可扩展性。

Paper:7

Title: Large Language Models can be Guided to Evade (大型语言模型可被引导逃避)
Authors: Ning Lu, Shengcai Liu, Rui He, Ke Tang
Affiliation: Southern University of Science and Technology (中国南方科技大学)
Keywords: Large Language Models, AI-generated text, detection, evasion, Substitution-based In-Context example Optimization (SICO)
Urls: Paper - arxiv.org/abs/2305.10847v1, Github - None
Summary:

(1):这篇文章研究的是大型语言模型（LLMs）被滥用的潜在危险，包括令人担忧的抄袭和垃圾信息等问题。
(2):过去的方法包括 fine-tuned 分类器、统计方法和水印技术等，但已经被证明存在漏洞。文章提出了一种名为 Substitution-based In-Context example Optimization (SICO) 的方法，可以借助精心制作的提示来引导 LLMs 逃避现有的检测系统，并在三个真实任务中进行了验证。
(3):文章提出的 SICO 方法是通过在上下文示例中逐步替换单词和句子，为 LLM 提供高质量的演示，使其生成无法被检测出来的文本。
(4):在真实任务中，SICO 能够成功使 ChatGPT 这个 LLM 逃避六个已有的检测器，平均导致达到 0.54 的 AUC（接受特征曲线）。这些结果展示了现有检测器的漏洞，同时也证明了 SICO 方法的可靠性和有效性。
(5):这篇文章的研究动机在于揭示了已有方法的漏洞，并提出一种更可靠的检测方法，以解决大型语言模型被滥用的问题。

Paper:8

Title: A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms.
Authors: Wengong Jin, Regina Barzilay, Tommi S. Jaakkola.
Affiliation: 塔夫茨大学 (Tufts University).
Keywords: Meta-learning, causal inference, disentanglement.
Urls: Paper: https://arxiv.org/pdf/1901.10912.pdf, Github: None.
Summary:

(1):本文的研究背景是因果推断中有一些重要的因素关系需要被正确推断，而直接建立模型时不易获得这些关系，因此需要通过学习来解决这一问题。
(2):过去的方法往往无法解决因果推断中的因素关系问题，因为直接建模容易受到结构和噪声等因素的影响。因此，本文提出了一种元转移目标方法来帮助在学习过程中解决这个问题，这一方法是有理由的。
(3):本文提出的元转移目标方法提供了一种利用元学习来学习因果推断模型的解决方案，能够更好地进行因素关系推断。
(4):通过实验，本文提出的方法在多个数据集上都取得了不错的性能，证明了该方法对于因素关系建模的有效性。
(5):本文的研究动机在于解决因果推断下的因素关系推断问题，提高模型的推断能力和准确性。

Paper:9

Title: Efﬁcient Prompting via Dynamic In-Context （通过动态上下文有效提示）
Authors: Wangchunshu Zhou Yuchen Eleanor Jiang Ryan Cotterell Mrinmaya Sachan
Affiliation: ETH Zurich (苏黎世联邦理工学院)
Keywords: deeplearning, black-box models, in-context learning, computational efficiency, performance efficiency trade-off
Urls: Paper: arXiv:2305.11170v1 [cs.CL] 18 May 2023 Github: None
Summary:

(1): 过去建立人工智能应用程序的主要方式是通过训练专家模型。而现在主要是通过搜索通用模型的方法，这种方法通过在模型输入中添加“演示”的例子来提升表现。然而，这种方法可能不够高效。因为它让输入更长，导致用于计算的空间更大，从而增加计算成本。该论文主要探讨如何通过动态上下文有效提示。
(2): 通用模型的训练需要很大的模型空间，同时还需要大量的训练样本，然而很多通用模型的参数不是公开的，这给采用对模型参数的训练带来了困难。本文提出的动态上下文的方法可以减少计算使用的空间，减少训练数据的需求，从而更好的实现通用模型的快速演示，大大提高计算的效能。
(3): 本文提出了一个动态分配伪命题的方法，根据数据的复杂性和计算预算动态分配 in-context 的例子。为达到这一目的，本文结合了元控制器和通用模型，根据给定的计算预算预测适合通用模型的 in-context 举例的数量。然后利用元控制器的预测和给定的计算预算，实现动态分配输入的 in-context 示例的数量。
(4):本文所提出的动态上下文的方法被运用在两个实际情境优化中，获得了更佳的性能和能效权衡。训练显著减少了令牌数量，比常规方法节省了高达 46％的计算空间。同时发现在某些情况下，在使用特定的骨干模型和任务训练元控制器时，该模型和任务的性能可以成功地推广到新的模型和任务。
(5):该论文是为了解决目前在使用通用模型的提示方法中存在的问题，阐述了动态上下文的方法，实现了高效的提示，并取得了不错的效果。

Paper:10

Title: DiffUTE: Universal Text Editing Diffusion Model (DiffUTE:通用文本编辑扩散模型)

         2. Authors: 
         - Haoxing Chen
         - Zhuoer Xu
         - Zhangxuan Gu
         - Jun Lan
         - Xing Zheng
         - Yaohui Li
         - Changhua Meng
         - Huijia Zhu
         - Weiqiang Wang

         3. Affiliation: 该论文第一作者：Haoxing Chen隶属于南京大学和蚂蚁金服天算实验室。

         4. Keywords: diffusion model, text editing, self-supervised learning, in-the-wild images, controllable editing

         5. Urls: https://arxiv.org/abs/2305.10825v1 , Github: https://github.com/chenhaoxing/DiffUTE 

         6. Summary: 

         - (1): 本论文的研究背景是探索语言引导图像编辑这一方向上的技术。 
         
         - (2):已有的扩散模型在生成过程中难以呈现正确的文本和文本风格。作者提出的DiffUTE模型，旨在通过自我监督学习提高模型的表现能力，实现在源图像上替换或修改单词，同时保持其逼真的外观，并在网络结构上做了适当改进，增加了多语种字符生成的能力。全文解决了基于自然图像的文本编辑问题。文章的方法有很好的动机。 

         - (3):作者提出的DiffUTE模型，是基于扩散模型的一种新的文本编辑模型。在这个模型中，网络结构经过改进，增加了多语种字符生成的能力，并设计了一个自我监督学习框架，以利用网络数据以提高模型表现能力。

         - (4):本文提出的DiffUTE模型在处理自然图片的文本编辑问题上取得了较好的效果，具有较高的保真度和可控性。实验结果表明本文方法的卓越性能。 

         - (5):本文旨在解决基于自然语言的图像文本编辑方面的问题，为其它研究提供方法和创新思路。

Paper:11

Title: PAXION: Patching Action Knowledge in Video-Language Foundation Models (PAXION: 在视频语言基础模型中修补动作知识)
Authors: Zhenhailong Wang, Ansel Blume, Sha Li, Genglin Liu, Jaemin Cho, Zineng Tang, Mohit Bansal, Heng Ji
Affiliation: UIUC (UIUC)
Keywords: deeplearning, ML, NLP, CV, video-language models, action knowledge, multimodal alignment, Discriminative Video Dynamics Modeling
Urls: Paper: https://arxiv.org/abs/2305.10683v1, Github: https://github.com/MikeWangWZHL/Paxion.git
Summary:

(1): 本文旨在解决视频-语言模型中动作知识的欠缺问题。
(2): 过去的方法无法解决动作知识不足的问题。目前的模型倾向于以目标识别为切入点，来快速学习动作理解。作者的方法采用知识修补器来编码新的动作知识，并使用知识融合器将其整合到固定的视频-语言基础模型中，不会影响其现有功能。作者还提出了新的判别式视频动态建模目标来训练知识修补器。
(3): 作者提出了PAXION框架，利用知识修补器和知识融合器来增强视频-语言基础模型的动作知识。这个新框架还使用判别式视频动态建模 (DVDM) 目标来确保模型理解动作的各个方面。
(4): 作者借助他们提出的动作测量任务Action Dynamics Benchmark (ActionBench) 来测试模型的动作知识。该测试包含两个测量任务: 动作反义词和视频翻转，目的是评估模型的多模态对齐和时间理解能力。作者的方法成功地解决了模型对动作知识不足的问题 (~50% → 80%)，同时在一系列的目标、动作中保持或提高了性能，从而验证了他们提出的方法的有效性。
(5): 本研究的动机是解决现有视频-语言模型中动作知识不足的问题。此外，作者在基础模型固定的情况下，提出了一种新的方法来整合动作知识，从而避免了重复训练的情况。

Paper:12

Title: Sizing multimodal suspensions with differential dynamic microscopy
Authors: Joe J Bradley, Vincent A Martinez, Jochen Arlt, John R Royer, and Wilson C K Poon
Affiliation: School of Physics & Astronomy, The University of Edinburgh, Peter Guthrie Tait Road, Edinburgh EH9 3FD, United Kingdom.
Keywords: differential dynamic microscopy, multimodal suspensions, particle size distribution, scattering methods, polydispersity
Urls: None, arXiv:2305.11018v1 [cond-mat.soft] 18 May 2023
Summary:

(1): This paper aims to address the challenges of sizing multimodal suspensions with strongly-peaked, multimodal particle size distributions (PSDs) that result from various industrial sectors, such as raw and UHT milk, sunflower tahini, and chocolate.
(2): The traditional methods for particle sizing, such as microscopy, sieving, electrozoning, laser diffraction (= static light scattering, SLS), ultrasound extinction, sedimentation, and dynamic light scattering (DLS) are often calibrated against quasi-monodisperse spherical particles. Reporting mean diameters and a polydispersity generally suffice for the sizing of quasi-monodisperse spherical particles; however, they pose few problems. While direct imaging is considered the "gold standard" of sizing, the PSD must be built up particle by particle, and it often encounters problems of detecting multimodality and obtaining mean sizes for each population. Scattering allows better statistical averaging, but it suffers from the problem of inverting a Laplace transform where the unknown PSD occurs under an integral sign. Differential dynamic microscopy (DDM) is proposed to overcome the issues faced by traditional methods, as it can be used to extract mean particle size from videos of suspensions with strongly-peaked, multimodal PSDs without resolving the particles.
(3): The research methodology proposed in this paper is to show how standard DDM analysis can extract the mean sizes of two populations in a bimodal suspension given prior knowledge of the sample's bimodality. The paper also shows that the use of the CONTIN algorithm obviates the need for such prior knowledge. Additionally, the paper presents how selectively analyzing portions of the DDM images can size a trimodal suspension where the large particles would otherwise dominate the signal, again without prior knowledge of trimodality.
(4): The paper presents various experiments and results on sizing multimodal suspensions with DDM, and they achieve accurate sizing of various suspensions with different particle sizes and shapes. For example, the paper presents accurate sizing of a bidisperse suspension with a 1:20 particle size ratio and up to 3% by volume of the large particles, where DLS fails. The authors also show how the DDM signal probes spatial fluctuations at a very low wave vector by imaging large fields of view at low magnifications, which allows it to size multimodal suspensions more accurately than other methods.
(5): The motivation for this research is to develop a technique for high-throughput sizing of suspensions with strongly-peaked, multimodal PSDs, which can find use in various industrial sectors. This research is also aimed at addressing the challenges faced by traditional methods for particle sizing, such as microscopy, sieving, electrozoning, laser diffraction, ultrasound extinction, sedimentation, and dynamic light scattering, and to propose a new method with advantages to cope with the difficulties faced by the traditional methods.

Paper:13

Title: ChatGPT Perpetuates Gender Bias in Machine Translation and Ignores Non-Gendered Pronouns: Findings across Bengali and Five other Low-Resource Languages
Authors: Sourojit Ghosh and Aylin Caliskan
Affiliation: Sourojit Ghosh - University of Washington
Keywords: ChatGPT, machine translation, gender bias, Bengali, human-centered design
Url: https://doi.org/XXXXXXX.XXXXXXX, Github: None
Summary:

(1): 本文旨在研究 ChatGPT 在翻译性别中性语言时是否存在性别偏见和刻板印象的问题。
(2): 过去的机器翻译工具如 Google Translate 在将非性别化语言翻译成英语时存在性别化问题，而本文试图在 ChatGPT 中搜寻这个问题。本文的方法得到了充分的激励。
(3): 本文采用 ChatGPT 翻译 Bengali 等六种语言的任务来探究 ChatGPT 的性别偏见。本文还通过 ChatGPT 的翻译结果分析了职业和行为之间的性别印象问题，并给出社会中的正确体现。
(4): 本文提出的新方法通过采用一种更好的人本方法来实现性别印象的消除，从而显著提高了 ChatGPT 的性别偏见的翻译质量。
(5): 本文的动机是为了改进机器翻译领域，减少翻译中的性别偏见问题。

Paper:14

Title: Going Denser with Open-Vocabulary Part Segmentation（使用开放词汇部分细分更加密集）
Authors: Peize Sun, Shoufa Chen, Chenchen Zhu, Fanyi Xiao, Ping Luo, Saining Xie, Zhicheng Yan
Affiliation: 第一作者：The University of Hong Kong（香港大学）
Keywords: Object detection, part segmentation, open vocabulary
Urls: Paper: https://arxiv.org/abs/2305.11173, Github: https://github.com/facebookresearch/VLPart
Summary:

(1):本文针对当前目标检测在开放词汇中已经取得了很大进展，但是在了解细粒度目标描述、目标部分等方面还存在挑战的问题，提出了使用开放词汇部分细分更加密集的思路。
(2):以前的方法主要是通过已有的方法直接应用到细粒度的部分检测/细分任务中，但是它们的泛化能力并不强。本文提出的方法通过部分层次、目标层次和图像层次的数据联合训练来建立语言和图像之间的多粒度对齐，还通过密集语义对应将新的对象解析为其部分，从而有效利用各种数据源和基础模型。
(3):本文提出的研究方法是建立语言和图像之间的多粒度对齐，实现检测器能够同时预测开放词汇的对象和它们的部分细分。通过跨数据集泛化的PartImageNet实验，和跨类别泛化的Pascal部分实验，以及在训练数据集一定的情况下对更广泛的部分细分数据集进行训练，本文方法的表现在多个任务上都优于基线方法，验证了其有效性。
(4):本文提出的方法在开放词汇部分细分实验中的mAP增益为3.3~7.3，AP50增益为7.3，在评估指标上表现较优，支持了作者的研究目标。
(5):本文针对目标检测中解析目标部分的需求，提出了一种利用多粒度数据训练和密集语义对应进行目标和部分细分的方法，为实现更细粒度的识别以及实际应用如行为分析、机器人操作、图像编辑等提供了新思路。

Paper:15

Title: Unsupervised Pansharpening via Low-rank
Authors: Xiangyu Rui, Xiangyong Cao, Zeyu Zhu, Zongsheng Yue, and Deyu Meng
Affiliation: Xiangyu Rui, Zongsheng Yue and Deyu Meng are with the School of Mathematics and Statistics and Ministry of Education Key Lab of IntelligentNetwork Security, Xi’an Jiaotong University, Xi’an 710049, China. Xiangyong Cao is with the School of Computer Science and Technology and Ministry of Education Key Lab For Intelligent Networks and Network Security, Xi’an Jiaotong University, Xi’an 710049, China. Zeyu Zhu is with the College of Artificial Intelligence, Xi’an Jiaotong University, Xi’an 710049, China.
Keywords: Pansharpening, subspace representation, low rank, diffusion model
Urls: Paper url: https://arxiv.org/pdf/2305.10925.pdf, Github: https://github.com/xyrui/PLRDiff
Summary:

(1): 本文研究的是合成高分辨率多光谱遥感图像的问题，即pansharpening。
(2): 过去的方法大致可以分为四类，但都存在问题，例如模型法需要手动指定数据结构，DL方法则往往不具备良好的泛化性。作者提出的PLRDiff方法是基于低秩矩阵分解和扩散模型的联合利用来解决该问题，具备很好的泛化性和实验效果。
(3): PLRDiff方法采用扩散模型来学习数据分布，并将HRMS图像分解为两个低秩张量的乘积，同时通过简单而有效的方法预估HRMS图像的系数矩阵从而保留光谱信息。在此基础上，可以通过PLRDiff方法来完成pansharpening。
(4): 作者在一些基准数据集上进行了实验，表现出PLRDiff方法在优于传统模型法，且对DL方法的泛化性问题有一定的改善效果。
(5): 该文是对遥感图像处理的一个具体应用方向，具有实际应用价值。

Paper:16

Title: Language Models Meet World Models
Authors: Jiannan Xiang, Tianhua Tao, Yi Gu, Tianmin Shu, Zirui Wang, Zichao Yang, Zhiting Hu
Affiliation: UC San Diego
Keywords: deeplearning, natural language processing, embodied knowledge, language models
Url: arXiv:2305.10626v1, Github: None
Summary:

(1): This paper aims to address the limitation of language models (LMs) which are trained only on written text and lack embodied knowledge and skills necessary for reasoning and planning in physical environments.
(2): The paper discusses previous approaches that fine-tune LMs for specific embodied tasks, leading to task-specialized models. However, these models lack generality and are tied to specific simulations. The approach proposed in this paper introduces a novel training paradigm, where LMs are fine-tuned with embodied experiences from world models to gain diverse embodied knowledge while retaining general language capabilities.
(3): The proposed approach deploys an embodied agent in a world model, particularly a simulator of the physical world (VirtualHome), to acquire a diverse set of embodied experiences through both goal-oriented planning and random exploration. These experiences are then used to finetune LMs to teach diverse abilities of reasoning and acting in the physical world.
(4): Extensive experiments show that the approach substantially improves base LMs on 18 downstream tasks by 64.28% on average. In particular, the small LMs (1.3B and 6B) enhanced by the approach match or even outperform much larger LMs (e.g., ChatGPT). The results support the goals of the paper in enhancing LMs with diverse embodied knowledge while preserving generality.
(5): The motivation for the research is to address the limitation of LMs lacking embodied knowledge and skills necessary for reasoning and planning in physical environments, by proposing a novel training paradigm that enhances LMs with diverse embodied experiences from world models.

Paper:17

Title: SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities
Authors: Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang, Yaqian Zhou, Xipeng Qiu
Affiliation: School of Computer Science, Fudan University; Shanghai Key Laboratory of Intelligent Information Processing, Fudan University (Dong Zhang)
Keywords: multi-modal large language model, speech-language model, cross-modal conversational abilities
URL: arXiv:2305.11000v1, Github: https://github.com/0nutation/SpeechGPT
Summary:

(1): This article aims to develop a large language model with intrinsic cross-modal conversational abilities and to explore the ability of multi-modal large language models towards artificial general intelligence (AGI).
(2): Current speech-language models typically adopt the cascade paradigm, which prevents inter-modal knowledge transfer. Continuous signals like images and speech cannot be adapted directly to large language models. The proposed SpeechGPT adopts a three-stage training strategy, including modality-adaptation pretraining, cross-modal instruction fine-tuning, and chain-of-modality instruction fine-tuning, to address these problems.
(3): SpeechGPT is constructed with discrete speech representations and trained on a large-scale cross-modal speech instruction dataset (SpeechInstruct). The model is capable of perceiving and generating multi-modal content with intrinsic cross-modal conversational abilities.
(4): Experimental results demonstrate that SpeechGPT has an impressive capacity to follow multi-modal human instructions and outperforms the existing models on cross-modal instruction following tasks. The paper's approach is well-motivated and shows potential for handling multiple modalities with one model.
(5): The motivation of this research is to bridge the gap between the current large language models' ability to understand multi-modal information and their limitations in generating multi-modal content. The authors aim to develop a model with intrinsic cross-modal conversational abilities and explore the potential for handling multiple modalities with one model towards AGI.

Paper:18

Title: Weakly-Supervised Visual-Textual Grounding with Semantic Prior Refinement (含语义先验精化的弱监督图文连接)

         2. Authors: Davide Rigoni, Luca Parolari, Luciano Serafini, Alessandro Sperduti, Lamberto Ballan

         3. Affiliation: 第一作者 Davide Rigoni 所属机构为意大利 Padova 大学，即 University of Padova

         4. Keywords: weakly-supervised, visual-textual grounding, semantic prior refinement, multimodal similarity, referential expressions

         5. Urls: 
            Paper: https://arxiv.org/abs/2305.10913v1
            Github: None

         6. Summary:

         - (1): 图像和文本之间的相互理解是视觉和自然语言处理领域的研究热点。本文主要研究的是弱监督环境下，图像和文本之间的视觉-文本连接，即仅通过图像-句子对来学习对象的位置信息。 

         - (2): 传统的监督方法需要大量的标注信息，导致成本较高，而且由于缺少边界框的对应关系，导致视觉-文本连接的精度较低。本文提出了一种能够以两个模块执行的语义先验精化模型 (SPRM)。第一个未经过训练的模块主要是为了返回文本短语和边界框之间粗略的对应关系。第二个经过训练的模块主要由两个子组件组成，以改进最终短语-边界框对齐的准确性。此外，为了在训练过程中更好的指导拟合，模型不仅需要最大程度上提高图像和句子间的多模态相似度，还需要关注与句子相关的其他图像与其进行比较。 

         - (3): 本文提出的 SPRM 模型可以将文本短语和边界框之间的对应更精确地匹配起来，实现弱监督视觉-文本连接任务。

         - (4): 实验结果表明，本文提出的 SPRM 模型在不使用较多的训练样例的情况下即可达到竞争性强的效果，并在 Flickr30k Entities 数据集和 ReferIt 数据集上均达到了当前最高水平，特别是在 ReferIt 数据集上，达到了绝对9.6%的改进。 

         - (5): 本文的研究动机是为了通过弱监督的策略，对于自然语言中所涉及到的对象，实现更准确的图像定位任务。

Paper:19

Title: Inspecting the Geographical Representativeness (检验文本图像模型图像的地理代表性)
Authors: Abhipsa Basu, R. Venkatesh Babu, Danish Pruthi
Affiliation: Indian Institute of Science, Bangalore (印度科学研究所，班加罗尔)
Keywords: Generative models, Text-to-image synthesis, Geographical representativeness, Societal biases, User studies (生成模型，文本到图像合成，地理代表性，社会偏见，用户研究)
Url: https://arxiv.org/abs/2305.11080, Github: None
Summary:

(1): 本文研究了文本到图像模型中图像的地理代表性问题。
(2): 过去的方法存在着社会偏见的问题，本文用大规模众包实验测量了DALL·E 2和Stable Diffusion模型中常见名词（如房屋）的地理代表性，并探讨了如何解决地理偏见的问题。方法设计明确合理。
(3): 本文通过众包实验测量了两个文本生成图像模型的地理代表性，并提出了基于标记和搜索的自动化技术，以替代用户研究来评估生成图像的地理代表性。
(4): 实验结果表明，在没有指定国家名时，DALL·E 2和Stable Diffusion模型生成的图像最能反映美国和印度的环境，而其他国家的生成图像的总体评价较低。指定国家名能提高模型的地理代表性，但仍存在大量国家得分较低。文中提出的自动化技术也取得了较好的效果。
(5): 本文主要关注文本到图像模型中存在的地理偏见问题，探寻这一问题的解决方案。

Paper:20

Title: An Android Robot Head as Embodied Conversational Agent (一个基于Android机器人头部的具身化对话系统)
Authors: Marcel Heisler, Christian Becker-Asano
Affiliation: Marcel Heisler - Hochschule der Medien Stuttgart, Germany (德国 Stuttgart 媒体高等专科学校); Christian Becker-Asano - Hochschule der Medien Stuttgart, Germany (德国 Stuttgart 媒体高等专科学校)
Keywords: humanoid robotics, machine learning, software development, conversational agents (人形机器人，机器学习，软件开发，对话系统)
Urls: Paper: https://arxiv.org/abs/2305.10945v1
Summary:

(1): 本文旨在通过机器学习等技术，将一个基于Android机器人头部的系统变成一种具身化对话系统，实现机器人自主交流。
(2): 以往的机器人研究多是基于脚本编程或Wizard of Oz工具，缺乏自主性。而该研究则通过手动定义动画为基础，并运用机器学习模型实现具身化对话，相比其它机器人软件设计实现的完整性较低但简单易懂，并提供了迭代升级的方法。
(3): 方法如下：使用机器学习模型实现自动语音识别（ASR）、语音合成或文本到语音（TTS）、文本交互或对话（chat）和自动唇形同步。具体实现通过RS-485连接发送14个整数值，控制机器人头部的14个气动致动器，并使用ChatGPT模型进行文本交互。
(4): 通过测试，该具身化对话系统的模型实现了较高的自然度和唇形同步度，可以满足进行对话系统的应用。
(5): 该研究的动机是基于当前Andriod机器人的快速发展和广泛应用，期望通过具身化对话系统实现机器人的自主对话，提高机器人的交互能力。

Paper:21

Title: VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation
Authors: Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu
Affiliation: 1. Wangxuan Institute of Computer Technology, Peking University
Keywords: deeplearning, video generation, text-to-video, attention mechanism, spatiotemporal modeling
Urls: arXiv:2305.10874v1 [cs.CV] 18 May 2023
Summary:

(1): 本文主要研究基于文本指令生成高质量开放领域视频的方法，旨在解决现有方法中模型无法有效建模时空关系带来的问题，并探讨将扩散模型应用到文本到视频的生成中的可行性。
(2): 过去的方法主要是将预训练好的图像生成模型延伸到视频生成领域。这些方法通常采用时空可分离体系结构，其中从图像生成模型继承了空间操作。为了进一步融入时间建模，采用了各种策略，包括伪3D模块、2D和1D块以及无参数的技术（例如时间位移）。然而，这些方法忽视了联合建模时空的重要性，这不可避免地导致了时间失真和文本与视频之间的不对齐。本文提出了一种新颖的方法，增强空间和时间感知性之间的交互。具体来说，我们在3D窗口中采用交换的交叉注意机制，为空间和时间块交替分配“查询”角色，使它们相互协作加强。
(3): 本文提出了VideoFactory方法，它结合扩散性质和交叉关注机制，用于生成高质量的视频。为了让模型全面学习高质量视频生成，我们创建了一个名为HD-VG-130M的大型视频数据集，其中包含来自开放领域的130万个文本和视频对。
(4): 实验结果表明，所提出的VideoFactory方法在每帧质量、时间相关性和文本-视频对齐等方面优于以前的方法，并具有明显的优势。
(5): 本文的研究动机是为了探讨如何使用更有效的方法在开放领域生成高质量的视频，以解决现有方法在建模空间和时间关系方面面临的困难，并在此基础上进一步提高视频生成质量和效率。

Paper:22

Title: Generating coherent comic with rich story using
Authors: Ze Jin, Zorina Song
Affiliation: University of Toronto (多伦多大学)
Keywords: deeplearning, chatbot, comic, story generation
Urls: Paper link: arXiv:2305.11067v1 [cs.CV] 16 May 2023 Github: None
Summary:

(1): 本文的研究背景是利用深度学习生成故事情节鲜明的漫画。
(2): 过去的研究表明，我们可以利用神经网络扩展未完成的音乐作品，并保持音乐家的音乐风格。本文采用了ChatGPT生成故事情节和对话，然后使用Stable Diffusion生成漫画。传统的方法中，Midjourney是目前生成漫画图像的SOTA模型，但是该模型是闭源的，并且只能通过云服务使用。因此，本文提出了一种新的方式来评估AI生成的故事，并通过使用类似LoRA、ControlNet等的finetune方法，在角色的还原度和艺术风格等方面取得了SOTA性能。
(3): 本文使用ChatGPT生成故事情节和对话，然后使用Stable Diffusion生成漫画。为了保证生成的漫画风格与目标漫画合理匹配，在Stable Diffusion中使用了类似LoRA、ControlNet等的finetune方法。
(4): 本文的研究目标是生成有故事情节的漫画，并获得良好的角色还原度和艺术风格。通过使用Stable Diffusion进行漫画生成，并在其基础上使用finetune方法，在目标漫画《One Piece》上取得了SOTA性能。实验结果表明，本文提出的方法可以生成具有连贯故事情节和良好艺术风格的漫画图像。
(5): 本文旨在探索使用深度学习技术生成具有连贯故事线的漫画，并在此基础上实现高质量的漫画生成。

Paper:23

Title: Deep Learning Methods for Extracting Metaphorical (深度学习方法用于提取隐喻)
Authors: Amal Haddad Haddad, Damith Premasiri, Tharindu Ranasinghe, Ruslan Mitkov
Affiliation: Amal Haddad Haddad 所属机构为西班牙格拉纳达大学 (University of Granada, Spain)
Keywords: Deep Learning, Transformers, Automatic Extraction of Metaphor, Metaphor-based Terms
URLs: Paper (arXiv): arXiv:2305.10833v1 [cs.CL] 18 May 2023. Github: None
Summary:

(1):本文的研究背景是在自然语言处理 (NLP) 应用和机器翻译 (MT) 技术中自动识别隐喻词汇的必要性。
(2): 过去的方法在识别隐喻词汇时存在一些问题。机器翻译在处理单词术语和多词术语时都比较困难，而通常使用的基于规则和基于语料库的方法也存在一定的问题。本文的方法充分考虑了这些问题并实现了更好的性能。
(3):本文提出了一种基于深度学习的自动提取隐喻的方法。具体而言，本文使用了13种基于 transformer 的模型和 ChatGPT，并表明：这些判别模型往往比 GPT-3.5 模型更为优秀。本文使用最优模型进行测试，取得了 92.2349% 的 F1 得分
(4):本文的方法在「隐喻性花卉和植物名称识别任务」上取得了很好的性能，最优模型表现出 92.2349% 的 F1 得分，以此支持该方法的目标。
(5):本文的动机是填补识别隐喻词汇的空白，提供更好的技术支持以进行机器翻译等领域中相关任务的研究和实践。

Paper:24

Title: Are Large Language Models Fit For Guided Reading (大型语言模型适用于引导阅读吗)
Authors: Peter Ochieng
Affiliation: 彼得·奥琴，剑桥大学计算机科学系
Keywords: large language models, natural language processing, guided reading, educational technology
Urls: arXiv, Github: None
Summary:

(1): 近年来，随着大型语言模型的发展，人们开始考虑将它们用于提高学习效果，这篇文章探讨了使用这类模型在引导阅读中生成问题、评估学生的阅读理解和推荐学生重读文本等方面的能力，旨在评估它们在教育技术中的潜在应用。
(2): 在传统的阅读理解教学中，老师通过提问来帮助学生理解文本，但这需要老师提出广泛、多样化的问题，使学生充分理解。目前的模型存在很多问题，比如在扩大输入文本范围时，生成问题的多样性会受到显著影响。文章提出了基于大型语言模型（如ChatGPT和Bard）的阅读理解模型，以此来解决现有的问题。
(3): 通过使用ChatGPT和Bard进行评估，研究表明，大型语言模型能够生成与输入文本高度相关的有意义的问题；虽然随着输入文本范围的扩大，它们生成问题的多样性会受到一定影响，但它们依然能够涵盖大部分输入文本中的内容；这些模型能够生成低和高认知挑战问题，尽管它们存在着一定的偏见，更乐意生成低认知挑战问题；其能够有效地总结学生的答案并推荐学生应该重新阅读哪些部分文本。
(4):本文提出的方法为母语不同的学生提供了更好的阅读理解教学方法。研究结果表明，大型语言模型有可能成为教师引导学生阅读的潜在支持工具。
(5):本研究旨在探讨大型语言模型在阅读理解和教育技术方面的应用，为使用自然语言处理技术进行教学提供新方向。

Paper:25

Title: TextDiffuser: Diffusion Models as Text Painters
Authors: Fangwei Zhong, Ruzhong Li, Can Qin, Daizong Liu, and Lei Zhang
Affiliation: Microsoft Research Asia
Keywords: deeplearning, ML, NLP, CV, text-to-image, diffusion models, scene text images, OCR annotations, MARIO-10M
Urls: Paper: https://arxiv.org/abs/2305.10855v1, Github: None Dataset and model code available at: https://aka.ms/textdiffuser
Summary:

(1): Diffusion models have impressive generation abilities but struggle with rendering accurate and coherent text. This paper tackles the issue of generating visually appealing and background coherent text images.
(2): Past methods have had difficulty accurately generating text within images. The TextDiffuser method is well motivated as it introduces a two-stage approach: generative layout of keywords from text prompts and diffusion models for image generation.
(3): The research methodology proposed involves utilizing the MARIO-10M dataset, the first large-scale text images dataset with OCR annotations, totaling 10 million image-text pairs. The method uses a Transformer model for generating layouts of keywords from text prompts, followed by diffusion models.
(4): The methods achieve high-quality results in text rendering quality using text prompts alone or in tandem with text template images. TextDiffuser is also able to conduct text inpainting to reconstruct incomplete images with text. Experimental results and user studies show the flexibility and control of TextDiffuser in generating high-quality text images.
(5): The motivation for this research is to address the difficulty of generating accurate and visually appealing text in image generation with diffusion models. The introduction of TextDiffuser, with its two-stage approach and MARIO-10M dataset, is a significant contribution to the field.

Paper:26

Title: Causal Document-Grounded Dialogue Pre-training (建立因果关系的文档驱动对话预训练)
Authors: Yingxiu Zhao, Bowen Yu, Haiyang Yu, Bowen Li, Jinyang Li, Chao Wang, Fei Huang, Yongbin Li, Nevin L. Zhang
Affiliation: The first author's affiliation is The Hong Kong University of Science and Technology (香港科技大学).
Keywords: document-grounded dialogue, pre-training, causality, NLP
URL: https://arxiv.org/abs/2305.10927

Github: None
Summary:

(1): 该文章的研究背景是文档驱动对话任务。
(2): 过去的方法通常依赖于通用的预训练语言模型，在因果关系方面表现不佳。该文提出了一种建立因果关系的文档驱动对话预训练方法，旨在更好地捕获因果关系。该方法在数据集构建和预训练策略方面具有新颖性。作者对于问题的探究具有很好的动机。
(3): 该文章提出了一种建立因果关系的文档驱动对话预训练方法，包括因果完整的数据集构建策略和引入因果扰动优化因果效应的方法。
(4): 该方法在三个基准数据集中获得了显著的和一致的改进，分别是在完全监督、低资源、少样本和零样本情况下。作者将在将来的工作中考虑将该方法扩展到其他相关任务里。
(5): 该文章的研究动机在于建立一个更好的文档驱动对话预训练方法，以改善当前使用预训练语言模型的通用方法在因果关系方面的局限性。

Paper:27

Title: Think Outside the Code: Brainstorming Boosts （思考代码外：头脑风暴提升大型语言模型的代码生成能力）
Authors: Xin-Ye Li, Jiang-Tian Xue, Zheng Xie, Ming Li
Affiliation: 国家新软件技术实验室，南京大学，中国（National Key Laboratory for Novel Software Technology, Nanjing University, China）
Keywords: code generation, large language models, brainstorming, competition-level problems
Url: arXiv:2305.10679v1 [cs.AI] 18 May 2023, Github: None
Summary：

(1): 本文研究的是如何使用大型语言模型进行复杂任务的代码生成，具体来说，如何使用头脑风暴来提高大型语言模型的代码生成能力。
(2): 之前的方法主要是基于大型语言模型的，但是针对复杂任务的代码生成仍然存在一定的挑战和问题，比如生成的代码复杂度较高。因此，本文提出了一种“脑力风暴”框架，可以生成并选择各种思考问题的方案，以促进算法推理，并显示改进大型语言模型的性能。方法的动机充分。
(3): 本文提出的框架称为BRAINSTORM用于代码生成。它利用头脑风暴的步骤在问题上生成和选择多样化的 thoughts（思想），以促进算法推理，其中 thoughts 是解决问题的可能蓝图。
(4): 实验表明，BRAINSTORM显著提高了大型语言模型在解决竞赛级别编程问题方面的能力，在CodeContests基准测试中，ChatGPT的pass@k指标增加了50%以上，达到最先进的性能。此外，针对LeetCode竞赛进行的实验表明，ChatGPT的能力有了显著提高，与人类程序员的水平相当。
(5): 本文的研究动机主要在于如何提高大型语言模型的代码生成能力，面向的是复杂任务，进一步提高软件工程师的生产力，并使编程更加易于访问。

Paper:28

Title: TrueTeacher: Learning Factual Consistency Evaluation (中译：TrueTeacher:学习事实一致性评估)
Authors: Zorik Gekhman, Jonathan Herzig, Roee Aharoni, Chen Elkind, Idan Szpektor
Affiliation: TTechnion - Israel Institute of Technology (中译：TTechnion - 以色列理工学院)
Keywords: factual consistency evaluation, natural language inference, generative summarization models, large language models
Urls: 链接:https://arxiv.org/abs/2305.11171; GitHub:None
Summary:

(1):本文研究的背景是关于事实一致性评估和摘要生成模型的相关研究。
(2):先前的方法主要使用自然语言推理模型(NLI)来评估事实一致性，但在摘要评估中效果较差，因此需要生成合成数据来提高模型性能。然而，当前方法依赖于扭曲过的人工摘要，限制了覆盖错误的类型，而且使用大型语言模型(LLMs)直接评估生成任务时计算成本过高。为解决当前存在的问题，本文提出了TrueTeacher,一种综合使用LLMs和摘要生成模型生成多语言的合成数据的方法。该方法不依赖于人工编写的摘要，是一种更有效的方法。TrueTeacher方法优于现有的合成数据生成方法，并且对领域转移具有鲁棒性。
(3):本文提出的研究方法是TrueTeacher方法，通过使用LLMs标注多种模型生成的摘要，来生成合成数据。该方法与先前依赖于扭曲人工摘要的方法不同，而且具有多语言性。
(4):本文的方法在TRUE基准测试上展现出优越的性能，其使用的学生模型相比具有相似容量的现有模型方法和LLM教师模型都表现得更好。作者证明了TrueTeacher方法与使用FLAN-PaLM540B标注生成的摘要解决领域转移问题且在mFACE数据集上实现了多语言性。通过TrueTeacher方法，作者生成了具有140万个实例的合成数据集。
(5):文章的动机是解决摘要生成模型在生成事实一致的摘要时经常出现的问题。并且在构建新的模型和处理摘要质量评估的研究方面具有现实意义。

Paper:29

Title: Cooperation Is All You Need (合作就是你需要的一切)
Authors: Ahsan Adeel, Junaid Muzaffar, Khubaib Ahmed, Mohsin Raza
Affiliation: Ahsan Adeel属于牛津大学Nuffield外科科学部的牛津计算神经科学实验室。
Keywords: deeplearning, ML, NLP, CV, neurons
Urls: Paper: arXiv:2305.10449v1 [cs.LG] 16 May 2023, Github: None
Summary:

(1) 本文讨论了生物神经元的基本特性，以及现有注意力机制的局限性。作者针对目前机器学习算法采用具有限制的整合和发放“点”神经元的方法进行了探讨，并提出了一种称为Cooperator的合作机制，它融入了由无序“分支转移器”神经元组成的生物学联系网络中的合作性策略。
(2) 作者对使用transformer算法的传统注意力机制以及点神经元进行了比较，指出他们因忽略信息传导过程中的合作因素而存在局限性。于是作者提出了Cooperator机制，这种机制取决于神经元除了独立地传输信息之外，还要了解周围神经元之间的沟通，进而令信息的流动更加高效。
(3) 本文的研究方法包括设计了一种新的异步无监督修正算法，并以仿真的方式来论证Cooperator的有效性。在中大规模的机器学习问题中使用这种方法并可以满足实际需求。
(4) 对于在卡特底高级游戏中进行增强学习的任务，利用Cooperator方法来增强神经网络的表现。通过实验结果可以证明Cooperator表现不逊于传统的transformer算法，同时还掌控了更少的计算资源。
(5) 该文作者对生物神经元的基本特性有深入的理解，并针对现有算法方法的不足之处，提出了一种新的合作机制方法。使用Cooperator来增强神经网络的表现在实际中具有广泛的应用价值。

Paper:30

Title: Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model
Authors: Siyuan Huang, Zhengkai Jiang, Hao Dong, Yu Qiao, Peng Gao, Hongsheng Li
Affiliation: 上海交通大学 (Shanghai Jiaotong University)
Keywords: Robotics, Large Language Models, Multi-modality instructions, Python Programs, Perception
Urls: Paper: arXiv:2305.11176v1 [cs.RO] 18 May 2023, Github: https://github.com/OpenGVLab/Instruct2Act
Summary:

(1): 本篇论文的研究背景为机器人操作技术，重点解决如何将多模态指令转化为机器人动作的问题。
(2): 以往的方法只能使用预定义的API进行感知和根据语言指令产生策略代码，限制了其准确性和可扩展性。Instruct2Act的方法是利用大型语言模型将多模态指令映射到机器人操作序列中。与其他方法相比，Instruct2Act通过预定义的API和基础模型实现了感知模块。此外，该方法还将LLM和多模态基础模型结合，生成一系列Python程序代码来实现机器人的操作。
(3): 本文提出的研究方法是利用大型语言模型，将多模态指令映射到机器人操作序列中，实现感知、规划和控制的综合循环。在感知阶段，利用预定义的API和基础模型，包括Segment Anything Model (SAM)和CLIP，使机器人识别周围的物体和环境，进而选择相关的机器人技能。然后，通过转化指令到精准的策略代码，Instruct2Act提供了一种具有调整性和灵活性的方法来适应各种指令模态和输入类型，并满足特定任务需求。
(4): 本文通过在桌面操作场景中进行机器人任务验证其方法的实用性和效率。由于其零样本方法在多项任务中超越了许多最先进的基于学习的策略，因此在各种应用场景中均获得了成功。研究结果证明本文所提出研究方法的确切性和有效性。
(5):本篇论文通过大型语言模型将多模态指令映射到机器人行动，实现了具有调整性、灵活性和精度的高级机器人操作任务，提出了一种全新的思路和方法，可以应用于机器人操作领域的许多具体任务。

Paper:31

Title: Emergent Collective Sensing in Fish and Machines
Authors: David Haenelt, Alex Wood, Pierre-Yves Oudeyer
Affiliation: Institut de Neurosciences de la Timone, Aix-Marseille University, CNRS, Marseille, France
Keywords: social preferences, social grouping, reinforcement learning, curiosity-driven learning, collective behavior, fish, artificial neural networks
URL: https://arxiv.org/abs/2111.03796, Github: None
Summary:

(1): This article explores the computational foundations of social grouping using high-dimensional learning mechanisms in both fish and artificial neural networks.
(2): Traditional approaches to studying social grouping have focused on verbal reasoning or low-dimensional quantitative models, but in reality, social preferences emerge from high-dimensional learning systems that interact with high-dimensional sensory inputs during an animal's embodied interactions with the world. These traditional methods do not capture the complexity of social behavior in animals. The approach proposed in this paper is well motivated because it uses image-computable models that bridge the gap between high-dimensional sensory inputs and social preferences.
(3): The research methodology of this paper involves building artificial neural networks and embodying them in virtual fish bodies. The artificial fish are then raised in virtual fish tanks resembling real fish rearing conditions. Two core learning mechanisms, reinforcement learning, and curiosity-driven learning, are implemented to train the artificial fish, allowing them to develop fish-like social preferences such as learning to prefer members of their own group over members of other groups and self-segregate with their in-group.
(4): The performance achieved by the methods proposed in this paper is the emergent collective sensing in both real and artificial fish. In particular, the artificial fish developed social preferences that are similar to those seen in real fish. The emergence of collective behavior in the artificial fish indicates that social grouping can be achieved through reinforcement learning, intrinsic motivation, and early social experiences. The performance reported in the paper supports the authors' goals of reverse engineering animal-like social behavior.
(5): The motivation for this research is to explore how social preferences emerge from high-dimensional learning systems. The authors aim to reverse engineer animal-like social behavior and bridge the gap between high-dimensional sensory inputs and social preferences using image-computable models.

Paper:32

Title: SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Authors: Junkai Zhou, Liang Pang, Huawei Shen, Xueqi Cheng
Affiliation: 中国科学院计算技术研究所
Keywords: deeplearning, NLP, dialogue generation, persona-based dialogue, consistency, coherence
Urls: paper link: arXiv:2305.11130v1 [cs.AI] Github: None
Summary:

(1): 本文研究如何提高角色类型（Persona）对话中的连贯性和一致性。
(2): 既往研究主要侧重于宝贵数据的筛选、模型结构的修改或目标函数的设计，但它们的改进受限且难以推广至所有类型的预训练语言模型中。而本文认为，如果考虑足够的生成次数，语言模型可以产生连贯一致的响应。因此，问题在于大规模响应生成和目标响应选择。作者提出了一个简单而有效的两阶段SimOAP策略，即过采样和后评估，该策略通过现有的压缩和蒸馏方法高效地获取大规模响应，并基于多个精心设计的评估指标从大规模候选响应中选择一个好的响应。实验结果表明，所提出的SimOAP策略可以改善骨干模型，并在自动和人工评估中优于基线策略。
(3): 作者通过提出一个简单的两阶段SimOAP策略，即过采样和后评估，来解决角色类型对话中的连贯性和一致性问题。其中，过采样阶段通过现有的压缩和蒸馏方法高效地获取大规模响应；后评估阶段基于多个精心设计的评估指标从大规模候选响应中选择一个好的响应。
(4): 本文主要研究的是角色类型对话的连贯性和一致性问题。实验结果表明，所提出的SimOAP策略可以在自动评估和人工评估中优于基线策略，证明了其有效性。
(5): 本文的研究动机是通过改进现有的角色类型对话生成模型，提高其生成的响应的连贯性和一致性。

Paper:33

Title: Unsupervised Multi-Channel Separation and Adaptation (无监督多通道分离和自适应)
Authors: Cong Han, Kevin Wilson, Scott Wisdom, John R. Hershey
Affiliation: 1Columbia University (哥伦比亚大学), 2Google
Keywords: multi-channel, speech separation
Urls: Paper link: https://arxiv.org/abs/2305.11151v1

Github code link: None

Summary:

(1): 这篇论文研究的是机器学习中的语音分离和增强问题，尤其是在多通道的情况下，如何实现自适应。
(2): 之前的方法需要使用有标签的数据进行监督学习，但是这些数据在真实环境下无法获取，而使用合成数据进行学习则可能导致在真实数据上的表现不佳，尤其当声源移动、麦克风组合和方向变化等因素存在时更为明显。因此，本文提出了一种无监督的方法，通过掌握空间和频谱信息来更好地分离声音源。
(3): 本文提出了一种增强型的Mixture Invariant Training（MixIT）算法，用于无监督训练多通道语音分离模型。研究人员在多麦克风的情况下，采用了一种称为TCN和TAC模块的分离模型，在训练时使用了有标签和无标签的数据。MixIT算法能够将混合的声源分解成单个声源，并且能够自适应地适用于在真实会议中录制的数据。
(4): 我们使用AMI Corpus中的远场麦克风阵列录音，对模型进行了训练和测试，同时在合成多通道AMI测试集上进行了客观评估。结果表明，MixIT无监督学习可以在单通道和多通道的真实世界语音记录上进行模型适应，以提高语音分离和增强性能。实验中的半监督模型在SI-SNR和人类监听评分方面表现最佳，比在匹配好的合成数据上训练的监督模型表现更好。
(5): 本文的目标是提出一种适用于多通道情况下的无监督学习方法，使得模型可以更好地适应于真实环境中的语音源。结果表明，该方法可获得显著的性能提升，可以实现语音分离和增强的自适应。

Paper:34

Title: LDM3D: Latent Diffusion Model for 3D (LDM3D：三维潜在扩散模型)
Authors: Gabriela Ben Melech Stan, Diana Wofk, Scottie Fox, Alex Redden, Will Saxton, Jean Yu, Estelle Aﬂalo, Shao-Yen Tseng, Fabio Nonato, Matthias Müller, Vasudev Lal
Affiliation: Gabriela Ben Melech Stan - Intel Labs (英特尔实验室)
Keywords: Latent diffusion model, 3D, computer vision, generative AI, RGBD images
Url: https://arxiv.org/abs/2305.10853, Github: None
Summary:

(1):这篇文章的研究背景是计算机视觉领域的图像生成技术中的潜在扩散方法，以及利用这种方法在三维空间中生成逼真的RGBD图像以及深度图。
(2):过去的方法如SitGAN存在着训练过程困难和结果不稳定等问题。本文提出了LDM3D方法，对text prompts生成逼真的RGBD图像和深度图。LDM3D模型在由RGB图像、深度图和字幕组成的约400万元组数据集上进行微调并通过大量实验验证了其有效性。
(3):本文提出的方法是LDM3D模型，首先使用稳定扩散的方法，通过深度估计模型生成输入图像的深度信息。之后通过这些生成的深度图将图像映射到3D空间，并在该空间中进行隐变量扩散模型的训练，以生成目标3D模型。
(4):本文分别在三个任务上进行了测试，分别是数据集1、2、3。在数据集1上，LDM3D的平均FID分数为15.254，另外两个数据集上的FID分数也表现出较高的生成图像质量，从而验证了该模型在图像生成方面表现优异。
(5):本文的研究动机是基于现有图像生成方法的不足，提出了一种可生成逼真RGBD图像和深度图的LDM3D模型。该方法对诸多行业有着广泛的应用前景，如娱乐、游戏、建筑和设计等。

注意：由于文本片段的内容缺失数据集具体名称，在（4）的回答中并未使用数据集名称，而是使用了一般化的术语来表述性能与结果。

Paper:35

Title: VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
Authors: Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai
Affiliation: OpenGVLab, Shanghai AI Laboratory (上海人工智能实验室开放视觉实验室)
Keywords: deeplearning, large language models, computer vision, natural language processing, open-ended decoder
Url: arXiv:2305.11175v1 [cs.CV] 18 May 2023, Github: https://github.com/OpenGVLab/VisionLLM, Demo: https://github.com/OpenGVLab/InternGPT
Summary:

(1): 本文研究的背景是大型语言模型在人工智能中的快速发展和在自然语言处理领域的出色表现，以及计算机视觉领域模型在处理开放式任务上的局限性。
(2): 以往的方法通常是通过预训练的方式来实现视觉任务，但随着任务变得越来越多样化，这种方式在适应不同情形时的成本会相对较高。本文提出了一种名为VisionLLM的基于大型语言模型的框架，通过将图像视为一种外语，并将视觉任务与语言任务相对齐，可以实现更加灵活和个性化的任务定制和管理，同时使用基于大型语言模型的解码器来实现开放式的任务预测。该框架的实验结果表明，通过语言指令，VisionLLM可以实现从精细的对象级别到粗略的任务级别不同级别的任务自定义，并取得了良好的结果。
(3): 本文的研究方法是通过将图像视为一种外语，并将其与语言任务相对齐，以实现更加灵活和个性化的任务定义和管理。并且使用基于大型语言模型的解码器，能够通过语言指令来实现开放式任务的预测和处理。
(4): 本文所提出的VisionLLM框架，可以实现不同级别的任务定制和管理，可以达到与检测专用模型相媲美的60%以上的mAP。作者希望该框架能够成为视觉和语言模型的新基准。
(5): 本文的研究动机是想要解决计算机视觉领域模型在处理开放式任务时的局限性，以及利用大型语言模型在人工智能领域的优越性能。

Paper:36

Title: Evidence of Meaning

         2. Authors: Charles Jin, Martin Rinard

         3. Affiliation: Massachusetts Institute of Technology (MIT) 

         4. Keywords: deeplearning, language models, program synthesis, formal meaning, semantics

         5. Urls: Paper: arXiv:2305.11169v1 [cs.LG] 18 May 2023, Github: None

         6. Summary: 

         - (1):本文的研究背景在于探索语言模型是否能够学习和理解语义信息。

         - (2):过去的方法并没有从确切的语义层面刻画语言，而仅仅只关注单词的形式、句子的结构和语法规则等表面统计学习。文章的方法很有动机，提出对在程序语言中定义了语义相关的概念进行测试，从中得出结论；并且通过一个创新的实验过程，验证语言模型学习了语言的语义层面，而非单纯的统计规则。 

         - (3):文章通过贪心算法完成给定输入输出示例的程序合成的训练任务，比较询问状态和隐藏状态之间的潜在关系，验证了语言模型能够学习语言的语义信息。 

         - (4):研究表明，语言模型在程序语言中也能学习语义信息，其学习的语义信息能实现给定的程序需求。文章的实验结果证明了语言模型学习到的语义信息是有用的，证明了前面的假设；文章的模型还能够创造新的语言结构，使得生成的程序的平均长度小于训练数据中的程序长度。                

         - (5):本研究的动机在于验证语言模型是否能够理解语义概念，探究语言模型是否存在性意义。该研究为语言领域提供了新的思路，为自然语言处理领域的未来研究提供了参考。

Paper:37

Title: Parameter-Efﬁcient Fine-Tuning with Layer Pruning on Free-Text (基于结构化层剪枝的自由文本参数高效微调)
Authors: Yunqi Zhu, Xuebing Yang, Yuanyuan Wu, Wensheng Zhang
Affiliation: 亚洲研究院自动化所
Keywords: deeplearning, ML, NLP, CV, fine-tuning, parameter efficiency, layer pruning, sequence-to-sequence modeling, pre-trained language models
Urls:

Paper: https://arxiv.org/abs/2305.08285
Github: None

Summary:

(1): 本文主要研究自由文本的参数微调方法，通过结构化层剪枝技术实现对预训练语言模型的参数和计算量的减少，提高参数微调的效率。
(2): 文章对比了适配器微调、基于提示的微调等微调方法，探讨了其存在的问题。本文提出了一种结合了LoRA和结构化层剪枝技术的参数高效微调框架，并在医学报告摘要和医学对话任务上进行了实验验证。
(3): 本文提出的框架首先使用交替剪枝法对预训练语言模型的transformer层进行剪枝，然后在feed-forward网络中引入少量可训练参数以实现微调目的。其中，LoRA 技术旨在在可训练模块和原始预训练模型之间建立连接。
(4): 实验结果表明，本文提出的框架能够减少模型参数量和计算量，提高微调效率，同时保持较好的模型精度。在医学报告摘要和医学对话任务上，相对于上述比较方法和其他微调方法，本文方法实现了更好的性能。特别是，在micro-average指标下，相对于BART-large，本文方法能够将模型参数减少50%，加速训练时间100%，同时保持超过92%的生成质量；
(5): 本文旨在提高预训练语言模型参数微调的效率，避免微调时需要存储全部更新后的模型参数所带来的高昂时间和空间开销。

Files

2023_05_19.md

Latest commit

History