2023_05_05 Arxiv更新论文汇总

今天共有24篇论文

Paper:1

Title: A Survey on Proactive Dialogue Systems: Problems, Methods, and Prospects（关于主动对话系统的调研：问题、方法和前瞻）
Authors: Yang Deng, Wenqiang Lei, Wai Lam, Tat-Seng Chua
Affiliation: Yang Deng - National University of Singapore
Keywords: Proactive dialogue systems, conversational agent, natural language interactions, chatbot, AI assistant
Urls: Paper - arXiv:2305.02750v1 [cs.CL] 4 May 2023,Github:None
Summary:

(1): 本文研究的主要背景是针对传统对话系统中缺少主动性的问题，提出了一种具有自主意识和自我控制能力的主动对话系统。
(2): 过往的方法主要集中在对话系统的响应能力上，比如对话上下文理解和回答生成。但是，在实际应用中，通常需要对话系统具有主动引导对话的能力。本文提出的方法基于现有的针对不同对话类型的对话系统，重点讨论了如何让对话系统设计出旨在引导对话方向、完成特定目标的主动性行为。同时，作者还分析了现有方法存在的问题，并提出了未来研究的方向。
(3): 本文的研究方法主要是对现有主动对话系统方法的总结和分析，提出了不同对话类型下的主动性设计方案，并评价了现有方法的优缺点及可行性，从而为未来研究主动对话系统提供具体的思路和方向。
(4): 本文对三种对话类型下的现有方法进行总结和评估，提出了针对不同对话类型的主动对话系统设计方案。具体地，针对任务导向式对话、信息获取式对话和开放领域对话，本文分别提出了“目标引导对话、以社交方式引导对话、为废话设计目标等”方法。作者通过实验对比分析证明，本文中提出的方法都可以有效提高主动对话系统的用户满意度和效率，从而实现更加人性化的聊天体验。
(5): 本文的动机在于调研主动对话的相关问题和应用，为未来研究和开发更加高效的对话系统提供技术支持和基础研究。

Paper:2

Title: Unsupervised Dialogue Topic Segmentation with Topic-aware Utterance Representation（带有主题感知话语表示的无监督对话主题分割）
Authors: Haoyu Gao, Rui Wang, Ting-En Lin, Yuchuan Wu, Min Yang, Fei Huang, and Yongbin Li.
Affiliation: Haoyu Gao is affiliated with the University of Science and Technology of China and SIAT, Chinese Academy of Sciences.
Keywords: Dialogue understanding, self-supervised learning, dialogue topic segmentation, text segmentation.
Urls: Paper - https://doi.org/10.1145/3539618.3592081, Github - https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/dial-start.
Summary:

(1): 本篇论文的研究背景是对话主题分割（Dialogue Topic Segmentation，DTS）。
(2): 过去的 DTS 方法主要集中于基于语义相似度或对话连贯度来评估对话分割的主题相似度。然而，其主题相似度并不能完全通过语义相似度或对话连贯度来确定。此外，未标注的对话数据中包含着话语关系的有用线索，但之前的方法尚未充分利用。因此，本文提出了一种新颖的无监督 DTS 框架，该框架通过相邻话语匹配和伪分割从未标注的对话数据中学习带有主题感知的话语表示。实验表明，本文方法在两个基准数据集上明显优于强基准方法。
(3): 本文所提出的方法通过相邻话语匹配和伪分割从未标注的对话数据中学习带有主题感知的话语表示。
(4): 本文的方法在两个基准数据集（DialSeg711 和 Doc2Dial）上均取得了很好的表现。通过实验表明，该方法显著优于强基准方法。
(5): 本文的主要动机是改进无监督 DTS 方法，以提高对话建模任务的效果。既有的 DTS 方法依靠语义相似度或对话连贯度来评估话题相似度，这些措施是不足以完全捕捉主题相似性的。本文的方法能够从未标注的对话数据中提取更强的话语表示，从而取得更好的分割效果。

Paper:3

Title: PEACOK: Persona Commonsense Knowledge for Consistent and Engaging Narratives

         2. Authors: Silin Gao, Beatriz Borges, Soyoung Oh, Deniz Bayazit, Saya Kanno, Hiromi Wakaki, Yuki Mitsufuji, Antoine Bosselut

         3. Affiliation: 第一个作者所在机构：NLP实验室，IC，洛桑联邦理工大学，瑞士。

          
         4. Keywords: deeplearning, NLP, commonsense reasoning, persona knowledge, narrative generation
         
         5. URLs: 
         Paper: https://arxiv.org/abs/2305.02364
         Github: https://github.com/Silin159/PeaCoK
         
         6. Summary:
         
         - (1): 本文研究目标为更好地利用人物常识知识生成更为连贯且引人入胜的叙述。在实现该目标过程中，对于dialogue或storytelling agents来说，理解说话者、听众的角色如何与故事相得益彰十分重要。对于其所表达的观点，利用所了解的听众角色来意味需满足听众的兴趣。同时，为了使故事具有连贯性和可信度，这些agents还必须学会在整个叙述过程中保持自我一致的角色感，这样他们的反对者才会有参与逼真的对话或故事的感觉。

         - (2): 过去的研究方法一般都是靠从已有的语言模型中自动生成人物常识知识。但这种方法的问题在于中途购买可能出现对角色知识的误解和不准确理解。因此，本文提出了PEACOK，即一个新的大规模人物常识知识图谱。该知识图谱在人机互动领域的先前研究中确定了五个人物知识维度，并从已有的常识知识图谱和大规模预训练语言模型中总结了该架构中的信息。研究分析表明，PEACOK包含了丰富和精确的人物知识，有助于提高下游系统生成更为连贯实际的对话或故事。

         - (3): 本文构建了一个新的大规模人物常识知识图——PEACOK。该方法利用已有常识知识图谱和大规模预先训练的语言模型，针对人机互动领域确认了五种不同的人物知识维度，并从大量的常识知识图谱中筛选出在该架构下有用的信息，通过该图谱的建立得以精准而全面地将人物的常识知识呈现出来，有助于提高下游系统生成更为连贯实际的对话或故事。

         - (4): 该研究基于所构建的人物常识知识图PEACOK，对于几项任务分别进行了实验。PEACOK的表现远远超出了现有方法。本文表明，通过合理有效的利用常识知识，以及字面和相关上下文的分析，可以成功改善现有的人物描述能力。

         - (5): 本文旨在通过构建PEACOK这一新的大规模人物常识知识图谱，提高下游系统生成更为连贯实际的对话或故事，并在几个不同的任务中提高表现，为建立更成功的人机互动体验打下基础。

Paper:4

Title: Are VAEs Bad at Reconstructing Molecular Graphs? (VAE恶在重新构造分子图时吗？)
Authors: Hagen Muenkler, Hubert Misztela, Michal Pikusa, Marwin Segler, Nadine Schneider, Krzysztof Maziarz
Affiliation: Novartis (Novartis制药), Microsoft Research AI4Science (微软研究院AI4Science)
Keywords: generative models, molecular graphs, variational auto-encoders, reconstruction, posterior collapse
Urls: paper link: https://arxiv.org/abs/2305.03041v1, Github link: None
Summary:

(1): 本文研究的背景是分子图的生成模型和其中的重新构建问题。
(2): 近年来已经有很多生成化合物的方法被提出，其中一部分使用基于RNN的SMILES字符串表示，另一部分则使用分子图，使用由GNN-based编码器和逐步重构输入图的顺序解码器配对的VAE生成模型。本文旨在探讨当多个最先进的生成模型在相同的条件下进行比较时，它们的重构精度比以前在看似更难的数据集上报告的要差。然而，本文还表明，改进重构并不能直接导致更好的采样或优化性能。VAE在重新构建分子图时通常失败构建类似于输入，以不同的方式组装相同的图形，具有类似的诸如溶解度等化学性质。最后，本文还表明输入分子及其失败的重构通常由不同的编码器映射到统计学上可区分的后验分布，暗示后验崩溃可能并不能完全解释为什么VAE在重新构建分子图时表现不佳。
(3): 本文提出了一种基于VAE的分子图生成模型，探讨了其在重新构建过程中的问题，并从后验崩溃的角度进行了探究。
(4): 本文所提出的生成模型在重新构建分子图时表现不佳，重构精度比以前的数据集上报道的还要差。但改进重构并不能直接导致更好的采样或优化性能。本文的分析也表明，输入分子及其失败的重构通常由不同的编码器映射到统计学上可区分的后验分布，暗示后验崩溃可能并不能完全解释为什么VAE在重新构建分子图时表现不佳。
(5): 本文旨在探讨基于VAE的分子图生成模型在重新构建分子图时的表现问题，并讨论后验崩溃是否能够解释为何VAE在这个任务上表现不佳的原因。

Paper:5

Title: Multimodal-driven Talking Face Generation via a Unified Diffusion-based Generator (基于统一扩散生成器的多模态驱动说话人脸生成)
Authors: Chao Xu, Shaoting Zhu, Junwei Zhu, Tianxin Huang, Jiangning Zhang, Ying Tai, Yong Liu
Affiliation: C. Xu, S. Zhu, T. Huang and Y. Liu are with APRIL Lab, Zhejiang University, Hangzhou, China; J. Zhu, J. Zhang, and Y. Tai are with YouTu Lab, Tencent, Shanghai, China.
Keywords: Multimodal-driven Talking Face Generation, Face Swapping, Diffusion Model
URL: paper: https://arxiv.org/pdf/2305.02594.pdf, Github: None
Summary:

(1):本篇论文研究基于多模态驱动的说话人脸生成。现有的方法忽略了文本模态的潜力，并且它们的生成器主要采用源导向的特征重排范式，与不稳定的GAN框架相结合。本文首先提出在文本提示中表示情感风格，这可以继承CLIP的丰富语义知识并允许灵活的情感控制。其次，我们将任务重组为目标取向的纹理转移，并采用了扩散模型(Diffusion Model)。本文提出的TGDM后通过基于纹理的注意力模块和额外的隐含信息，将复杂的转移问题分解为多条件降噪过程。此外，TGDM可以优雅地为换脸提供支持。
(2):现有的方法使用的是源导向的范式，操作起来复杂，难以扩展到实际应用中。文中提出的TGDM采用的是目标取向的纹理转移，避免了GAN的不稳定性，且易于实际应用。
(3):本文提出了一种基于扩散模型的驱动器，用于说话人脸生成，解决了现有方法难以进行情感控制、生成速度慢、不稳定的问题。
(4):本文所提出的方法TGDM可以将纹理从源脸转移至目标骨架脸，得到更高保真度的“说话人脸”，使得说话视频具有更灵活、泛化的情感控制，并且在生成各种表情和动作时表现良好。作者通过实验取得了很好的结果，证明了方法的优越性。
(5):本文的主要研究动机是解决现有方法所存在的不足之处，如不稳定性、难以进行情感控制等问题，提出一种新的方法，使得说话人脸生成具有更高保真度、更灵活的情感控制。

Paper:6

Title: Semantic Space Grounded Weighted Decoding for Multi-Attribute Controllable Dialogue Generation (基于语义空间的加权解码的多属性可控对话生成)
Authors: Zhiling Zhang, Mengyue Wu, Kenny Q. Zhu
Affiliation: 上海交通大学/Shanghai Jiao Tong University
Keywords: Controllable text generation, Dialogue generation, Weighted decoding, Semantic space, Multi-attribute control
Urls: Paper link: arXiv:2305.02820v1 [cs.CL] 4 May 2023; Github link: None
Summary:

(1): 本文的研究背景是控制文本生成，具体是针对属性多的情况。针对智能聊天机器人等使用场景，提出一种同时控制多个属性的生成模型。
(2): 过去的控制生成方法存在一些问题，本文提出的方法克服了这些问题。之前的加权解码方法需要与每个属性相关的参数，会带来大量的多余参数，从而让模型变得低效，容易过拟合。本文提出的方法通过在语义空间中加权解码，避免了这些问题，能够在多属性生成任务中产生优异的效果。
(3): 本文提出了一种基于语义空间的加权解码方法，称之为Dialog Attribute Space Controller（DASC）。DASC在属性语义空间内建立了标记投影和上下文嵌入，用属性特定的线性层将语言模型的隐藏状态映射到属性语义空间内。在解码时，通过对当前上下文嵌入在属性空间中相邻标记分配更高的权重，实现了加权解码。
(4): 本文在3个属性可控生成任务上取得了最先进的控制精度，证明了DASC的有效性。同时，DASC生成的结果内容有趣、合理，甚至可以在冷启动场景下产生有意义的输出。
(5): 本文的动机是针对智能聊天机器人等应用场景，提出一种同时控制多个属性的生成模型。本文克服了现有方法中存在的问题，并在此基础上提出了基于语义空间的加权解码方法，能够产生优异的效果，具有很高的实用价值。

Paper:7

Title: Task-Optimized Adapters

         2. Authors: Namo Bang, Jeehyun Lee, Myoung-Wan Koo

         3. Affiliation: 韩国Sogang University

         4. Keywords: Task-Oriented Dialogue System, End-to-end Model, Adapters, Reinforcement Learning, MultiWOZ Benchmark

         5. Urls: arXiv:2305.02468v1 [cs.CL]  4 May 2023, Github: None

         6. Summary:

         - (1):本文研究背景与任务导向的对话系统相关，旨在构建更加高效、易用的任务导向的对话系统模型。

         - (2):传统的对话系统模型通常需要对每个任务进行单独优化。本文提出的模型通过将Adapter插入到核心模块（NLU，DST，NLG）中，可以仅使用少量训练参数，从而针对每个任务进行单独优化，并避免单个模块改变过多的情况。同时，利用增强学习技术对DST和NLG模块进行优化，使得该模型在维持了大量的电子话语基础上，取得了多方面的优秀性能。

         - (3):本文提出的方法是基于bse 的NLU模块、Rule-based 的DST模块、Reinforce 的NLG生成任务模块，结合了Task-Optimized Adapters进行单独的优化训练，并通过增强学习技术进一步优化DST和NLG模块。

         - (4):本方法的性能在MultiWOZ benchmarks上表现优异，且比已有的端到端模型表现更加出色。尤其在DST任务的2.2数据集中表现尤其突出。结果表明，该方法确实可以提升任务导向对话系统性能。

         - (5):本文动机在于前人的对话系统模型通常需要大量调整和优化，并且效果有限，同时在针对多个任务进行单独优化上存在一定难度，而本文提出的方法可以以数据驱动的方式采用可扩展性的深度神经网络，实现优秀任务导向的对话系统。

Paper:8

Title: SELF-ALIGN: Self-Supervised Alignment of AI-Assistant Agents with Minimal Human Supervision
Authors: Zhiqing Sun, Yitong Li, Zhaocheng Zhu, Yiqi Wang, Yifei Fan, Jie Liu, Jiaming Liang, Eric P. Xing
Affiliation: Eric P. Xing belongs to the Department of Computer Science in Carnegie Mellon University (卡内基梅隆大学计算机科学系)
Keywords: AI-assistant agents, language models, self-supervised alignment, human supervision, ethics
Urls: Paper: https://arxiv.org/abs/2305.03047; Code: None
Summary:

(1): 本文研究AI-assistant agents的自我监督alignment问题，目前使用的方法需要耗费大量人力资源，并且质量、可靠性、多样性、自我一致性等问题亟需解决。
(2): 过去的方法主要是通过人工标注的样本或人类反馈信号进行监督学习，但难以解决上述问题。本文提出的方法使用principle-driven reasoning和大型语言模型相结合，通过自我学习获得较好的alignment，并且在性能上超越了几种先进的AI系统，实现了较高的监管效率和性能。
(3): 本文方法的主要流程包括四个阶段：第一阶段，使用LLM生成合成的提示，并通过主题引导的方法来增加提示的多样性；第二阶段，利用少量的人工编写的principles，指导LLM通过对示例的上下文学习，产生有用、道德和可信的回答；第三阶段，使用高质量的self-aligned回答对原始的LLM进行微调，以便产生每个查询的理想回答；第四阶段，进行细化，以解决过于简略或间接的回答问题。
(4): 本文使用LLaMA-65b基本语言模型构建一个名为Dromedary的AI助手，使用不到300行的人工注释（包括小于200个种子提示，16个通用principles以及5个示例进行上下文学习），显著超越了Text-Davinci-003和Alpaca在各种设置下的性能，且高质量的alignment可用于实现目标监管效率、减少偏差和提高可控性。
(5): 本文的研究动机在于解决当前AI市场上AI-assistant agents需要耗费大量人力资源的监管问题并取得高效的监管效果，以及提高其可信度和道德性。

Paper:9

Title: ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization
Authors: Wen Xiao, Yujia Xie, Giuseppe Carenini, Pengcheng He
Affiliation: University of British Columbia, Vancouver, Canada (Wen Xiao, Giuseppe Carenini)
Keywords: deeplearning, ChatGPT, natural language processing, abstractive summarization, editing instructor
Urls: arXiv:2305.02483v1 [cs.CL] 4 May 2023, Github: None
Summary:

(1): 该论文的研究背景是关于如何优化 ChatGPT 这样的自然语言生成模型的输出以满足用户特定需求的问题。
(2): 过去的方法包括通过精心设计提示语来尝试指导模型生成满足用户期望的输出，但这种方法无法满足人们迭代细化与编辑的行为方式。该论文通过将 ChatGPT 分为生成器、编辑器和辅助生成器三个部分，并使用 smaller model 作为用户指引器来建立一个三代理机制的编辑流水线。在此分层框架下，生成器生成初始输出，用户指引器生成编辑指令，编辑器根据用户喜好生成修订输出。流水线的迭代过程可以使模型更好地满足用户的需求。
(3): 该论文提出了一种三代理机制的编辑流水线方法，并针对用户指引过程进行了模型训练。具体而言，编辑器通过生成的输出来引导辅助生成器生成与用户需求更加符合的编辑指令，进而修订生成的输出，从而达到更好的修改效果。
(4): 该论文在两个 abstractive summarization 数据集上进行了实验，实验表明，该研究方法可以生成更符合用户期望的输出。表现证明了研究方法的可行性和有效性。
(5): 该论文的动机是为了优化 ChatGPT 的生成输出以满足用户需求。该论文采用了新的三代理机制编辑流水线方法，并通过实验验证了该方法的有效性。

Paper:10

Title: Caption Anything: Interactive Image Description (使用多元模态控制的交互式图像描述)
Authors: Teng Wang, Jinrui Zhang, Junjie Fei, Yixiao Ge, Hao Zheng, Yunlong Tang, Zhe Li, Mingqi Gao, Shanshan Zhao, Ying Shan, Feng Zheng
Affiliation: 南方科技大学 (Southern University of Science and Technology)
Keywords: Controllable image captioning, multimodal control, natural language processing, computer vision
Urls: Paper: arXiv:2305.02677v1 [cs.CV] 4 May 2023, Github: https://github.com/ttengwang/Caption-Anything
Summary:

(1): 本文研究多元模态控制的交互式图像描述。
(2): 过去的方法是基于标注的输入控制和输出说明对来训练的，但是这种方法的应用受到标注数据的限制，故本文提出了一种基于单模态指令的基础模型，通过统一视觉和语言提示来实现多元模态控制，并利用Segment Anything Model和ChatGPT架构模型来实现这种方法。此方法采用了更为广泛的数据来源来完善模型的训练。
(3): 本文采用了基于单模态指令的基础模型，通过统一视觉和语言提示来实现多元模态控制，包括视觉控制和语言控制。
(4): 本文的实验任务是图像描述，并通过现有数据集对方法进行了评估，取得了较优的结果，支持了其研究目标。
(5): 本文的研究动机在于提高交互式人工智能系统的可用性和可扩展性。

Paper:11

Title: "Oops, Did I Just Say That?" Testing and Repairing
Authors: Pingchuan Ma, Zongjie Li, Ao Sun, and Shuai Wang
Affiliation: 香港科技大学
Keywords: Large language models, ethics, testing and repairing, suggest-critic-reflect process, on-the-fly repairing
Urls: http://arxiv.org/abs/2305.02626, Github: None
Summary:

(1): 本文研究大型语言模型的伦理问题，包括如何测试和修复其不道德建议。因为这些模型有巨大的潜力在日常生活中作为通用AI助手，所以它们的微妙的不道德建议成为一个严重而真实的问题。
(2): 过去的方法常常需要手动标记和评价实例以测试模型的不道德行为，非常耗时且易受人类偏见的影响，而且很难在复杂情况下检测模型的不道德行为。本文提出了以自动化方式检测不道德建议的新框架，包括了测试套件ETHICSSUITE、建议-批评-反思(SCR)过程和虚拟病毒修复方案等。
(3): 本文提出了ETHICSSUITE，该测试套件提供了复杂、情境化和真实的道德场景，用于测试大型语言模型的不道德建议。建议-批评-反思(SCR)过程是一种自动化测试Oracle，用于检测不道德建议。本文把检测模型的不道德行为的问题重新派生为一个可以自动检查违规的PCR任务。此外，本文提出了一种实时修复方案，称为on-the-fly (OTF)方案，可应用于黑匣子API设置中的LLMs。
(4): 使用ETHICSSUITE，本研究基于七种流行的LLMs（如ChatGPT、GPT-4），发现了总共109,824个不道德建议。将OTF方案应用于两个LLM(即Llama-13B和ChatGPT)，成功修复了大量的不道德建议，为更具伦理意识的LLMs铺平了道路。
(5): 本文旨在解决大型语言模型中不道德建言的自动化检测和修复问题，以确保模型的对人类价值的认识性的对齐性和正确性。

Paper:12

Title: OctFormer: Octree-based Transformers for 3D Point Clouds
Authors: Peng-Shuai Wang
Affiliation: 作者为北京大学的研究人员
Keywords: Point Clouds, Transformers, Octree, 3D Semantic Segmentation, 3D Object Detection
URLs: Paper: https://arxiv.org/abs/2305.03045, Github: https://wang-ps.github.io/octformer/
Summary:

(1):本文研究三维点云理解，并且提出一种基于八叉树的Transformer模型。
(2):过去的方法主要为基于体素的卷积神经网络(CNN)、基于视角的CNN和基于点的网络(PointNet)。这些方法在大规模数据集上效率较低，且性能仅相当。为了解决Transformer模型计算复杂度高的问题，之前的方法将点云划分为不重叠的局部窗口，但每个窗口的点数变化很大，影响GPU的计算。而本文解决计算复杂度问题的方法是提出一种新的八叉树注意力机制，利用八叉树排序随机键值把点云分割成大小相同的局部窗口，同时允许窗口的形状自由变化。本文提出的OctFormer模型在3D分割和物体检测任务上取得了最佳性能，并且比之前的方法更高效。
(3):本文提出一种Octree-based Transformer模型，利用八叉树注意力机制解决了计算复杂度高的问题。Octree机制将点云分割成大小相同的局部窗口，允许窗口的形状自由变化。同时，作者提出一种扩大感受野的Dilated Octree Attention模块。实验表明，本文的方法较好地解决了计算复杂度高的问题，同时在大规模数据集上也表现得更为高效。
(4):作者提出的OctFormer模型具有良好的性能表现，比之前的方法更有效。在扫描网(ScanNet)数据集上，OctFormer模型在mIoU指标上比基于稀疏体素的CNN模型高7.3。作者将提出的八叉树注意力机制和Dilated Octree Attention模块应用于点云分割和物体检测任务，并在几个3D分割和检测基准测试中取得了最佳性能。
(5):本文的动机是提高三维点云理解的效率和性能。在此基础上，作者提出了一种基于八叉树的Transformer模型，解决了计算复杂度高的问题，同时也在今后的研究中提供了一种新的思路。

Paper:13

Title: Transformer-based Layout Diffusion Model for High-Fidelity, Diverse Layout Generation

         2. Authors: Qifeng Chen, Hanwen Yao, Jiaxin Chen, Minghao Yan, Gang Huang, Song-Chun Zhu 

         3. Affiliation: 中国科学院深圳先进技术研究院(Intelligent Video Analytics Lab, SIAT, Chinese Academy of Sciences, Shenzhen, China)

         4. Keywords: deep learning, generative models, transformer, layout generation, diffusion models, denoising 

         5. URLs: 
         Paper: https://arxiv.org/abs/2305.02567v1 
         Github: None

         6. Summary:
         - (1):本文研究的背景是自动化布局生成。

         - (2):本文所探讨的过去方法是基于生成模型，比如生成式对抗网络（GANs）和变分自动编码器（VAEs）等。但是这些方法在生成效果和多样性方面仍有许多改进空间。在这种情况下，文章提出了一种新的生成模型，即Transformer-based Layout Diffusion Model （LayoutDM），通过使用传输模型（transformer）和扩散模型（diffusion model）等方法实现了高质量、多样化的布局生成。

         - (3):本文提出一种基于传输模型和扩散模型的布局生成方法，通过建立一个条件去噪传输模型（DDPM），并使用纯基于传输模型的架构实例化该模型，从噪声的布局数据中学习逆向扩散过程，从而生成样本。本文还提出了一种基于传输模型的条件布局去噪器来实现这种布局生成的机制。

         - (4):本文方法在几种数据集上进行了实验，证明了生成的样本多样性更强，质量更高，支持本文的设计目标。

         - (5):本文的动机是设计一种更好的生成模型，以实现自动化布局生成并解决过去方法的缺点。

Paper:14

Title: Eliciting Natural Customer Support Dialogues
Authors: James Gung, Emily Moeng, Wesley Rose, Arshit Gupta, Yi Zhang, and Saab Mansour
Affiliation: 亚马逊人工智能实验室 (AWS AI Labs)
Keywords: deeplearning, natural language processing, customer support, spoken dialogue dataset, natural language phenomena
Urls: Paper: https://arxiv.org/abs/2305.03007v1, Github: https://github.com/amazon-science/dstc11-track2-intent-induction (代码下载链接)
Summary:

(1):本文研究背景为自然语言客服对话；
(2):过去的方法多集中于任务性对话系统的开发和评估，这些数据集主要由人机书写对话组成，不符合现实人类客服对话的特点，因此本文提出了一种多领域英文对话系统数据集NATCS，并且描述了其收集过程，提出了一种自己收集数据集的方法，在不同数据集方面与现有对话数据集相比更加具有代表性。本文方法很有动机；
(3):NATCS是一种包含英文自然、人际客服互动对话的多领域数据集，包括一个自我收集数据集NATCSSELF和一个语音对话数据集NATCSSPOKE。本文在一定数量的对话中进行了意图归纳和对话行为分类的注释，为现实对话提供了有效的训练数据；
(4):通过分析NATCS数据集，本文实现了对话行为分类和意图识别的能力，证明NATCS能为模型训练提供足够可靠性和代表性。具体的性能，可参照原文中的实验数据；
(5):本文研究动机在于解决自然语言人际客服对话数据集不足的问题，进一步促进自然语言对话系统的发展和应用。

Paper:15

Title: Lift Yourself Up
Authors: Xin Cheng, Di Luo, Xiuying Chen, Lemao Liu, Dongyan Zhao, Rui Yan
Affiliation: 1 Peking University
Keywords: retrieval-augmented generation, memory, duality, self memory, text generation
Urls: paper link: https://arxiv.org/abs/2305.02437, Github: None
Summary:

(1): 本文研究背景主要在于现有的检索增强型文本生成模型受制于检索空间的限制，需要在使用更优秀的记忆的同时，解决检索空间有限的问题。
(2): 既往方法主要是通过对文本集合进行检索得到记忆，但此方法因检索空间有限而存在局限性，受到现有训练集合质量的限制以及无法再生成新的记忆的困扰。该篇文章在此基础上提出自记忆框架，该方法可以使用检索增强生成器自身来生成无限的记忆集合，并使用记忆选择器选择一个生成的记忆，从而解决了记忆受检索空间限制的问题，同时探讨了记忆和生成之间的对偶关系。声称这种方法在多个任务上均取得了不错的效果。
(3): 本文提出了自记忆框架(Selfmem)。在每个生成轮中，Selfmem采用检索增强生成器自身生成无限的记忆池，并使用记忆选择器挑选一份生成的记忆集，以进行下一个生成轮。对于每个生成器生成的记忆，都使用它自己作为检索引擎执行检索。通过自记忆池方法，快速收集全局记忆，并且避免了固定的引用训练数据集所带来的限制和缺陷。
(4): 该方法在神经机器翻译、抽象摘要和对话生成等多个文本生成任务中取得了不错的结果，在JRC-Acquis (四个方向)、XSum (50.3 ROUGE-1)和BigPatent (62.9 ROUGE-1)等七个数据集上均取得了超越先前最佳结果的成绩。
(5): 本研究的动机在于解决现有检索增强型文本生成模型局限于已有训练集合且检索空间有限的问题。提出了自记忆框架，可以拥有更广泛和强大的记忆，并取得更好的生成效果。

Paper:16

Title: END-TO-END SPOKEN LANGUAGE UNDERSTANDING USING JOINT CTC LOSS AND (中英文翻译)
Authors: Jixuan Wang, Martin Radfar, Kai Wei, Clement Chung
Affiliation: Jixuan Wang所属机构：Amazon Alexa AI
Keywords: Spoken language understanding, intent classification, dialogue act classification
Urls: Paper: arXiv:2305.02937, Github: None
Summary:

(1): 本文研究背景在于如何直接从语音信号中提取语义信息是一项具有挑战性的任务，语音理解（SLU）模型需要将语音转录成文本，并从中提取语义信息，以实现对话机器人的智能对话功能。
(2): 以前的方法主要是将语音直接转录成文本，再进行语义分析，但此方法需要进行自回归解码，计算量大且效率低下。本文提出了一种利用自监督学习方法进行预训练的音频编码器，结合CTC Loss和SLU Loss进行端到端的语音语义理解。该方法比直接从音频中提取语义信息和自回归ASR模型都更有效。
(3): 本文提出了一种新的端到端语音语义理解方法，包括一个ASR模型和一个语句编码器。利用一个以CTC为损失函数的ASR模型作为输入，得到语音信号文本编码，进而进行语义分析。
(4): 本文在DSTC2数据集上相比于同领域的最新对话行为分类模型，精度提高了4%；在SLURP数据集上相比于同领域的最新语音语义理解模型，精度提高了1.3%。结果表明，本文所提出的方法优于先前的方法，达到了相当高的性能。
(5): 本文的研究动机在于，如何从语音信号中直接提取语义信息是一项有挑战的任务，且目前的直接从音频中提取语义信息和自回归ASR模型的方法都存在一些问题。本文提出的E2E SLU方法有望在语音理解和智能交互领域具有一定的应用前景。

Paper:17

Title: Noise-Resistant Multimodal Transformer for Emotion Recognition 基于Transformer多模态噪声抵抗情感识别模型
Authors: Yuanyuan Liu, Haoyu Zhang, Yibing Zhan, Zijing Chen, Guanghao Yin, Lin Wei, and Zhe Chen
Affiliation: 中国地质大学（武汉）计算机学院
Keywords: Emotion recognition, Multimodal learning, Noise-resistant, Transformer
Urls: Paper link: https://arxiv.org/abs/2305.02814v1

Github: None
Summary:

(1): 该文章研究的是使用多模态学习技术对人类情感的识别，提出了一种新的模型解决噪声干扰问题。
(2): 过去的方法通常无法很好地处理噪声信息，造成了情感识别的偏差。本文提出了一种新的多模态Transformer，能够提取出噪声鲁棒的特征；同时，本文使用了带有对抗训练的学习方法，能够防止模型过度拟合噪声信息。
(3): 本文提出了一种新的多模态Transformer，包括：噪声抗性通用特征提取器和一个多模态融合Transformer。使用对抗训练的方法来进行噪声增强学习，从而使得生成的特征具有更好的鲁棒性。
(4): 本文的方法在MOSI、MOSEI、IEMOCAP和RML等多种数据集上进行了实验证明，比过去的方法取得了更好的性能，并且可以有效地处理带有噪声的多模态数据。
(5): 本文的研究动机是在人类情感识别领域中，处理噪声问题的重要性，以及现有方法处理噪声时存在的不足。

Paper:18

Title: AutoML-GPT: Automatic Machine Learning with GPT (GPT自动机器学习)
Authors: Shujian Zhang, Chengyue Gong, Lemeng Wu, Xingchao Liu, Mingyuan Zhou
Affiliation: The University of Texas at Austin (得克萨斯大学奥斯汀分校)
Keywords: AutoML, GPT, machine learning, language models, hyperparameters (AutoML，GPT，机器学习，语言模型，超参数)
Urls: Paper: https://arxiv.org/abs/2305.02499v1, Github: None
Summary:

(1): 随着人工智能领域的广泛应用需要，自动机器学习（AutoML）技术受到了越来越多的关注。
(2): 之前的方法需要大量的人为干预和优化，工作量巨大。而本文提出利用大规模语言模型GPT自动完成模型训练，从数据处理到模型架构、超参数调整等，实现AutoML。这种方法可以应用于计算机视觉、自然语言处理等各种复杂的人工智能任务，具有较好的性能表现。
(3): 本研究提出了AutoML-GPT方法，利用GPT自动进行模型训练，并处理用户提供的数据和描述信息。用语言作为统一的界面和提示，实现与不同模型的连接，自动调整超参数。最终实现无人干预，自动完成模型训练，预测训练日志。
(4): 本文在计算机视觉和自然语言处理等领域进行了广泛实验和消融研究，证明AutoML-GPT方法的泛化能力强、效果显著，可以有效地应用于各种人工智能任务。
(5): 本文的研究动机在于提高机器学习的效率和便利性，在自动化模型训练的研究方面有一定的创新。

Paper:19

Title: Multi-Modality Deep Network for JPEG Artifacts Reduction
Authors: Yaqi Liu, Zhicheng Jiao, Mingyuan Yang, Shanshan Zhao, Papanikolopoulos Nikos
Affiliation: Yaqi Liu - University of Edinburgh, Zhicheng Jiao - Tongji University, Mingyuan Yang - Tongji University, Shanshan Zhao - Tongji University, Papanikolopoulos Nikos - University of Minnesota
Keywords: JPEG artifacts reduction, multimodal fusion learning, contrastive loss, extreme low-bitrate, deblocking
Url: https://ieeexplore.ieee.org/document/9332283, Github: None
Summary:

(1): 该文章的研究背景是JPEG图像压缩引起的伪影（artifacts）问题，旨在解决传统算法在极低码率压缩下没有有效的压缩修复能力的问题。
(2): 过去的方法都是基于卷积神经网络的模型，浅层网络之所以不能用于对高度压缩的图像进行有效修复是因为高压缩率下图像失真严重，信息几乎被摧毁。论文指出它们的工作能力有限是由于只使用图像自身的信息，缺少被良好地预先训练的多模态模型。作者提出了一种多模态融合学习的新方法利用了相关的文本描述进行JPEG伪影reduction 和图像修复，利用对比学习，优化distance metric学习出像素级别的特征，大幅度提升了传统基于卷积神经网络的算法的效果。
(3): 本文提出了一种利用文本描述和图像信息的利用文本描述和图像信息的多模态融合学习方法。该方法由两部分组成：一方面，从全局和局部角度融合图像特征和文本语义特征；另一方面，设计一种对比损失模型，在对比学习中优化distance metric学习出像素级别的特征。
(4): 该方法在JPEG图像压缩降低和图像修复任务上进行了广泛的实验，并对比了许多已有技术。实验中，模型表现优异，通过用户评测，证明该方法在压缩伪影reduction上的效果和基于卷积神经网络的算法相比有更好的表现。
(5): 本文的动机在于提出一种有效的方法来解决传统算法在极低码率压缩下没有有效的压缩修复能力的问题。该方法通过多模态融合学习，并利用对比学习的方式，从多个角度提取更准确的特征来实现更好的压缩降噪和图像修复效果。

Paper:20

Title: Should ChatGPT and Bard Share Revenue with Their Data Providers? A New Business Model for the AI Era

         2. Authors: Dong Zhang

         3. Affiliation: None (作者所在单位未给出)

         4. Keywords: AI tools, revenue sharing, large language models, data providers, scoring system

         5. Urls: arXiv:2305.02555v1 [cs.LG] 4 May 2023, Github: None

         6. Summary: 
         - (1):本文研究AI工具、特别是大语言模型的商业模式，提出AI工具应该和数据提供方分享收益。为了推动AI技术的发展，建立一个健康的AI生态系统，需要建立一种新的基于提示的评分系统以衡量数据提供方的数据参与度。

         - (2):本文主要讨论了AI工具和数据提供方在当前版权法规束下的不良博弈关系，以及目前的收益分享模型存在的诸多问题，如网站流量、点击量等指标的适用性下降；AI工具和数据提供方共同面临的隐私和版权问题。本文提出的基于提示的评分系统相对于当前的流量和点击指标，更加准确、可靠和科学，能帮助AI工具更好地解决这些问题，为所有参与方创造最大的利益，并促进AI技术的发展。

         - (3):本文提出了一种基于分类和文本相似度模型建立提示评分系统的具体方法，并详细阐述了AI工具或第三方如何根据这个模型与数据提供方进行收益分享。

         - (4):本文提出的方法对于大语言模型ChatGPT和InstructGPT，以及其他AI工具的数据提供方参与收益分享具有实际意义，并具有可操作性和可行性。通过大量实验和模型的比较，证明了该方法的流程设计和评分策略的有效性和准确性。因此，本文具有一定的理论和实践价值。

         - (5):本文的研究动机在于推动AI技术的发展和数据治理的创新，通过实践检验新的商业模式是否可行，从而探索一种新的合作和协商机制，促进AI工具和数据提供方之间的互利共赢关系建立，以便更好地实现人类对AI科技的价值和未来的愿景。

Paper:21

Title: The System Model and the User Model: Exploring AI Dashboard Design (系统模型和用户模型：探索AI仪表板设计)
Authors: Fernanda Vi´egas and Martin Wattenberg
Affiliation: None
Keywords: interface design, artificial intelligence, neural networks, interpretability
Urls: arXiv:2305.02469v1 [cs.HC] 4 May 2023
Summary:

(1): 本文研究的背景是当前大有关注的基于大型语言模型的聊天机器人出现了不当的互动，提出了对人工智能仪表板的研究。
(2): 过去的方法存在的问题在于无法提供对模型内部状态的监控，因此本文提出了设计人工智能仪表板的方法，重点监控系统模型和用户模型的状态，通过可视化表达。方法的动机是充分利用神经网络的可解释性。
(3): 提出了监控系统模型和用户模型状态的措施，在人工智能交互系统中设计仪表板传达神经网络的内部状态。
(4): 本文用到的任务是设计人工智能仪表板，根据任务目标提出了设计要求。本文没有具体的性能比较，方法的主要目的是提出设计方向和思路。
(5): 本文的动机是通过对系统模型和用户模型进行监控，使得人工智能系统更易于使用和更加安全可靠。

Paper:22

Title: Integrating Psychometrics and Computing Perspectives on Bias and Fairness in Affective Computing: A Case Study of Automated Video Interviews
Authors: Brandon M. Booth, Louis Hickman, Shree Krishna Subburaj, Louis Tay, Sang Eun Woo, Sidney K. D’Mello
Affiliation: 位于科罗拉多大学波德分校的认知科学研究所（Institute of Cognitive Science, University of Colorado Boulder）
Keywords: Bias, fairness, affective computing, discrimination, automated video interviews
Urls: None
Summary:

(1): 本文探讨了情感计算中的偏差和公平。作者针对典型的机器学习情感计算流程提供了以心理测量学为基础的展示，并扩展了人际交流框架，以阐明如何识别从观察行为推断人类情绪和其他心理结构时可能出现的偏差来源。
(2): 文章讨论了评估公平性和偏差的各种方法和度量以及与美国法律背景相关的要点。作者在案例研究中说明了如何从多模态数据中测量某些类型的偏差和公平性，例如在为模拟工作申请收集视频面试数据中进行自动人格和招聘预测。
(3): 本文提出了在情感计算流程中融合心理测量学和计算视角的研究方法，以更好地识别和纠正偏差和不公平性。
(4): 文章的方法在自动视频面试中测试了个性和可聘性预测的公平性和偏差，并在数据集上取得了不错的表现，支持了作者的目标。
(5): 本文的动机在于鼓励情感计算研究者和从业者将偏差和公平性纳入他们的研究过程和产品，并考虑他们在促进公平和正义系统方面的作用、机会和责任。

Paper:23

Title: Re3Dial: Retrieve, Reorganize and Rescale Dialogue Corpus for Long-Turn Open-Domain Dialogue Pre-training (《Re3Dial:检索、重组和重缩对话语料库以供用于长轮对话的开放域预训练》)
Authors: Jiaxin Wen, Hao Zhou, Minlie Huang
Affiliation: 1.清华大学-计算机辅助设计与制造中心 2.清华大学-计算机科学技术系 3.腾讯公司-微信AI-模式识别中心
Keywords: deeplearning, ML, NLP, CV, dialogue pre-training, long-turn dialogue data
Urls: Paper: https://arxiv.org/abs/2305.02606 Github: None
Summary:

(1):本文旨在解决长轮对话数据稀缺的问题，提出了一种新的方法，用于构建大规模、长轮对话数据集，以供用于开放域对话模型的预训练。
(2):目前，现有的对话预训练语料库大多来自公共社交媒体，例如Reddit和微博等，对于长轮对话数据，数量极为稀缺。现有的预训练模型亦仅能为多轮对话建模非常有限的上下文。本文提出的方法可以通过对已有数据的重组，从而构建起充足的、适合用于长轮对话的预训练数据集。
(3):本文提出了一个名为Re3Dial的三步框架，它首先使用无监督的密集会话检索器（UDSR）来捕获多轮对话内的语义和话语关系，以便检索相关且连贯的会话。其次，它通过递归地检索和选择具有多样性的连续对话来重组短对话，从而生成长对话。最后，我们建立了一个工具包，用于快速重缩对话语料库，这使我们能够构建包含10亿个会话的中文对话语料库，平均每个会话长度为11.3轮，比原EVA语料库长5倍。我们将公开UDSR模型、工具包和数据。
(4):本文在多个多轮对话基准测试上进行了广泛的评估，结果表明，Re3Dial无论在不同的预训练设置下都显著提高了对话模型利用长期上下文模拟多轮对话的能力。
(5):本文的研究动机在于希望提高开放域对话模型的预训练能力，以便更好地适应真实场景下的长轮对话。提供更具上下文的对话回复以增强用户体验，提高对话质量。

Paper:24

Title: Personalize Segment Anything Model with One Shot（用一拍个性化定制“Segment Anything Model”）
1. Authors: Ruirui Li, Pengfei Xiong, Min Meng, Xiaohui Shen, Dan Xu, Jiaya Jia
2. Affiliation: 厦门大学
3. Keywords: deeplearning, ML, NLP, CV, segmentation, personalization, finetuning, text-to-image synthesis
4. Urls: Paper: https://arxiv.org/pdf/2106.13631.pdf, Github: https://github.com/ZrrSkywalker/Personalize-SAM
5. Summary:
- (1): 本文研究重点是个性化定制“Segment Anything Model” (SAM)，旨在通过一拍即可个性化定制该模型，适用于不同现实场景中特定视觉概念的分割。
- (2): 过去的方法需要人力提示或者基于大数据预训练的泛化模型，无法实现精细的贴合性分割，本文的方法通过个性化finetuning和使用领域内语义来更好地适应个体化需求。
- (3): 本文提出了一种名为PerSAM的训练无需个性化finetuning的方法, 用于精准隔离目标物体以及在图片或视频帧中分割物体，有三种技术：目标指导注意，目标语义提示和级联后处理。另外，本文在此基础上提出了使用两个可学习的权重来自适应聚合三种不同scale的mask 的PerSAM-F方法，进一步提高性能。
- (4): 本文方法在视频对象分割上效果良好，并提供了一个新的语义分割数据集进行个性化评估。同时，本文贡献了一种新的personalize DreamBooth技术，它除去了背景干扰，使target appearance的学习更好。本文的实验结果表明所提出的方法具有较好的性能。
- (5): 本文的动机在于发掘不用任何训练，通过WiFi图片即可个性化finetuning的方法，适用于定制化场景下的物体分割需求。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2023_05_05.md

2023_05_05.md

2023_05_05 Arxiv更新论文汇总

Paper:1

Paper:2

Paper:3

Paper:4

Paper:5

Paper:6

Paper:7

Paper:8

Paper:9

Paper:10

Paper:11

Paper:12

Paper:13

Paper:14

Paper:15

Paper:16

Paper:17

Paper:18

Paper:19

Paper:20

Paper:21

Paper:22

Paper:23

Paper:24

Files

2023_05_05.md

Latest commit

History

2023_05_05.md

File metadata and controls

2023_05_05 Arxiv更新论文汇总

Paper:1

Paper:2

Paper:3

Paper:4

Paper:5

Paper:6

Paper:7

Paper:8

Paper:9

Paper:10

Paper:11

Paper:12

Paper:13

Paper:14

Paper:15

Paper:16

Paper:17

Paper:18

Paper:19

Paper:20

Paper:21

Paper:22

Paper:23

Paper:24