Skip to content

Latest commit

 

History

History
581 lines (257 loc) · 39.7 KB

2023_05_17.md

File metadata and controls

581 lines (257 loc) · 39.7 KB

2023_05_17 Arxiv更新论文汇总

今天共有20篇论文

Paper:1

  1. Title: Double Pessimism is Provably Efficient for Distributionally Robust (双重悲观性在分布式鲁棒中被证明是有效的)

  2. Authors: Jose Blanchet, Miao Lu, Tong Zhang, Han Zhong

  3. Affiliation: Jose Blanchet: Stanford University (斯坦福大学); Miao Lu: University of Science and Technology of China (中国科技大学); Tong Zhang: The Hong Kong University of Science and Technology (香港科技大学); Han Zhong: Peking University (北京大学)

  4. Keywords: Distributionally robust offline reinforcement learning, Double pessimism, Model-based policy optimization, Partial coverage, Convergence rate

  5. Urls: arXiv:2305.09659v1 [cs.LG] 16 May 2023

  6. Summary:

  • (1):该论文研究的是分布式鲁棒离线强化学习的问题,该问题旨在纯粹从离线数据集中找到一个能在扰动环境中表现良好的最优鲁棒策略。

  • (2):过去的方法通常以感知范数或KL散度为代价来获得可靠性,但面临许多挑战,例如对部分覆盖数据的健壮性不足。本文提出的方法基于独特的“双重悲观性”理念,意图在模型估计和策略优化的结合中获得更好的效果。这种方法的动机充分且实际需要。

  • (3):本文提出了Doubly Pessimistic Model-based Policy Optimization (P2MPO)这个算法框架,其中将灵活的模型估计子例程与双重悲观政策优化步骤相结合。将双重悲观主义原则应用于策略优化中,能够充分解决由于因子不匹配或模型扰动而引起的分布漂移问题。本文还为具体案例(包括表格型、因素化的和基于核和神经函数逼近的RMDP)定制了特定的模型估计子例程,并证明了该算法框架的效率。

  • (4):在robust partial coverage data方面,当模型估计子程序满足一定的精度假设时,我们证明P2MPO具有可证明的O(n^-1/2)的收敛速率,其中n是离线数据集中轨迹数。P2MPO的效果优于过去的方法,并且在实验中表现出了和先前方法相当甚至更好的性能。

  • (5):本文的动机在于寻求一种方法来解决分布式鲁棒离线强化学习中的一系列挑战,希望在离线数据集上找到一个最优鲁棒策略,并在扰动环境中获得更好的性能。结果表明,本文提出的Doubly Pessimistic Model-based Policy Optimization方法在不同的情况下都是有效的。

Paper:2

  1. Title: Guidelines for Creating Synthetic Datasets for Engineering Design Applications (面向工程设计应用的合成数据集构建指南)

  2. Authors: Amin Heyrani Nobari, Akash Srivastava, Dan Gutfreund, Faez Ahmed

  3. Affiliation: None

  4. Keywords: synthetic dataset, engineering design, sampling methods, validation

  5. Urls: Paper: https://www.mdpi.com/1996-1073/15/7/4481/htm ; Github: None

  6. Summary:

  • (1): 本文旨在为工程设计应用中的数据缺乏问题提供一个解决方案。鉴于云AI技术的快速发展,构建合成数据集是一个可行的选择。

  • (2): 过去常用的合成数据集生成方法常常无法精确反映真实世界数据,或者对特定应用不够实用。鉴此,本文提出了涵盖合成、标注和验证三个需注意方面的构建指南,并强调了合适的采样方法能够确保数据集大小、多样性、实用性和真实性。本文的方法执行得到很好的激发度,并以设计涡轮压缩机任务的结果为例进行说明。

  • (3): 需注意的方面包括:

    a. 数据集的特性:数据集该如何确定大小、多样性、实用性和真实性;

    b. 标注法:应注意哪些标注方法、如何获取标注以及标注模型的选择;

    c. 采样方法:应注意设定约束下的采样,以及如何根据已有数据进行采样;

    d. 数据集的验证:应从数据集的多样性和实用性两个方面进行验证;

    e. 总结。

  • (4): 本文的方法在设计涡轮压缩机任务的数据集构建上实现了很好的结果,验证了其实用性和多样性。

  • (5): 本文的研究动机是为了应对工程设计领域中数据缺乏问题,并为此提出一种解决方案 Constructing synthetic datasets,即构建合成数据集。

Paper:3

  1. Title: Osteosarcoma Tumor Detection using Transfer Learning
  2. Authors: Raisa Fairooz Meema, Khandaker Tabin Hasan
  3. Affiliation: 孟加拉国美国国际大学计算机科学系
  4. Keywords: Osteosarcoma, Tumor Detection, Transfer Learning, ResNet50, EfficientNet, InceptionResNet, NasNetLarge
  5. URL: None, Preprint submitted to arXiv
  6. Summary:
  • (1): 本文研究使用迁移学习模型进行骨肉瘤肿瘤检测的表现。
  • (2): 以前的方法在缺少大型数据集的情况下存在问题。本文应用迁移学习模型,避免了从头开始训练模型的必要性,并且这些模型通常用于对不同类型的图像进行分析。该文采用四种预先训练的模型(EfficientNetB7, InceptionResNetV2, NasNetLarge和ResNet50)进行比较,以检测骨肉瘤肿瘤。结果表明,最佳表现的模型是InceptionResNetV2,其精度和召回率值均为0.8658,准确率可达93.29%。
  • (3): 本文采用迁移学习模型进行骨肉瘤肿瘤检测,其训练数据集和测试集分别按照80-20的比例随机划分。
  • (4): 该文应用的迁移学习模型在骨肉瘤肿瘤检测这一任务上取得了较好的表现,达到了93.29%的准确率,并且最佳表现的模型精度和召回率值均为0.8658,说明该方法在进行骨肉瘤肿瘤检测时具有一定的优势。
  • (5): 本文意在探索应用迁移学习模型进行骨肉瘤肿瘤检测这一任务的表现。

Paper:4

  1. Title: Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI Testing (使用GPT-3进行无需训练的类人移动应用自动化GUI测试)

  2. Authors: Zhe Liu, Chunyang Chen, Junjie Wang, Mengzhuo Chen, Boyu Wu, Xing Che, Dandan Wang, Qing Wang

  3. Affiliation: 中国科学院软件研究所互联网软件技术实验室,计算机科学国家重点实验室,综合信息系统实验室,中国科学院大学;莫纳什大学

  4. Keywords: Automated GUI testing, Large language model

  5. Urls: Paper (arXiv:2305.09434v1), Github: None

  6. Summary:

  • (1): 本文研究背景是移动应用的自动化测试。
  • (2): 传统的基于概率或模型的GUI测试方法存在测试覆盖率低、泛化能力差、依赖训练数据量大等问题。因此,需要一种更有效的方法来生成类人的测试行为,以全面测试移动应用。本文基于GPT-3技术,将移动GUI测试问题形式化为问答任务,提出了GPTDroid方法,进行类人移动应用自动化GUI测试。与传统基于DL和RL的GUI测试方法相比,GPTDroid方法更具泛化能力,生成的测试行为更接近真实用户模式,具有更高的测试覆盖率和预测准确率。
  • (3): 本文使用GPT-3技术,将移动GUI测试问题形式化为问答任务,通过传递GUI页面信息向GPT-3模型发出询问,以生成测试脚本。并在执行测试脚本的过程中持续将移动应用反馈信息传递给GPT-3模型,迭代整个过程。同时,从GUI页面中提取静态上下文和动态上下文,设计输入到GPT-3模型中的提示语句,开发神经匹配网络将GPT-3模型的输出解码为可执行的应用操作步骤。
  • (4): 文章在Google Play上对86个应用程序进行测试,证明了GPTDroid方法相对于传统方法的优势。GPTDroid的活动覆盖率达到71%,比最佳基线高32%,与传统方法相比检测到更多的漏洞,并且速度更快。此外,GPTDroid在Google Play上检测到48个新的漏洞,其中25个已被确认/修复。本文也总结了GPTDroid方法的优势,包括语义文本输入、复合操作、长的有意义的测试跟踪和测试用例优先级。
  • (5): 本文探讨了一种基于自然语言处理技术的移动应用自动化GUI测试方法,以生成类人的测试行为,从而提高测试效果和测试覆盖率。同时,本文提出的方法还体现了GPT-3等大规模语言模型在应用场景上的潜力。

Paper:5

  1. Title: Multi-Level Global Context Cross Consistency (基于多层全局上下文交叉一致性的半监督超声图像分割)

  2. Authors: Fenghe Tang, Jianrui Ding, Lingtao Wang, Min Xian, Chunping Ning.

  3. Affiliation: Fenghe Tang, Jianrui Ding and Lingtao Wang are with the School of Computer Science and Technology, Harbin Institute of Technology, Harbin, China 150001.

  4. Keywords: Semi-supervised learning, latent diffusion model, multi-level global context cross consistency.

  5. Urls: Paper: IEEE TRANSACTIONS ON MEDICAL IMAGING, Github: https://github.com/FengheTan9/Multi-Level-Global-Context-Cross-Consistency.

  6. Summary:

  • (1): 该文研究的背景是医学图像分割,特别是对于超声图像分割方面中局部分割信息不足,需要关注不同位置、形状、大小等全局上下文信息的问题。

  • (2): 过去的方法包括弱监督学习和半监督学习,但这些方法都面临着数据标注困难的问题,本文提出的模型可以使用Latent Diffusion Model生成合成医学图像,减轻标注工作量,并提高训练数据的多样性。半监督学习还可以利用未标注的图像进行训练,并且本文提出的方法能够进行多级全局上下文交叉一致性,通过在编码器输入加入全局上下文噪声,同时保持输出一致性来提高表示学习能力。

  • (3): 该文提出的方法是基于Latent Diffusion Model和多级全局上下文交叉一致性的半监督学习框架,将Latent Diffusion Model生成的合成医学图像作为未标注的图像,把其与少量标注数据一起用于训练。框架主要包括两个步骤,即模型的训练和验证。

  • (4): 本文的方法在公开数据集和私有数据集上进行了实验,并实现了超过state-of-the-art的表现。使用本文提出的方法能够显著提高肿瘤和结节等医学图像分割结果的准确度。

  • (5): 本文的动机是解决医学图像分割中数据标注难的问题,提出了一种结合Latent Diffusion Model的多级全局上下文交叉一致性的半监督学习方法,显著提高了医学图像分割的准确度。

Paper:6

  1. Title: StructGPT: A General Framework for Large Language Model to Reason over Structured Data

  2. Authors: Jinhao Jiang, Kun Zhou, Zican Dong, Keming Ye, Wayne Xin Zhao, Ji-Rong Wen

  3. Affiliation: 中国人民大学高灵智能学院

  4. Keywords: deeplearning, language models, structured data, reasoning, natural language processing

  5. URLs: Paper: arXiv:2305.09645v1, Github: https://github.com/RUCAIBox/StructGPT

  6. Summary:

  • (1): 本文主要研究如何在大型语言模型中统一提高结构化数据的零-shot 推理能力。
  • (2): 文章提出了一个迭代读取-推理(IRR)方法,称为StructGPT。该方法构建了一种专业的功能来从结构化数据中收集相关证据(即阅读),并让LLMs根据收集到的信息集中推理任务(即推理)。特别地,作者提出了调用-线性化-生成程序来支持LLMs在使用外部接口推理结构化数据。在提供的接口中迭代这些过程,可以逐步接近给定查询的目标答案。
  • (3): 文章所提出的迭代读取-推理(IRR)方法,通过调用-线性化-生成过程和外部接口的支持,可以逐步地在结构化数据上进行推理,以得出查询的目标答案。
  • (4): 本文在三种类型的结构化数据上进行了广泛的实验,证明了所提出的方法的有效性。该方法可以显著提高ChatGPT的性能,与完整数据的监督调整基线的性能相当。作者使用发布在GitHub上的公共数据和代码,来支持自己的结果。
  • (5): 本文的研究动机是现有的NLP研究已经证明LLMs具有零-shot和少-shot能力,但LLMs可能会生成与实际知识相矛盾的信息,并且无法掌握领域特定或实时知识。为了解决这些问题,作者开发了一种方法来增强LLMs的能力,以减少这些问题。

Paper:7

  1. Title: AMD: Autoregressive Motion Diffusion(AMD: 自回归运动扩散)

  2. Authors: Bo Han, Hao Peng, Minjing Dong, Chang Xu, Yi Ren, Yixuan Shen, and Yuheng Li

  3. Affiliation: Zhejiang University (浙江大学)

  4. Keywords: 3D motion generation, text-to-motion, multi-modality

  5. Urls: paper: None, Github code: None

  6. Summary:

  • (1): 本文旨在实现针对文本或音频输入的人体运动生成。现有的研究方法对于简短的提示和简单的人体运动模式可以产生可信的运动,但是当处理更长的提示或复杂的运动时,就会遇到困难。具体来说,难点在于人体动作捕捉数据不足以支持长提示和复杂运动的生成,同时,在时间领域中,人类动作的高多样性和条件模态的巨大分歧导致复杂和长文本生成运动面临着多对多映射问题。

  • (2): 现有的人体运动生成方法分为三类:潜变空间策略、扩散方法和自回归方法。传统的潜变空间策略通过分别学习运动自动编码器(VAE)和文本编码器,然后通过KL散度损失将它们约束到兼容的潜空间。然而,由于自然语言和人体运动的分布差异很大,强制将这两个简单的高斯分布对齐可能导致对准不准确和生成多样性降低。现有的基于扩散模型的人体运动生成方法已经在各个领域取得了显著突破,比如视频、图像和3D点云生成。但是当前的运动扩散方法只能生成单个或多个运动序列,并不适用于复杂长文本。自回归方法则是通过前面时间步的文本提示和运动序列作为条件信息来预测当前的运动序列。

  • (3): 本文提出一个自回归运动扩散模型(AMD),并引入了“无模型落后”(No Modality Left Behind)的泛化方法,使用户可以产生高清晰度和高保真度的人体运动。具体来说,AMD在当前时间步将文本提示与前一个时间步的文本提示和动作序列作为条件信息一起进行迭代预测。

  • (4): 为了解决当前运动生成中长提示和复杂运动的问题,文章引入了“自回归运动扩散模型”(AMD)。本方法不仅在HumanLong3D数据集上拥有更高的生成能力,同时还具有“无模态落后”的泛化能力,能够支持更为多样化的文本和运动输入。

  • (5): 本文旨在解决现有人体运动生成方法不能够有效地解决长提示和复杂运动的问题,给出了AMD模型和数据集HumanLong3D,提出了“无模态落后”的泛化方法,使用户可以产生高清晰度和高保真度的人体运动。

Paper:8

  1. Title: RAMario: Experimental Approach to Reptile Algorithm- Reinforcement Learning for Mario (RAMario: 基于Reptile算法的强化学习超级马里奥实验性研究)

  2. Authors: Sanyam Jain

  3. Affiliation: Østfold University College, Halden, Norway 1783 (挪威东福尔德大学学院)

  4. Keywords: Reptile algorithm, Reinforcement learning, Super Mario Bros, Proximal Policy Optimization, Deep Q-Network. (Reptile算法,强化学习,超级马里奥兄弟,近端策略优化,深度Q网络)

  5. Urls: Paper: https://arxiv.org/abs/2010.13395; Github: https://github.com/s4nyam/RAMario

  6. Summary:

  • (1):本文研究的背景是强化学习的meta-learning方法,其能够让代理人(agent)在多个任务下学习如何学习。
  • (2):过去的方法包括遗传算法、近端策略优化(PPO)和深度Q网络(DQN),但它们的收敛速度缓慢、不稳定。本文提出了一种基于Reptile算法的元学习方法,适用于少量数据训练的视频游戏AI,其效果比其他两种方法更好,该方法可以轻松应用于复杂系统(如机器学习模型)的参数优化。
  • (3):本文提出了一种使用Reptile算法进行强化学习的方法,通过对神经网络模型中的当前权重进行动作选择,并在环境中采取这些动作来训练模型,通过Reptile算法来更新模型权重。为了评估该算法的性能,本文使用Super Mario Bros Gym库和Python的TensorFlow实现了一个卷积层、一个flatten层和一个dense层的神经网络模型。
  • (4):本文的任务是训练一个神经网络在Super Mario Bros游戏中运行,并通过总奖励打印每个episode的性能表现,同时评估与PPO和DQN方法的性能对比。本文的结果证明,Reptile算法提供了一个有前途的方法来进行少量数据训练的视频游戏AI学习,是一种高效、有效的算法,该方法在移动代理人的距离上比其他两种算法表现更好。
  • (5):本文旨在提出基于Reptile元学习的方法,来解决强化学习问题下的多任务学习和少量数据学习难题,并同时探寻meta-learning在强化学习领域的潜力。

Paper:9

  1. Title: Satisfiability-Aided Language Models Using (使用可满足性辅助的语言模型)

  2. Authors: Xi Ye, Qiaochu Chen, Isil Dillig, Greg Durrett

  3. Affiliation: The University of Texas at Austin(德克萨斯大学奥斯汀分校), Department of Computer Science(计算机科学系)

  4. Keywords: Satisfiability, Language Models, Declarative Prompting, Automated theorem provers

  5. Url: Paper: https://arxiv.org/pdf/2305.09656.pdf , Github: None

  6. Summary:

  • (1): 该论文研究的背景是如何提高大型语言模型的推理能力。
  • (2): 之前的方法是使用面向过程的编程来进行推理,但是对于需要更复杂规划和搜索的问题并不适用。本文提出了一种新的用于提高LLMs推理能力的可满足性辅助的语言建模方法,使用LLMs生成一个声明性任务规范,而不是面向过程的程序,并利用一个现成的自动定理证明器来得出最终答案。这种方法有两个主要优点:声明性规范与问题描述更接近,因此LLMs可以更准确地解析它;并且通过将实际的推理任务卸载到自动定理证明器中,可以保证答案的正确性,并避免推理过程中的规划错误。这种方法在六个不同的数据集上进行了评估,并表明在imperative范式(PROGLM)中,SATLM始终优于使用程序的LLMs。在GSM的困难子集上,SATLM比PROGLM表现提高了23%。SATLM还在LSAT上实现了一个新的最高纪录,超过了以前在完整训练集上训练的模型。
  • (3): 该论文提出了一种新的用于提高LLMs推理能力的可满足性辅助的语言建模方法。
  • (4): 在多个数据集上进行实验研究表明,该方法在一些复杂推理任务中优于以前的基于编程的建模方法,并实现了一些最高纪录。
  • (5): 该论文的动机是提高大型语言模型的推理能力。

Paper:10

  1. Title: Public Perception of Generative AI on Twitter: An Empirical Study Based on Occupation and Usage

  2. Authors: Kunihiro Miyazaki, Taichi Murayama, Takayuki Uchiba, Jisun An, Haewoon Kwak

  3. Affiliation: 第一作者机构: 印第安纳大学布鲁明顿分校

  4. Keywords: Generative AI, social media perceptions, occupation, sentiment analysis

  5. Urls: Paper: https://arxiv.org/abs/2305.09537

    Github: None

  6. Summary:

  • (1): 本文旨在探究人们在社交媒体上对生成式AI的看法,特别关注使用和职业对它们的看法,以了解人类与AI之间的关系。

  • (2): 过去的方法局限性大,缺乏定量分析,并没有考虑职业和使用的因素。这篇文章有很好的动机,并通过社交媒体的大数据量提供清晰的洞察力。

  • (3): 本研究使用Twitter上的3M篇文章进行定量分析,使用情感分析方法对各种职业和使用情况的公众对生成式AI的看法进行深入研究。

  • (4): 研究发现,人们对生成式AI的态度普遍积极,对AI的使用暴露程度积极相关。在职业中,插画家表现出特别的负面情绪,这主要是因为担心用作品构建AI会导致不道德的后果。人们有多种用ChatGPT的方式,其中“玩ChatGPT”的休闲用法往往与积极的情绪相关。ChatGPT推出后,人们对AI的兴趣急剧增长;然而,相关增长和正面情绪最大的话题与加密有关,这表明生成式AI具有炒作的特点。

  • (5): 该研究的动机是了解公众对生成式AI的态度和使用方式,以便为政策制定提供数据支持,并为人-AI共生的未来提供经验丰富的见解。

Paper:11

  1. Title: UniS-MMC: Multimodal Classification via Unimodality-supervised

  2. Authors: Heqing Zou, Meng Shen, Chen Chen, Yuchen Hu, Deepu Rajan, Eng Siong Chng

  3. Affiliation: Nanyang Technological University (新加坡南洋理工大学)

  4. Keywords: multimodal learning, multimodal fusion, unimodality, contrastive learning, image-text classification

  5. Urls: Paper url: https://arxiv.org/abs/2305.09299

  6. Summary:

  • (1): 本文研究多模态学习问题,旨在解决基于聚合方法的多模态融合模型存在的问题。

  • (2): 传统聚合方法会忽略不同模态之间的联系、同等对待每个模态、也容易受到传感器噪声的影响,从而降低多模态学习的性能。本文提出了一种基于对比学习的多模态方法,利用单模态预测的弱监督来实现对更可靠的多模态表示的探索。与目前主流多模态方法相比,速度更快、效果更好。

  • (3): 本文提出的方法通过先捕捉任务相关单模态表示和单模态预测,再利用多模态对比学习来调整单模态表示,从而提高多模态表示的可靠性和性能。实验结果在两个图像-文本分类数据集 UPMC-Food-101 和 N24News 上表明,本文提出的 UniS-MMC 方法的性能优于目前的主流多模态方法,证明了其有效性。

  • (4): 本文致力于讨论多模态融合在图像-文本分类任务上的问题,并提出了一种基于对比学习和单模态预测的方法,旨在得出更好的多模态表示。通过实验验证,本文提出的方法在效果上明显优于主流方法,达到了其既定目标。

  • (5): 本研究的动机在于解决基于聚合方法的多模态融合模型存在的问题。

Paper:12

  1. Title: QB4AIRA: A QUESTION BANK FOR AI RISK ASSESSMENT

             2. Authors: Sung Une Lee, Harsha Perera, Boming Xia, Yue Liu, Qinghua Lu, Liming Zhu, Olivier Salvado, Jon Whittle
            
             3. Affiliation: Data61, CSIRO, Australia (李成恩,哈沙·佩雷拉,夏伯明,刘越,卢庆华,朱黎明,奥利维尔·萨尔瓦多,乔恩·惠特尔,澳大利亚CSIRO Data61)
              
             4. Keywords: Artificial intelligence, Machine learning, Risk assessment, Responsible AI, Question bank
    
             5. Urls: 
             Paper_URL: https://arxiv.org/abs/2305.09300v1 
             Github: None
    
             6. Summary:
             - (1): 本文背景是人工智能系统的快速发展带来的风险,提出了对人工智能系统进行风险评估的需求;
             - (2): 既有的风险评估框架缺乏综合和有组织的专用人工智能风险评估问题的综合。
              QB4AIRA是一种新的问答库,该问答库由五个全球知名的人工智能风险框架中的问题收集和精化而成。根据澳大利亚AI伦理原则分类,QB4AIRA由291个问题组成,涵盖广泛的人工智能风险领域,并提供标准化的人工智能风险评估方法,其中优先考虑问题的重要性和细节级别,促进了有效的人工智能风险评估 ;
             - (3): 本研究提出了一种对人工智能系统的风险评估方法;
             - (4): 本文方法的任务是评估人工智能系统中的风险。由于本文只提供了方法的描述,因此本文的性能和结果并没有提到;
             - (5): 本文是开展人工智能系统的风险评估的一种方法。
    

Paper:13

  1. Title: SoundStorm: Efficient Parallel Audio Generation
  2. Authors: Zal´an Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi
  3. Affiliation: Zal´an Borsos is affiliated with Google Research.
  4. Keywords: deeplearning, audio generation, non-autoregressive, parallel decoding, residual vector quantization
  5. Urls: https://arxiv.org/abs/2305.09636, Github: None
  6. Summary:
  • (1): 本研究旨在解决高质量音频生成中的计算效率与运行时间的问题。

  • (2): 针对音频序列过长的问题,本文提出了非自回归模型、并行解码方案以及针对神经音频编解码器结构的优化方法。而既往模型由于自回归计算的限制,而无法实现长序列高质量音频生成。提出的方法非常有意义。

  • (3): 本文提出了SoundStorm方法,一种高效且高质量的音频生成模型。该模型采用针对音频序列的特殊结构的非自回归模型和并行解码方案,目的在于生成长序列音频。模型基于输入语义标记、双向注意力机制和基于置信度的解码方法生成神经音频编解码器的标记。

  • (4): SoundStorm模型的生成效果令人满意,能够在TUP-v4上快速生成长音频序列,而且生成音频的质量与AutioLM等模型相同,甚至表现更好。论文通过演示短时间内的自然对话片段来说明其音频生成任务的可伸缩性,从而证明该方法有效可靠。

  • (5): 本文的动机在于提高音频生成计算效率,在制造音频往往需要耗费大量时间与计算资源的情况下,此方法在加速音频生成的同时,还可生成与它人无法区分的高质量音频。

Paper:14

  1. Title: Towards Speech Dialogue Translation Mediating Speakers (SpeechBSD Dataset)

             2. Authors: Shuichiro Shimizu, Chenhui Chu, Sheng Li, Sadao Kurohashi
    
             3. Affiliation: 京都大学
    
             4. Keywords: speech dialogue translation, bilingual context, speech translation, multilingual communication, context utilization
    
             5. Urls: Paper: arXiv:2305.09210v1  [cs.CL]  16 May 2023 
    

Github: None

            6. Summary: 

            - (1): 本文旨在为不同语言使用者提供语音对话翻译中介服务。

            - (2): 本文回顾了现有的机器翻译方法,发现这些方法仅支持单一的翻译方向,不能准确处理不同语言之间的对话,因此需要考虑上下文以支持多语言对话翻译。本文提出了两种利用上下文(单语环境或双语环境)的方法,用于改进机器翻译效果,并在SpeechBSD数据集上进行了测试。

            - (3): 本文构建了一个新的语音对话翻译(SDT)数据集SpeechBSD,采用了级联语音翻译实验来评估方法的性能。作者提出了一种基于双语环境的级联语音翻译方法,通过对传统机器翻译方法进行优化,以获得更好的对话翻译效果。

            - (4): 作者通过实验得出结论:在语音对话翻译任务中,利用双语环境较单一语言环境能够获得更好的效果,可以提高机器翻译的BLEU分数,这可以支持更具人性化和准确性的多语言交流。

            - (5): 随着全球化的发展,不同国家之间的交流越来越广泛,跨语言沟通逐渐成为一项最重要的技能。因此,为了促进跨语言交流,本文提出了语音对话翻译中介服务,以支持多语言交流。

Paper:15

  1. Title: Annotating 8,000 Abdominal CT Volumes for Multi-Organ Segmentation in Three Weeks (中文翻译:三周内对8000个腹部CT卷进行多器官分割标注)

  2. Authors: Chongyu Qu, Tiezheng Zhang, Hualin Qiao, Jie Liu, Yucheng Tang, Alan Yuille, and Zongwei Zhou

  3. Affiliation: 中国:Johns Hopkins University 国外:Rutgers University, City University of Hong Kong, NVIDIA

  4. Keywords: Active Learning, Interactive Segmentation, Annotation

  5. Urls: Paper: https://arxiv.org/abs/2305.09666v1 ; Github: https://github.com/MrGiovanni/AbdomenAtlas

  6. Summary:

  • (1):该文章研究的背景是,在医学图像分割任务中,标注医学图像尤其是器官分割标注费时费力。

  • (2):过去的方法包括手动标注和全自动标注,但都存在各自的问题。手动标注需要较高的人力成本,全自动标注精度无法保证。该研究采用了半交互式标注方法来加速标注进度,减少了大量标注时间和人力成本,并较好地保持标注质量和精度。

  • (3):本研究提出了一种系统有效的方法,通过使用多个预训练分割模型,降低标注偏倚、分析及排查模型预测错误、对标注人员提供关注度指导并改正明显的错误以及在交互式标注过程中有效地利用人力,从而在三周内标注了8,448个CT卷,包括脾脏,肝脏,肾脏,胃,胆囊,胰腺,主动脉和下腔静脉。这些数据相当于标注了320万张切片。

  • (4):在多器官分割的任务上,该方法取得了较为优异的结果,表明有效性是可靠的,体现了该方法较强的实用性和可行性。

  • (5):该研究的动机在于加快分割图像标注过程,降低标注成本,并推动医学图像分割领域的研究和应用。

Paper:16

  1. Title: FitMe: Deep Photorealistic 3D Morphable Model Avatars (适我:深度逼真的三维可塑模型头像)

  2. Authors: Anastasios Roussos, Eftychios Sifakis, and Oleg Fryazinov

  3. Affiliation: 本文第一作者Affiliation未注明。

  4. Keywords: deep learning, photorealism, image rendering, facial reflectance

  5. Urls: Paper: https://arxiv.org/abs/2104.02525 Github: None

  6. Summary:

  • (1):本文旨在提出一种基于深度学习的面部反射模型和不同iable灰度渲染优化流程,能从单个或多个图像中获取高逼真的可渲染人类头像。

  • (2):过去的方法存在着很多问题,如所需时间长、反射信息不足以及已有的渲染流程。基于此,本文提出了一种全新的多模态式生成器和基于 PCA的形态模型,通过不同iable灰度渲染过程捕捉精细的人脸反射和形态。本文的方法在可逆优化方面更加快速和准确,并且生成的头像更加逼真。

  • (3):首先,本文利用光学流来计算图片之间的彩色信息差异和其他光学属性,同时使用一个具有良好性质的多模态式生成器来生成高分辨率头像。随后,通过之前提到的 PCA模型,使用单张照片进行反射参数的优化,同时通过其他算法优化真实纹理的色度和形态特征。最后,使用一个不同iable优化算法来细化头像反射特征和形态特征。

  • (4):本文的方法在单个自然照片的身份保留和头像可加盐性方面提出了最新的技术。同时,本文提出的方法在使用多个不受限制(in-the-wild)的面部图像重建人脸时有良好的效果。此外,本文提出的方法还能够自动生成包含多种面部细节的摄影级头像。

  • (5):本文的研究动机在于提高头像虚拟渲染的填充率和准确性,并且减少由于体积损失等问题导致谷相不合理结果的问题。同时,本文的方法能够为现有的头像混合系统,头像虚拟现实虚拟换装等提供更为精细的头像质量。

Paper:17

  1. Title: AR-DIFFUSION: Auto-Regressive Diffusion Model for Text Generation

  2. Authors: Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen.

  3. Affiliation: 深圳清华大学国际研究生院

  4. Keywords: deeplearning, ML, NLP, CV, text generation, auto-regressive diffusion model

  5. Urls:

  1. Summary:
  • (1): 本文研究文本生成问题,利用传统的自回归生成方法生成的文本具有顺序依赖性,难以扩展到大规模文本生成任务中。
  • (2): 通过介绍一种自回归扩散模型(AR-DIFFUSION)来解决自回归生成方法的缺陷。这种模型通过使用动态的去噪步骤来增加左部对右部生成标记的影响力,解决了与文本相关联的顺序依赖性问题。该方法在多个文本生成任务上都取得了优异的性能表现,并且能够在较短的时间内以可媲美的效果完成生成任务。
  • (3): 本文提出的AR-DIFFUSION模型首先以非自回归的方式按时间步间隔生成预测的编码,然后通过使用逆扩散(Reverse Diffusion)去噪算法来逐步去噪以生成最终的文本。AR-DIFFUSION使用动态的去噪步骤以提高左侧标记对右侧标记生成的影响。
  • (4): 本文在多项文本生成任务中验证了AR-DIFFUSION的优越性能,包括文本摘要、机器翻译和常识生成。实验结果表明,该模型明显优于现有的基于扩散模型的自回归方式,并且能够以更短的时间实现相似的性能。
  • (5): 本文旨在提高文本生成的效率和准确性,并解决传统自回归方法面临的瓶颈问题,以便更好地处理大规模的文本生成任务。

Paper:18

  1. Title: Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

             2. Authors: Samaneh Azadi, Akbar Shah, Thomas Hayes, Devi Parikh, Sonal Gupta
    
             3. Affiliation: Meta AI (Meta人工智能公司)
    
             4. Keywords: Human motion generation, diffusion models, text-to-motion, UNet architecture
    
             5. Urls: Paper url: https://arxiv.org/abs/2305.09662, Github: https://github.com/azadis/Make-an-animation
    
             6. Summary:
    
             - (1):本文针对3D人体运动生成进行研究。
    
             - (2):现有的方法受限于少量的动作捕捉数据,对于多样化和真实性更为高的运动生成较为困难。本研究提出了Make-An-Animation,该模型结合了大规模图像-文本数据集和运动捕捉数据,借助扩散模型进行文本-条件化的3D人体运动生成,并在结构上采用了与最近的文本-视频生成模型类似的UNet体系结构。实验结果表明,该模型在文本到运动生成的应用上能够达到最先进的水平。
    
             - (3):本文提出的Make-An-Animation以两个阶段的方式完成训练。第一阶段,在大规模的图像-文本数据集上训练curated(筛选)的(文本、静态伪关节)对。第二阶段,采用运动捕捉数据进行Fine-tune,加入额外的图层来建模时间维度。
    
             - (4):在文本描述的条件下生成3D人体运动,并使用人类评估运动的真实性和对文本的对齐度。实验结果显示,在该任务上的表现达到了最先进的水平,生成的样本可通过 https://azadis.github.io/make-an-animation 进行查看。
    
             - (5):预测文本描述后,生成逼真的3D人体运动,实现该任务的目的在于为虚拟场景、机器人和游戏等领域中的人体动作生成提供更加高效和自然的方式。
    

Paper:19

  1. Title: A Conditional Denoising Diffusion Probabilistic Model (一种条件去噪扩散概率模型用于射电干涉图像重建)

  2. Authors: Ruoqi Wang, Zhuoyang Chen, Qiong Luo, Feng Wang

  3. Affiliation: HKUST(GZ) (香港科技大学广州研究院)

  4. Keywords: radio interferometric image reconstruction, conditional diffusion model, deep generative model, image denoising

  5. Urls: Arxiv: https://arxiv.org/abs/2305.09121, Github: None

  6. Summary:

  • (1): 本文研究射电干涉图像重建问题,其背景是射电天文观测得到的图像会被噪声和其他因素所干扰,需要对这些“脏图”进行重建以便进行科学分析。

  • (2): 目前现有的射电干涉图像重建方法在恢复微弱源、保留细节和消除伪迹方面存在困难。本文提出了基于条件扩散模型(DDPM)的 VIC-DDPM 模型,其结合了频谱和空间信息来指导干净图像生成。传统方法的缺陷在于对人类先验知识的过于依赖,而深度学习方法的缺陷则在于捕捉微弱源和精细细节方面局限性较大。VIC-DDPM 利用 DDPM 生成纹理细节同时结合频域数据和空间域数据,可以有效地去除伪迹和噪声,在恢复细节和微弱源方面表现良好。

  • (3): 本文提出了一种基于条件扩散模型的射电干涉图像重建方法,称作 VIC-DDPM 模型。VIC-DDPM 利用频谱和空间信息对干净图像进行生成,并可以通过扩散过程进行去噪处理。该模型的训练方法包括数据增强、噪声建模和蒙特卡洛估计等步骤。

  • (4): 本文在射电干涉图像重建的任务上,对 VIC-DDPM 模型进行了实验评估,并将其与传统方法和一些深度学习方法进行比较。结果表明,VIC-DDPM 模型相对于其它模型在去除伪迹、恢复精细结构和微弱源方面具有重要的优势。

  • (5): 本文的研究动机在于改善射电干涉图像重建算法在去除伪迹、保留细节以及恢复微弱信号等方面不足之处,并提出了一种利用条件扩散模型的解决方案。

Paper:20

  1. Title: Newad: A register map automation tool for Verilog (Newad:Verilog的寄存器映射自动化工具)

  2. Authors: Vamsi K Vytla, Larry Doolittle

  3. Affiliation: Vamsi K Vytla-affiliated with Lawrence Berkeley National Lab, Berkeley, California, USA (Vamsi K Vytla-劳伦斯伯克利国家实验室,美国加利福尼亚州伯克利)

  4. Keywords: Verilog, VerilogHDL, VHDL, Register map, Automation, Address map, Code generation

  5. Url: Paper arXiv:2305.09657v1 [cs.AR] 16 May 2023, Github: None

  6. Summary:

  • (1): 在大规模科学仪器和控制FPGA门控芯片设计中,需要运行时可设置参数。这些参数可用于用户级控制或自动化过程(例如标定)。单个设计中这样的参数数量可达1000个数量级,并随门控硬件和其功能而不断演化。必须跟踪寄存器属于哪个模块,寄存器需要解码的位置以及如何将寄存器的属性(甚至语义) 表示给下一级的用户或软件。纯人工处理这些任务在HDL开发者这一规模上被认为是繁琐和容易出错的。通常,这些寄存器可以通过一个类似 VME 的芯片上总线将其写入,并由芯片内或芯片外的 CPU 控制。社区已经有多次尝试解决这个问题的方法。然而,我们并没有发现能够生成寄存器映射,生成编码器和解码器,并对开发者的开销最小化的工具。

  • (2): 过去有几种尝试解决这个问题的方法,但是我们没有发现能够生成寄存器映射,生成编码器和解码器,并对开发者的开销最小化的工具。手动处理这些任务在HDL开发人员规模上是繁琐且容易出错的。一个主要的限制在于Cheby需要用户维护一个YAML文件来描述寄存器。这增加了开发人员的开销,现在开发人员需要查看不止一个文件以获得真实数据。这会影响可读性。作者决定利用语言属性来编码放置在魔术注释中的信息,这样可使整个过程更清晰。

  • (3): 本文提出了一种针对VerilogHDL设计的地址映射代码生成工具newad。newad能够解析Verilog代码在预编译时,完成许多自动化的任务。newad筛选原生HDL源文件并查找特定的受支持的语言属性,然后自动生成注册映射和总线解码器,尊重多个时钟域,并向网络呈现一个将寄存器名映射到地址的JSON文件。

  • (4): 本文针对大规模科学仪器和控制FPGA门控芯片设计中运行时可设置参数的问题,开发了一种自动生成寄存器映射与总线解码器的工具newad。newad通过分析Verilog代码并通过使用特定的语言属性自动构建寄存器映射和总线解码器,尊重多个时钟域,并向目标网络提供具有映射寄存器名称到地址的JSON文件,生成的工具可以减少手动处理这些任务的难度,从而提高效率,并改善可读性。

  • (5): 大规模科学仪器和控制FPGA门控芯片设计中存在大量运行时可设置参数,但是过去没有工具能够简单而高效地解决这个问题。本文旨在为任务提出一种新的自动化方法,提高效率和使用体验。