2023_05_11 Arxiv更新论文汇总

今天共有21篇论文

Paper:1

Title: Generating medically-accurate summaries of patient-provider dialogue
Authors: Varun Nair, Elliot Schumacher, Anitha Kannan
Affiliation: Curai Health
Keywords: medical dialogue summarization, GPT-3, few-shot prompts, medical correctness, clinical accuracy
Url: arXiv:2305.05982v1, Github:None
Summary:

(1): 这篇论文的研究背景是医学对话总结的自动化提取以便提高效率和准确性。
(2): 以往的方法都存在着限制和不足，如被处理语言的复杂性，不准确的概述等。本文提出了一种在“多个对话理解任务”中利用GPT-3作为基础的方法，生成具有临床正确性的概述，与基准方法相比表现优异。
(3): 本文的研究方法是将医学对话总结离散成一系列更简单的对话理解任务，然后利用GPT-3作为底层部分，使用与病人相关的信息去动态地构建几个提示，并开发GPT-衍生总结度量标准来定量地测量性能。
(4): 本文的方法在医学总结临床正确性上表现出色，相比于零提示单一提示的概述方法，本方法能生成医学正确的概述，其性能经过人类评估和度量评估均得到证明。
(5): 本文的动机是提高医学对话概述生成的效率和准确性，以帮助病人抓住重要问题，并提高医生的工作效率。

Paper:2

Title: RECKONING: Reasoning through Dynamic Knowledge Encoding

         2. Authors: Zeming Chen, Gail Weiss, Eric Mitchell, Asli Celikyilmaz, Antoine Bosselut


         3. Affiliation: Natural Language Processing Lab, EPFL


         4. Keywords: deeplearning, ML, NLP, transformer-based language models, commonsense knowledge


         5. Urls: arXiv:2305.06349v1 [cs.CL] 10 May 2023


         6. Summary: 

         - (1): 本文研究背景是人工智能中的逻辑推理。



         - (2): 过去的研究方法通过提供上下文的知识来回答问题。然而，由于提供的知识通常没有为特定问题进行过滤，在上下文推理过程中，模型会对干扰事实非常敏感。这些干扰事实是与问题无关的内容，但可能对不同的问题有用。模型无法区分回答问题所必需的知识，从而导致虚假推理和性能下降。本文提出一种通过在模型参数中折叠上下文知识来教会模型更加稳健推理的方法——RECKONING。这种方法是双层学习算法，通过反向传播来更新语言模型的参数化知识，使其能够使用更新的参数回答问题。在训练期间，内部循环快速适应模型参数以将上下文知识编码到其中。外部循环中，模型学习使用更新的权重重现并回答关于已记忆知识的推理问题。


         - (3): 本文提出了一种双层学习算法，通过反向传播来更新语言模型的参数化知识，增强模型推理能力。


         - (4): 本文在两个多跳推理数据集上进行实验，结果显示相较于基线方法可以提升多达4.5%的性能。相较于上下文推理，RECKONING更能够推理未在训练期间出现的更长的推理链，对上下文中的干扰物更具鲁棒性，并且当对同一知识进行多个问答时更具计算效率。


         - (5): 本文的研究动机是为了实现自动逻辑推理。

Paper:3

Title: Chain of thought prompting elicits reasoning in large language models
Authors: Junbei Wei, Xiaojun Wan, Dale Schuurmans, Marco Bosma, Ed H. Chi, Quoc V. Le, Diyi Yang
Affiliation: 多伦多大学 (University of Toronto)
Keywords: NLP, large language models, reasoning, prompt engineering, chain of thought prompts
Urls: arXiv:2201.11903, Github: None
Summary:

(1):本文主要研究在大型语言模型中，如何通过连贯的思路提示来引出推理能力。
(2):以往的方法主要是直接让语言模型生成文本，但其文本缺乏结构性和连续性，因此不利于模型推理。文章提出了一种“连贯思路提示”的方法，通过将若干个提示串联起来，让模型按照连贯的思路进行推理，从而提高了模型的推理能力。这一方法得到了很好的激励，因为它可以引导模型一步步思考问题，并且能够更好地控制生成的文本质量。
(3):在实现方面，文章通过将若干输入文本按照一个抽象的思路框架进行串联，形成了层次化的思路链（chain of thought prompts），通过这样的提示方式来引导模型进行思考。同时，基于连贯思路提示的生成模式，文章提出了一种与传统方法不同的生成策略——连续生成（continous generation）策略。
(4):文章在两个开放领域数据集上进行了实验，结果表明，使用连贯思路提示的语言模型相比于基线模型，在推理任务上能够得到更好的性能，尤其是在长文本上的推理任务中，这种方法有着显著的优势。
(5):本文着眼于改善大型语言模型的推理能力，针对以往语言生成的结构化缺陷，提出了一种全新的连贯思路提示的方法，从而实现了更好的推理表现。

Paper:4

Title: Fast Distributed Inference Serving for Large Language Models
Authors: Bingyang Wu, Yinmin Zhong, Zili Zhang, Gang Huang, Xuanzhe Liu, Xin Jin
Affiliation: 北京大学 (Peking University)
Keywords: deeplearning, ML, NLP, distributed inference serving, large language models
Urls: Paper: arXiv:2305.05920v1 [cs.LG] 10 May 2023, Github: None
Summary:

(1): 本文的研究背景是针对大规模语言模型推理的快速分布式服务的需求。
(2): 过去的方法对于语言模型推理运用了运转至结束的处理方法，而该方法会出现阻塞和长JCT问题。本文提出了一种基于分布式框架的自动回归模式的预测性调度方法，即FastServe。与传统方法相比，该方法实现了更高的模型推理效率，同时避免了内存不足、阻塞和等待时间过长的问题。同时，FastServe也支持自适应任务调度和GPU缓存管理。
(3): 本文提出了一个基于多级反馈队列调度算法的skip-join机制用于调度，其根据输入序列长度信息为到达的任务分配初始队列，可以有效避免感知不足和过多延迟的问题。
(4): 该方法在大规模语言模型推理任务中实现了更快速、更高效的服务，并通过实验结果证明了该方法的有效性。
(5): 因为现有的推理服务难以满足大规模语言模型的快速推理服务需求，因此本文提出了一种全新的基于分布式框架的文本推理服务方法。

Paper:5

Title: When and What to Ask Through World States and Text Instructions (通过世界状态和文字指令提问的时间和内容)
Authors: Zhengxiang Shi, Jerome Ramos, To Eun Kim, Xi Wang, Hossein A. Rahmani, Aldo Lipani
Affiliation: Web Intelligence Group, University College London, London, United Kingdom (伦敦大学学院网络智能小组，英国伦敦)
Keywords: deeplearning, NLP, collaborative building, dialogue, NeurIPS 2022 Competition, classiﬁcation, ranking
Url: Paper: https://arxiv.org/abs/2305.05754v1 Github: None
Summary:

(1):本文研究的背景是在协作任务中，有效的沟通对于实现共同目标至关重要。
(2):过去的方法主要集中于构建建造者代理人，但在协作建设中，建造者在根据可用信息和指令解释困难的情况下可能会出现歧义，因此提出了这个研究问题，即何时询问和应该问什么澄清问题。本文的方法在分类任务和排名任务上达到了良好的performance。
(3):本文提出了一种建造者模型，主要由四个组件组成：话语编码器、世界状态编码器、融合模块和插槽解码器。其中，话语编码器主要使用BERT将上下文对话编码为其嵌入式表示，世界状态编码器将世界状态表示为基于体素的网格。而融合模块将学习过的文本和世界状态表示映射为二进制分类结果。
(4):本文在NeurIPS 2022比赛中通过了分类任务和排名任务，分类任务获取了0.757的F1分数，排名任务达到了0.38的平均倒数排名。结果表明，提出的方法可以有效地根据当前世界状态和对话历史决定是否需要澄清，以及如何选择澄清问题，实现了预期的目标。
(5):本文的研究动机是协作建设中存在了解释困难的情况，本文通过提出分类任务和排名任务有效地解决了该问题，使得建造者代理人能够更好地根据沟通，快速并准确地完成建设任务，对于提升协作建设效率和质量有一定的参考价值。

Paper:6

Title: "Unsupervised Learning with Contrastive Diversity" 2. Authors: Sergey Prokudin, Stefan Roth, Mario Fritz 3. Affiliation: None 4. Keywords: Unsupervised learning, contrastive learning, diversity, neural networks 5. Urls: Paper: https://arxiv.org/abs/2102.08501, Github: https://github.com/sprokuda/contrastive-diversity 6. Summary:
```
         - (1):
```

Paper:7

Title: Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception (使用交替梯度下降和专家混合模型进行多模态学习)
Authors: Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam
Affiliation: 谷歌研究团队
Keywords: Alternating Gradient Descent, Mixture-of-Experts, Multimodal Perception, Transformer Encoder, Zero-shot classification
Urls: Paper: arXiv:2305.06324, Github: None
Summary:

(1):本文针对多模态训练和建模问题提出了一种简单和可扩展的方法，设计了一种将图像、视频、文本和音频等多模态输入整合到单个Transformer编码器中的Integrated Multimodal Perception (IMP)方法。
(2):过去的方法通常使用模态特定编码器或额外的融合层，但这些方法在处理多个全面不同的模态任务时通常会冲突且计算量较大。本文使用交替梯度下降(AGD)和专家混合模型(MoE)的组合设计，通过对多模态、不同损失函数和任务以及不同分辨率的输入进行渐进式更新，在提高多模态理解效率的同时显着降低计算成本，并在单个模态不可知的编码器上实现了模型稀疏化，从而进一步提高了性能。
(3):本文使用AGD和MoE相结合的方法，在单个Transformer编码器中对多模态信号进行整合和训练，提高了多模态学习的效率。同时使用模型稀疏化技术进一步提高了模型性能。
(4):本文在各种下游任务中测试了IMP方法，包括图像分类、视频分类、图像文本检索和视频文本检索。其中，在零样本视频分类方面，该方法在Kinetics-400、Kinetics-600和Kinetics-700数据集上分别达到77.0％，76.8％和76.8％的准确度，仅使用了先前方法计算成本的15％，并且性能显著优于之前的最优结果。
(5):本文的研究旨在更好地解决多模态学习中存在的困难，在更好的整合多模态输入的同时保持模型的高效性和性能。

Paper:8

Title: A Review of Vision-Language Models and their Performance on the Hateful Memes Challenge
Authors: Bryan Zhao, Andrew Zhang, Blake Watson, Gillian Kearney, Isaac Dale
Affiliation: Georgia Institute of Technology (乔治亚理工学院)
Keywords: vision-language models, machine learning, content moderation, hateful memes challenge
URL: https://arxiv.org/abs/2305.06159, Github: https://github.com/bzhao18/CS-7643-Project
Summary:

(1): 本文主要研究视觉语言模型在内容审核中的应用，具体针对 "恶意模因" 的分类，旨在探讨多模态模型的性能表现。
(2): 目前进行审核的主要方式包括人工审核、自动审核和内容标记。这些审核方式有其各自的缺陷，因此需要进一步发展自动化审核系统。对于 "恶意模因" 的分类，过去的方法主要是基于多模态融合的模型。然而，传统的融合模型性能有所欠缺，因此本文提出了多个基于视觉和语言融合的模型，旨在提高性能表现。
(3): 本文提出了三种基准型和多个新模型，分别采用了不同的多模态融合方式进行实验，基于 Hateful Memes Challenge 数据集进行训练和验证。其中新模型是通过结合 CLIP 和 BridgeTower 进行性能优化的。
(4): 本文实验结果表明，提出的视觉语言融合多模态模型，其性能在 "恶意模因" 分类任务中优于基准型，其中 CLIP 获得了最佳性能。实验结果表明，多模态模型可以在某种程度上有效地自动化审核系统。
(5): 本文的研究动机在于旨在提高自动化审核系统的性能，增强恶意模因分类的能力，从而保护用户的权益。通过使用多模态模型，本文为自动化审核系统的研究和发展提供了新的思路，表明该方法有望在恶意内容审核中发挥极大的作用。

Paper:9

Title: Text-guided High-deﬁnition Consistency Texture
Authors: Zhibin Tang, Tiantong He
Affiliation: 第一作者：美的AIIC
Keywords: deeplearning, text-to-image, 3D mesh, high-definition, consistency
URLs: arXiv:2305.05901v1 [cs.CV] 10 May 2023
Summary:

(1): 本文相关研究背景为基于文本指导的高清一致纹理生成。

(2): 文章提出了其前几篇研究工作的不足之处，并阐述了现有方法的局限性，指出这些方法只能创建低分辨率和不一致的纹理，无法满足高品质的3D模型生成需求。作者提出了创新的高清一致纹理生成模型，该模型以预训练的深度图像扩散模型为基础，通过fine-tuning和多扩散策略实现从不同视角生成高分辨率和一致纹理，并防止由反向传播引起的噪声边缘出现。

(3): 本文的方法主要是建立一个高清一致纹理生成模型，其中包含预训练的深度图像扩散模型、文本提示和深度图像作为输入，fine-tuning和多扩散策略等关键步骤。

(4): 在创建高品质的三维模型纹理方面，文章提出的新模型表现出良好的性能。作者在多个实验中验证了其方法的可行性和有效性。

(5): 本文的动机是提供一种解决高清一致纹理生成的新视角和新方法，使其能够满足更高的生成质量和一致性的需求。

Paper:10

标题：When ChatGPT for Computer Vision Will Come? From 2D to 3D

         2. 作者：CHENGHAO LI,CHAONING ZHANG

         3. 机构：KAIST (CHENGHAO LI)

         4. 关键词：text-to-3D，generative AI, AIGC, 3D generation, metaverse
         
         5. 链接：https://doi.org/XXXXXXX.XXXXXXX（论文链接）

         6. 概要：

         -(1)：本文讨论了 ChatGPT 在计算机视觉领域中存在的问题以及未来发展方向。

         -(2)：文中对深度学习在文本、图像和 3D 领域中模型的发展进展进行了简要概述，并探讨了 AIGC 从数据角度的演化。文中提出的观点充分说明了文章的动机。 

         -(3)：本文从数据角度探讨了 AIGC 在 3D 领域中的发展前景。

         -(4)：本文未针对具体任务和性能进行研究，仅对 AIGC 在 3D 领域的可行性进行讨论。

         -(5)：本文的主要动机是探讨 ChatGPT 在计算机视觉领域中的应用以及未来发展方向。

Paper:11

Title: Comprehensive Dataset of Synthetic and Manipulated Overhead
Authors: Brandon B. May, Kirill Trapeznikov, Shengbang Fang, Matthew Stamm
Affiliation: STR (Brandon B. May, Kirill Trapeznikov), Drexel University (Shengbang Fang, Matthew Stamm)
Keywords: Synthetic imagery, Diffusion models, Forensic tools, Image manipulation, Image forensics
Urls: paper - arXiv:2305.05784v1 [cs.CV] (https://arxiv.org/abs/2305.05784v1), Github - None
Summary:

(1): 本文旨在提出一种新的用于开发和评估法医工具的航拍影像全面数据集。
(2): 过去的方法主要集中在检测GAN生成的人脸图像，鲜有针对含有实际和合成内容的部分合成图像的识别。因此，需要一个数据集来训练和基准测试新型检测模型，并使其能够有效区分全真、全合成和部分合成图像。该研究提出了一种基于定向扩散模型的画质检测算法，能实现不同控制参数条件下的合成内容的多类生成。该算法生成的数据集包括原始图像和描述操作参数的地面真值注释，可以用于判断全合成图像、部分合成图像的检测、操作定位和分类的性能基准检测。
(3): 本文提出了一种定向扩散模型来生成全真、全合成和部分合成的数据集，该模型使用两个不同缩放级别和两个原始数据源进行训练，并支持多种操作参数的合成内容生成，其中包括被实际和合成基础地图及位置条件限定的全合成图像。此外，还支持使用相同的条件选项和多种操作内容的部分修复图像。使用基准数据集可以判断全真图像、全合成图像和部分合成图像的性能基准检测，以及操作定位和分类。
(4): 本方法在包括检测全合成和部分合成图像、操作定位和分类等多项基准任务上均取得了良好的性能。由于定向扩散技术能够修改真实图像的特定部分和合成完全合成图像，可以生成高度真实的部分合成图像。该数据集的开发可以使检测部分合成图像更加高效、精确和可靠。
(5): 该研究的动机是着眼于合成图像制作日益流行的现实，并意识到由于图像生成技术的规模和逼真程度提高，因此需要更加严格的图像操作检测和调查工具。

Paper:12

Title: Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks
Authors: Xianzhi Li, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu and Sameena Shah
Affiliation: Xianzhi Li's affiliation: 皇后大学（Queen's University）电气与计算机工程系及Ingenuity Labs研究院（Department of Electrical and Computer Engineering & Ingenuity Labs Research Institute）
Keywords: ChatGPT, GPT-4, financial text analytics, natural language processing, deep learning
URLs: Paper: https://arxiv.org/abs/2305.05862v1 Github: None
Summary:

(1):这篇文章的研究背景是ChatGPT和GPT-4这两个强大的大型语言模型在金融领域的应用。
(2):文章提到过去的语言模型在处理金融文本分析时存在的问题，而ChatGPT和GPT-4被认为是潜在的新方法。作者在这篇文章中的方法经过了对比实验的考验，证实了他们在一些数字推理任务方面的优秀表现同时揭示了它们在金融命名实体识别和情感分析等任务上的局限性。
(3):文章提出使用ChatGPT和GPT-4这两个大型语言模型在金融文本数据集上进行训练，并将其与fine-tuned模型进行对比考量。作者评估这些模型在金融数据中的性能和有效性，探讨可以提高金融文本处理性能的灵活性方法和应对方案。
(4):作者评估了ChatGPT和GPT-4在五个不同的金融领域数据集上的表现，并针对四个具有代表性的任务进行了评估。他们的实验表明，ChatGPT和GPT-4在金融命名实体识别和情感分析等任务上表现不太理想，而在数字推理问题方面表现出色。作者汇报了ChatGPT和GPT-4的优缺点及其在金融领域的性能和有效性，并将其与现有的fine-tuned模型和预训练领域的生成模型进行了比较。
(5):本文的研究动机是探讨ChatGPT和GPT-4这两个新型大型语言模型在金融领域的应用，以及他们的局限性和适用性，希望可以为金融领域的研究提供借鉴和促进。

Paper:13

Title: CADGE: Context-Aware Dialogue Generation Enhanced with Graph-Structured Knowledge Aggregation

         2. Authors: Hongbo Zhang, Chen Tang, Tyler Loakman, Chenghua Lin, and Stefan Goetze

         3. Affiliation: 张鸿博, 唐琛, 魏睿,丁驰, 林成华为英国谢菲尔德大学计算机科学系；罗泰洋为英国萨里大学计算机科学系；叶永强为广东省电力公司电力科学研究院。

         4. Keywords: context-aware dialogue generation, knowledge graph, knowledge aggregation, language model.

         5. Urls: https://www.sciencedirect.com/science/article/abs/pii/S0950705123005908, Github: None.

         6. Summary:
         - (1):文章研究背景是探索如何更好地利用外部常识来提高生成回答的质量。

         - (2):文章介绍了过去的常识知识表示方法通常只关注于图形和文本两个方面，因此将它们分别输入至常见的神经网络并不是很优化。作者提出了一种上下文感知的图形注意力模型（Context-aware GAT），可以有效地整合具有相关知识图的全局特征，并基于上下文增强知识聚合过程。

         - (3):本文提出一种新颖的上下文感知图注意力模型（Context-aware GAT），逐层应用了图知识聚合，并在连通子图中层次地应用了图知识聚合以及上下文信息来支持常识对话生成。

         - (4):该方法在情境对话生成的表现上胜过了常规基于GNN的语言框架，自动化和人工评估证明了该模型相对于现有基线模型具有显著的性能提升。
         
         - (5):文章动机在于如何更好地运用外部常识知识来提高生成语句的质量。

Paper:14

Title: Chat-Centric Video Understanding (基于对话的视频理解)
Authors: KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao
Affiliation: 上海人工智能实验室
Keywords: deeplearning, video understanding, spatiotemporal reasoning, causal relationship inference, language model
Urls: Paper url: None, Github code link: https://github.com/OpenGVLab/Ask-Anything
Summary:

(1): 本文的研究背景是视频理解在现实生活中的重要性，当前视频理解的方法限制了不同任务间的转化，因此需要在深度学习的框架下寻求新的解决方案。
(2): 过去的方法是通过对视频进行分类、检测和说明等方法，最近的深度学习在图像理解方面取得了很大的进步，然而，对于视频的理解，其saptiotemporal reasoning、事件定位和因果关系推断等方面仍存在着较大的挑战。为应对这些挑战，本文提出了一种新的基于对话的视频理解系统。本文的方法在语言模型和视频模型之间建立了一个可学习的神经接口，优化了视觉与语言两方面的理解结果，提升了视频的理解准确率。
(3): 本文的研究方法是建立一个可学习的神经接口，同时通过研究建立一个基于视频的数据集提高视频分析的准确性。
(4): 该系统在视频任务方面取得不错的成果，包括产生准确地视频推断结果，在定位事件时遵循因果关系的规律，对spatiotemporal reasoning有很好的支持。通过本文的工作可以为多模式对话系统（如人机交互、自动驾驶和智能监控）的研究提供相应的思路。
(5): 本文的最终目标即实现视频理解的高度自动化，方便普通用户完成视频理解及其他事物理解的任务，并在此基础上进行更深入的视频分析。

Paper:15

Title: DifFIQA: Face Image Quality Assessment Using Denoising Diffusion
Authors: ˇZiga Babnik, Peter Peer, Vitomir ˇStruc
Affiliation: ˇZiga Babnik and Vitomir ˇStruc (University of Ljubljana, Faculty of Electrical Engineering)
Keywords: face image quality assessment, denoising diffusion, probabilistic models
URLs: arXiv:2305.05768v1 [cs.CV] 9 May 2023 Github: None
Summary:

(1): 该研究的背景是当前现实环境中的人脸识别技术表现下降，主要是由于捕获到的人脸数据的质量不可靠，因此需要对人脸图像的质量进行评估。
(2): 曾经的方法针对具有多样性特征的面部图像保证其质量的可靠性仍具有挑战性，而现有的方法存在的问题是不够准确、效率不高。本文的方法基于去噪扩散概率模型（DDPM），可以对人脸图像进行扰动并量化这些扰动对于相应的图像嵌入表示的影响，以实现面部图像质量预测。
(3): 本文提出了一种新的面部图像质量评估（FIQA）方法DifFIQA，利用DDPM的正向和反向过程来扰动人脸图像，并量化扰动对特定人脸识别模型对应的图像嵌入表示的影响。此外，为了平衡性能和执行时间，本文还将DifFIQA的知识提取到了基于回归的质量预测器DifFIQA（R）中。
(4): 该方法在7个数据集上对4个目标人脸识别模型( FR models) 进行了全面的实验，并与10种最先进的FIQA技术进行了对比。结果表明，DifFIQA方法的性能优于目前的其他方法。由于使用了含有扩散过程的DDPM，这种方法的计算成本较高，而DifFIQA （R）则相对快速且性能也可以满足其目标。
(5): 本文的主要动机是应对现实场景下人脸识别技术的背景下如何识别质量低的图像，以保证识别的准确性。

Paper:16

Title: ChinaOpen: A Dataset for Open-world Multimodal Learning (中国开发: 一份用于开放世界多模态学习的数据集)
Authors: Aozhu Chen, Ziyuan Wang, Chengbo Dong, Kaibin Tian, Ruixiang Zhao, Xun Liang, Zhanhui Kang, Xirong Li
Affiliation: 中国人民大学
Keywords: multimodal learning, open-world learning, dataset, video captioning, Chinese data
Urls: Paper: https://doi.org/10.1145/nnnnnnn.nnnnnnn ; Github: https://ruc-aimc-lab.github.io/ChinaOpen
Summary:

(1): 这篇论文主要探讨了针对开放世界环境下的多模态学习的数据集构建和模型优化问题，旨在解决现有研究在面对中文数据时的效果问题。
(2): 过去的方法主要基于YouTube上的英文数据集，而这篇论文提出使用Bilibili作为数据来源。在构建样本时，采用了一些数据清理策略来排除一些低质量的视频。此外，本文还提出了GVT模型用于中文视频的标题生成。本文的方法是有动机和可行性的。
(3): 本文的研究方法包含两个主要方面：数据集构建和模型优化。在数据集构建方面，通过从Bilibili上搜集并清理了一批视频样本作为训练集，建立了ChinaOpen-50k数据集，含有50k个用户发布的视频及其相应的标题和标签。对于样本的清理，本文使用了基于文本的和基于内容的方法。在模型优化方面，本文提出了GVT模型用于多模态学习和中文视频标题生成任务。
(4): 本文在自己构建的ChinaOpen数据集上进行了实验评估，评价指标包含视频描述生成、视频标注、多模态问题解决等。实验结果表明，本文提出的GVT模型在定量性能评估上明显优于其他模型。
(5): 本文主要的研究动机在于解决现有研究在面对中文数据时的效果问题。同时为在视频场景下进行多模态学习提供了一个基准数据集。

Paper:17

Title: Relightify: Relightable 3D Faces from a Single Image via Diffusion Models (基于扩散模型的单幅图像中可重照的3D人脸)
Authors: Yu Yin, Qianqian Wang, Haozhe Xie, Dong Guo, Zhe Wu, Yifan Wang, Fang Wen, Jianzhuang Liu, Wenping Wang
Affiliation: 清华大学
Keywords: 3D人脸; 扩散模型; 单幅图像; 重照; BRDF重构
Url: https://arxiv.org/abs/2110.01116, Github: None
Summary:

(1):本文的研究背景是基于以往研究的单幅图像3D人脸重构，旨在解决在单视角下3D人脸的BRDF重构及重照问题。
(2):以往的方法采用多张图像或多视角来重建3D人脸，需要较多的先验知识或用户交互，且对于重照问题通常表现不佳。本文提出的方法基于扩散模型，首次使用扩散模型作为高精度3D人脸BRDF重构的先验，并通过保持图像的观测纹理，同时从观察到的纹理中恢复缺失的重照组件和纹理。
(3):该文的主要方法为构建扩散模型与3D形变模型相结合的框架，通过数据集的训练得到模型先验，然后在快速解决3D形变问题的基础上，使用扩散模型恢复重照信息和纹理信息。
(4):文中的方法采用了公认较难的任务——通过单幅图像重构可重照3D人脸，并通过大量针对现有数据集的实验，验证了该框架在3D人脸纹理重建以及BRDF重构方面的效果优越性。
(5):本文的研究动机是针对过去单幅图像3D人脸重建涉及的BRDF重构及重照问题，提出一种新的方法，通过扩散模型作为先验，实现更为准确的3D人脸BRDF重构和重照。

Paper:18

Paper:19

Title: Vision-Language Models in Remote Sensing: Current Progress and Future Trends (遥感中的视觉语言模型: 当前进展与未来趋势)
Authors: Congcong Wen, Yuan Hu, Xiang Li, Zhenghang Yuan, and Xiao Xiang Zhu.
Affiliation: Congcong Wen is with the Department of Electrical and Computer Engineering, New York University Abu Dhabi, Abu Dhabi, UAE.
Keywords: Remote Sensing, Vision-Language Model, AGI, GPT, Transformer.
URLs: Paper: arXiv:2305.05726v1 [cs.CV] 9 May 2023 Github: None
Summary:

(1): 本文的研究背景主要是关于远程感知领域中视觉语言模型的应用与研究。
(2): 过去的研究主要注重于视觉理解任务，而忽略了对物体及其关系的语义理解。本文的方法是受到了ChatGPT和GPT-4的启发，提出了视觉语言模型，能够更细致深入地理解物体之间的语义关系。本文的方法应该是很有动机的。
(3): 本文的研究方法是在远程感知领域中应用视觉语言模型，包括了图像说明、基于文本的图像检索、视觉问答等任务，并大量列举并评价了相关研究。
(4): 本文的方法在多个远程感知任务中均有表现，具体包括了图像说明、基于文本的图像检索、视觉问答等，且在一些任务中表现很出色。
(5): 本文的研究动机在于探寻视觉语言模型在远程感知领域中的应用，激发研究人员进一步研究本领域的创新和进步。

Paper:20

Title: Multi-Task End-to-End Training Improves Conversational Recommendation
Authors: Naveen Ram, Dima Kuzmin, Ellie Ka In Chio, Moustafa Farid Alzantot, Santiago Ontanon, Ambarish Jash, and Judith Yue Li.
Affiliation: Google Research (谷歌研究院)
Keywords: Multi-Task Learning, End-to-End Model, Transformer Model, Conversational Recommendation.
URLs: Paper: arXiv:2305.06218v1 [cs.CL] 8 May 2023, Github: None.
Summary:

(1): 本文的研究背景是对话推荐领域的多任务学习。
(2): 在以前的方法中，采用了复杂的多组件方法，其中对话管理和实体推荐任务是由不同的组件处理的。此外，这些方法的重要问题是每个组件学习到的知识对另一个组件没有直接的影响，这导致这些方法无法充分利用数据，从而无法取得最佳成果。本文提出了一种统一的 Transformer 模型，可以同时处理生成相关项和生成会话对话，该模型可以在多项任务上进行训练，以实现在对话推荐领域中的最佳性能。
(3): 本文提出的方法在 ReDIAL 会话电影推荐数据集上进行了微调，并使用 MovieLens 数据集程训练多个任务，其中包括基于输入电影的电影属性预测和相关电影预测等任务，以手头任务的方法来帮助解决对话推荐领域的问题。在相应的检查任务中，证明了额外任务的学习知识可以转移到对话任务领域，每个训练任务实现了与相关检查任务得分提升 9%-52% 的核心价值指标比对。
(4): 本文的方法可以同时实现生成组建对话和生成相关推荐项的任务，同时保持良好的性能。在 ReDIAL 数据集上，模型性能相对于其他模型来说较好，训练的模型达到了业界领先的性能水平。因此，本文的方法可以对话推荐领域的问题提供有效的解决方法。
(5): 本文的研究动机是提升对话推荐领域的性能，同时保持模型的高效性和简洁性，探索有效的方法来训练单个模型以完成多种任务。

Paper:21

Title: Localised Text-guided Image Editing with Weak Supervision
Authors: Rumeysa Bodur, Erhan Gundogdu, Binod Bhattarai, Tae-Kyun Kim, Michael Donoser, Loris Bazzani
Affiliation: Imperial College London, UK
Keywords: Text guided image editing, diffusion models, weakly-supervised loss function, segmentation masks
Urls: arXiv:2305.05947v1 [cs.CV] 10 May 2023, Github: None
Summary:

(1): 本文的研究背景是基于文本和图像的生成方法已经取得了重要的进展，但在生成图像的输出空间中具有受限制的可控性。
(2): 本文提出一种新的学习方法，名为iEdit，用于文本引导的图像编辑，使用一种弱监督损失函数构建数据集，以生成具有空间结构的图像。这个方法比过去的方法更具合理性和可用性，因为过去的方法在测试时需要对每个个体进行微调，或在没有目标图像的情况下采用对比学习，这会导致源图像的保真度问题。
(3): 本文通过自动构建数据集（LAION-5B）并提出一种基于分割掩膜的丢失函数，使其能够生成与所提供的文本编辑提示相对应的假目标图像，该数据集中带有输入图像-标题对。这使得我们具有了将弱监督损失函数引入到模型中的灵活性，以从具有空间结构的源图像的潜在噪声中生成假的目标图像，并在训练时进行分割掩膜指导编辑和推理。
(4): 该方法已在包含200k个样本的构建数据集上进行了训练，并在保真度，CLIP对齐得分和定性方面显示出了优异的结果，可以编辑所生成和真实图像。实验结果表明了本文提出的方法的可行性和有效性。
(5): 本文的研究动机是基于过去的研究带来的限制性的可控性和保真度问题，为生成图像增加可控性，令美术家和设计师更好地发挥自己的工作创造力和真实性。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2023_05_11.md

2023_05_11.md

2023_05_11 Arxiv更新论文汇总

Paper:1

Paper:2

Paper:3

Paper:4

Paper:5

Paper:6

Paper:7

Paper:8

Paper:9

Paper:10

Paper:11

Paper:12

Paper:13

Paper:14

Paper:15

Paper:16

Paper:17

Paper:18

Paper:19

Paper:20

Paper:21

Files

2023_05_11.md

Latest commit

History

2023_05_11.md

File metadata and controls

2023_05_11 Arxiv更新论文汇总

Paper:1

Paper:2

Paper:3

Paper:4

Paper:5

Paper:6

Paper:7

Paper:8

Paper:9

Paper:10

Paper:11

Paper:12

Paper:13

Paper:14

Paper:15

Paper:16

Paper:17

Paper:18

Paper:19

Paper:20

Paper:21