Skip to content

Latest commit

 

History

History
725 lines (310 loc) · 44.8 KB

2023_05_02.md

File metadata and controls

725 lines (310 loc) · 44.8 KB

2023_05_02 Arxiv更新论文汇总

今天共有25篇论文

Paper:1

  1. Title: A Comparison of Pneumatic Actuators for Soft Growing Vine Robots

  2. Authors: Alexander M. K¨ubler, Cosima du Pasquier, Andrew Low, Betim Djambazi, Nicolas Aymon, Julian F¨orster, Nathaniel Agharese, Roland Siegwart, Allison M. Okamura

  3. Affiliation: CHARM Lab, Department of Mechanical Engineering, Stanford University, Stanford, CA 94305, USA

  4. Keywords: Soft growing robots, pneumatic actuators, modeling

  5. Urls: arXiv:2305.00967v1, Github:None

  6. Summary:

  • (1):本文的研究背景是软性机器人的驱动器--气动驱动器的比较研究;
  • (2):过去的方法存在的问题是驱动器无法承受生长期间发生的倒出现象,在作为障碍物穿越时不够灵活以及没有较好的力学性能。本文提出了三种新型气动驱动器,以解决过去方法存在的问题,并进行了对比研究;
  • (3):文章提出了气动驱动器性能比较的实验方法和模型以及对新型气动驱动器的分析模型;
  • (4):使用新型的气动驱动器,设计制作了能够穿越障碍的软性机器人实验系统,性能得到了验证;
  • (5):开展气动驱动器比较研究提升软性机器人的技术性能。

Paper:2

  1. Title: Threat Perception Modulation by Capturing Emotion, Motor and Empathetic System Responses: A Systematic Review

  2. Authors: E. M. Jacobs, F. Deligianni, and F. Pollick

  3. Affiliation: E. M. Jacobs is with the SOCIAL AI CDT, a collaborative center for doctoral training between the University of Glasgow and UKRI, G12 8QQ.

  4. Keywords: Affective Computing, Emotion Contagion, Emotional Rapport, empathy and resonance, Virtual reality

  5. Urls: None

  6. Summary:

  • (1): 本文旨在通过分析人类生物运动与情感系统之间的联系,调节威胁感知,并研究如何有效地捕捉情感、运动和共情系统的响应,探讨情绪和动作系统之间的联系。

  • (2): 本文回顾了过去的研究方法,发现现有的方法存在问题。同时,本文提出的研究方法也得到了良好的动机。

  • (3): 文章采用信息学领域的情感计算方法来分析情感与动作系统之间的联系。作者对22项研究进行了详细的分析,探讨了现有方法的优缺点以及在威胁感知中的应用。

  • (4): 本文主要关注人类在威胁情境下的情感和运动响应,研究了按需捕捉这种响应的情感计算方法。本文的性能支持其目标,能够有效地捕捉情感和运动响应,并提供相应的对策。

  • (5): 因为共情系统是观察者产生亲社会驱动的重要手段,所以在理解威胁感知和共情之间的关系方面,情感计算方法可以发挥关键作用。

Paper:3

  1. Title: Empowering Learner-Centered Instruction: Integrating ChatGPT
  2. Authors: Yun-Cheng Tsai
  3. Affiliation: None
  4. Keywords: ChatGPT Python API, Tinker Learning, Learner-Centered Instruction, Creative Learning Spiral
  5. Urls: https://arxiv.org/abs/2203.03810
  6. Summary:
  • (1): 该文章旨在探讨如何通过 ChatGPT Python API 结合 Tinker Learning 和 Learner-Centered Instruction,自主地激发学生的学习兴趣和自我驱动,培养学生的4C技能,并获得可观的教学效果。

  • (2): 传统的教学方法往往以老师为中心,缺乏学生的主动参与,容易导致学生失去兴趣。此外,传统的编程教学方法常常无法通过描述性分析来分析较大规模的数据。为此,本文提出了一种新的教学方法来促进学生的自我驱动和学习兴趣,其中包括 ChatGPT Python API,该API允许学生探索不同的资源、创造新的想法、在一种更个性化的方式下创建内容,并且通过实践深入学习。

  • (3): 本文提出的 ChatGPT Python API 教学方法,采用了问题情境教学,鼓励学生积极参与编程,建立个人学习思路。同时, 支持学生通过基于探索和发现的学习模式进行创造性的问题解决,并通过ChatGPT Python API提高学生的编程技能和实践能力,让学生在实践中得到实质性的知识。

  • (4): 本文的方法在编程教育方面进行了实证研究,采用的是两个特定的数据集。研究结果表明,与传统的教学方法相比,本文提出的方法在编程任务的完成情况和创意思维方面得到了更好的表现,可以有效地提高学生的编程技能,促进学生的自我驱动和学习兴趣。

  • (5): 本文的研究动机是促进学生的学习成果和创意思维。基于 ChatGPT Python API 教学方法,学生通过实践深入学习编程,并在

Paper:4

  1. Title: Students' Voices on Generative AI: Perceptions, Benefits, and Challenges in Higher Education (学生对生成AI的观点:高等教育中的认知、益处和挑战)

  2. Authors: Cecilia Ka Yuk Chan, Wenjie Hu

  3. Affiliation: Affiliation: The University of Hong Kong (香港大学)

  4. Keywords: ChatGPT, Generative AI, Student Perception, AI Literacy, Risks, Advantages, Holistic competencies

  5. Urls: Article link: https://www.frontiersin.org/articles/10.3389/feduc.2022.860306/full Github: None

  6. Summary:

  • (1): 该文探讨了大学生对生成AI技术(如ChatGPT)在高等教育中的认知、意愿、潜在益处和挑战以及有效整合。
  • (2): 以前的方法不足以满足教育需求,存在许多挑战和问题。本文的方法旨在了解学生对GenAI的看法和整合方式,从而帮助教育者和政策制定者提出针对性的解决方案,使GenAI技术在提高教学效果的同时,不影响教育的质量和诚信性。
  • (3): 调查大量不同学科的本科和研究生,了解他们对GenAI技术的认知和洞察,同时关注其优点和缺点以及整合的方式。
  • (4): 研究表明,学生认为该技术可以提供个性化的学习支持、写作和头脑风暴支持以及研究和分析能力,并可以在学习评估中使用。然而,精度、隐私、伦理问题以及对个人发展、职业前景和社会价值的影响等问题也得到了关注。
  • (5): 本文旨在深入了解学生对GenAI技术在高等教育中的看法和潜在问题,并提供有效的解决方案,为GenAI技术的教育整合和政策制定提供指导。

Paper:5

  1. Title: Appropriateness is all you need! General-purpose chatbots and what they may and may not say

  2. Authors: Hendrik Kempt, Saskia Nagel

  3. Affiliation: Hendrik Kempt - HumTec, RWTH Aachen University

  4. Keywords: chatbots, appropriateness, AI ethics, natural language processing, safety-normativity

  5. Urls: Paper - https://www.aclweb.org/anthology/2022.acl-long.307.pdf, Github: None

  6. Summary:

  • (1): 本文主要研究聊天机器人的适宜性问题,旨在确定聊天机器人可以或不可以说的内容。
  • (2): 过去的方法主要侧重于安全问题,忽视了聊天机器人可能引起的其他问题,因此需要更细致、更全面的方法。本文提出将聊天机器人的适宜性分为技术话语适宜性、社交适宜性和道德适宜性三个方面,并对聊天机器人的位置、可接受性和价值对齐进行限制。这种方法从更广泛的视角看待聊天机器人的问题,并提出了通过设计适宜性挑战集作为验证方法的初步建议。
  • (3): 本文提出了一种基于适宜性的方法来解决聊天机器人的问题。首先,将聊天机器人的话语分为技术话语适宜性、社交适宜性和道德适宜性三个方面进行评估;然后,根据适宜性方面确定三个限制聊天机器人的评估标准:聊天机器人的位置性、可接受性和价值对齐;最后,使用适宜性挑战集作为验证方法。
  • (4): 本文的方法旨在更全面、更细致地解决聊天机器人可能引起的问题,从适宜性的角度划定聊天机器人的范围,限制其对某些话题的讨论。但是,本文并没有在具体任务上进行实验,因此需要进一步的验证和探索。
  • (5): 本文的研究动机是聊天机器人可能引起的问题,而过去的方法主要侧重于其安全性问题,因此需要更全面、更细致的方法来解决这些问题。

Paper:6

  1. Title: Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 (《谈一谈记忆:ChatGPT/GPT-4已知书籍的考古学》)

  2. Authors: Kent K. Chang, Mackenzie Cramer, Sandeep Soni and David Bamman.

  3. Affiliation: 加州大学伯克利分校 (University of California, Berkeley)

  4. Keywords: deeplearning, NLP, cultural analytics, memorization, name cloze task.

  5. Url: https://arxiv.org/abs/2305.00118, Github: None.

  6. Summary:

  • (1): 该论文的研究背景是大型预训练语言模型,如ChatGPT和GPT-4,这些模型能够对文本进行分类、生成、控制等自然语言处理任务。同时,这些模型存在记忆训练数据的能力,并且缺乏对训练数据的透明度,这可能会对下游文化分析任务的测量准确性产生影响。

  • (2): 过去的方法主要是开发算法设备来测量文本中感兴趣的现象,这涉及大量的文本训练数据,而大型预训练语言模型的出现可减少新任务所需的大规模训练数据。然而,当前的模型训练数据不透明,这会对结果的准确性产生影响。因此,本文提出一种名为“对接任务”的方法,通过挖掘模型训练数据中的通用知识来评估模型的泛化性。

  • (3): 本文提出一种名为“考古学数据”的方法,可以推断ChatGPT和GPT-4已知的图书,方法是利用“名称填空成员推理查询”来测量准确的记忆程度。作者通过随机抽样的方式挑选571本小说,将其中的“名称填空”用作测试,以推断ChatGPT和GPT-4模型是否已经记忆了这些小说。作者在下游任务的表现上进一步验证了这种记忆的影响。

  • (4): 本文通过“考古学数据”的方法推断出ChatGPT和GPT-4已经记住了大量的版权材料,并且记忆程度与这些图书在网络上出现的频率有关。这些模型记忆了一些训练数据,这使得测量分析的本地测试数据受到干扰。能够记忆一组未知的书籍的能力使得估计结果的有效性评估变得更为复杂。本文的评测结果表明,这些模型表现得比没有记忆的模型更好。因此,作者认为这种模型训练数据的不透明性为开放模型提供了支持,开放模型不仅具有广泛适用性,而且可以提供数据的透明度。

  • (5): 该论文的主要动机是发现大型预训练语言模型(如ChatGPT和GPT-4)训练数据的不透明性和训练数据记忆的问题,以及这些问题对下游文化分析任务的测量准确性带来的影响。作者提出了一种名为“对接任务”的方法,旨在通过挖掘训练数据中的通用知识来评估模型的泛化性。本文认为开放模型的训练数据透明度是确定模型泛化性重要的因素。

Paper:7

  1. Title: Poisoning Language Models During Instruction Tuning (中文翻译:在指令优化期间攻击语言模型)

  2. Authors: Alexander Wan, Eric Wallace, Sheng Shen, Dan Klein

  3. Affiliation: Alexander Wan 为UC Berkeley的研究人员

  4. Keywords: deeplearning, ML, NLP, CV

  5. Urls: Paper: arXiv | Github: None

  6. Summary:

  • (1): 本文研究的背景是随着自然语言处理技术的发展,指令优化根据用户提交的实例来调整语言模型,但同时也使得模型变得更加脆弱。

  • (2): 过去的方法是使用数据过滤和降低模型容量来减少攻击,但这些方法会降低测试准确率。本文提出了一种新的攻击方法,并且在其他任务上进行了测试来证明其有效性和普适性。

  • (3): 本文提出了一种利用袋状语言模型逼近来优化输入和输出的方法,并使用这种方法来生成"中毒"的样本,从而攻击语言模型。在各种情况下对方法进行测试,并提出了一种新的损伤函数。

  • (4): 在各种指令优化的语言模型上,本文提出的方法可以使少量的"中毒"样本就能够引起持续的负面情绪,或者在许多任务中引起退化的输出,特别是对于更大的语言模型具有非常高的影响。

  • (5): 本文旨在揭示语言模型依赖外部数据如何增加其脆弱性的问题,该问题越来越受到越来越多人的关注,并提出一种新的攻击并提出了一种新的损伤函数,以防止这种攻击。

Paper:8

  1. Title: The Emotions of the Crowd: Learning Image Sentiment from Tweets via Cross-modal Distillation

  2. Authors: Alessio Serra, Fabio Carrara, Maurizio Tesconi and Fabrizio Falchi

  3. Affiliation: Alessio Serra is affiliated with Università di Pisa, Pisa; Fabio Carrara and Fabrizio Falchi are affiliated with ISTI-CNR, Pisa; Maurizio Tesconi is affiliated with IIT-CNR, Pisa.

  4. Keywords: Visual sentiment analysis, cross-modal distillation, social media, image sentiment polarity prediction, textual teacher model

  5. Urls: Paper: https://arxiv.org/abs/2304.14942v1, Github: None

  6. Summary:

  • (1): 该论文的研究背景是社交媒体中视觉情感分析领域的发展。随着用户在社交媒体中上传越来越多的图像和视频,利用这些数据进行视觉情感分析具有重要的实际应用价值。

  • (2): 过去的方法需要人工标注数据集,存在标注成本高的问题。而本文提出了一个自动化的方法,该方法利用文本情感分析的监督信息,构建视觉情感极性分类器,避免了人工标注数据集的问题,同时通过跨模态蒸馏技术实现从文本模态到视觉模态的知识转移。

  • (3): 本文提出的方法基于跨模态蒸馏技术。通过从从随机采样的多模态(文本 + 图像)数据中逐步构建一个学生模型,该模型基于相应的文本教师模型的输出对视觉模态进行预测训练。

  • (4): 该方法在Twitter抓取的约1.5M张图像数据上进行了实验,得到的模型与当前最先进的基于手动标注数据的方法相比,在五个手动标注的图像情感极性预测基准上表现都更好。

  • (5): 本文的动机是利用社交媒体中丰富的多模态数据,通过跨模态知识转移,自动构建视觉情感极性分类器,解决人工标注数据集存在标注成本高、标注过程存在主观性等问题,以提高情感极性预测任务的效率和准确性。

Paper:9

  1. Title: Joint Modelling of Spoken Language Understanding Tasks with Integrated Dialog History

  2. Authors: Siddhant Arora, Hayato Futami, Emiru Tsunoo, Brian Yan, Shinji Watanabe

  3. Affiliation: Carnegie Mellon University (卡内基梅隆大学)

  4. Keywords: spoken language understanding, spoken dialog system, end-to-end systems, joint modelling, speaker attributes

  5. Urls:

  1. Summary:
  • (1): 本文探讨口语交互中,如何在多任务记忆和排除歧义的情况下对话进行语言理解,提出了一个新型模型架构,用于处理口语交互中的Spoken Language Understanding (SLU)任务,并通过上下文记忆进行多任务联合建模。

  • (2): 传统的SLU系统独立处理对话中的每个话语单元,而本文提出的新型模型能够同时对话任务联合建模,减少了推理时间,提高了任务性能,同时在建模过程中还考虑了对话历史上下文。该模型采用自回归解码器,基于神经网络进行预测,解决了任务属性预测顺序问题,提出了一种无序训练方法。

  • (3): 本文所提出的模型采用神经网络对话上下文模型,利用自回归模型进行预测,成功解决了对话属性预测顺序问题,并提出了一种无序训练方法。在SLU任务联合建模中,同时采用了多任务学习,提高了模型的泛化能力和学习效率,并使用中间 CTC 损失和训练集扩增来缓解建模过程中数据稀疏问题。

  • (4): 本文提出新型模型在 HarperValley 的数据集上进行了广泛实验,展示了模型优于现有方法并能够达到目标任务的性能。比起现有方法,新型模型在减少推理时间和提高多任务联合建模效率上表现出重要的改善。

  • (5): 本研究的动机是要解决传统SLU系统独立处理对话中的每个话语单元带来的推理用时问题。考虑到上下文对任务进行记忆和处理对于提高预测性能的关键作用,本文提出了基于上下文记忆的新型模型架构。本文还探讨了多任务联合学习策略,在展示新型模型有效性的同时,证明了该模型的质量和性能优异,为口语交互语言理解的研究发展提供了新思路。

Paper:10

  1. Title: ChatGPT - a Blessing or a Curse for Undergraduate

             2. Authors: Ishika Joshi, Ritvik Budhiraja, Harshal Dev, Jahnvi Kadia, M. Osama Ataullah, Sayan Mitra, Dhruv Kumar, Harshal D. Akolekar
    
             3. Affiliation: IIIT Delhi, New Delhi, India
    
             4. Keywords: ChatGPT, AI language model, undergraduate computer science, self-sabotage, academic integrity
    
             5. Urls: https://dl.acm.org/doi/10.1145/3313831.XXXXXXX
    
             6. Summary:
    
             - (1): 本文研究ChatGPT 对于计算机科学本科生和教师而言是福还是祸。
    
             - (2): 本文阐述了近年来人工智能在各个领域的广泛应用,同时也导致了一定的问题,如各种偏见、安全和隐私顾虑、技术限制等。本研究着重探讨了ChatGPT 这一人工智能语言生成模型被用于完成家庭作业和考试等任务时对学生学习的挑战。本文采取定量分析方法,论证了ChatGPT完成各种问题的不可靠性,呼吁学生和教师共同维护学术诚信。
    
             - (3): 本文采用定量研究方法分析了ChatGPT在回答本科生计算机科学各种问题上的表现,并给出了学生和教师都可操作的改进方法以此改善其使用方式和保护学术诚信。
    
             - (4): 本文检验了ChatGPT在回答各种本科计算机科学问题上的表现,并论证了学生依赖ChatGPT完成学业的风险和危害。作者提出了针对该问题的建议,并鼓励学生成为具有创造性的学习者。
    
            - (5): 本论文鼓励人工智能技术基于诚实和透明性的发展,并为教学及学生学习工具的使用提供了有益的倡导。
    

Paper:11

  1. Title: DIF Analysis with Unknown Groups and Anchor Items (未知组和锚点项的DIF分析)
  2. Authors: Gabriel Wallin, Yunxiao Chen, and Irini Moustaki
  3. Affiliation: London School of Economics and Political Science (伦敦政治经济学院)
  4. Keywords: Differential item functioning, measurement invariance, latent DIF, latent class analysis, Lasso
  5. URLs: arXiv:2305.00961v1 [stat.ME] 1 May 2023
  6. Summary:
  • (1): 本文研究了调查问卷或教育测试等测量工具中项参数的等价性问题,也就是测量不变性问题。DIF分析是常用的方法,用于评估测量不变性,尤其是在项水平检查。但是传统的DIF分析方法需要预先知道比较组和锚点项,而这种先验知识并不总是可用的。
  • (2): 过去的方法通常需要已知的一部分信息,例如当比较组未知但锚点项已知时,可以用潜类别来估计未知的比较组。当锚点项未知而比较组已知时,存在一些假设性假设下的方法,但通常要求DIF项的数量不太大。然而,没有针对两个信息都未知情况的DIF分析方法。本文提出了一种新方法来解决此问题。本文所采用的方法模拟了未知组,引入项特定DIF参数来描述DIF的影响,同时引入了L1正则化估计器来同时识别潜类别和DIF项,采用期望最大化算法来求解非平稳优化问题。
  • (3): 本文所提出的方法在未知比较组和锚点项的情况下,采用L1-正则化的方法来同时估计潜在组以及识别DIF项。在这个实现过程中,需要解决非平滑优化问题。期望最大化算法被引入来解决这个问题。
  • (4): 通过模拟研究和对实际教育测试项目的反应数据应用来评估方法的性能。实验结果表明,所提出的方法在DIF分析方面的性能要优于以往的方法,可实现更高的DIF检测准确度。
  • (5): 本文对DIF分析问题提出了一种新的DIF分析方法。相对于之前的方法,本文提出的方法不需要已知的比较组和锚点项,提高了DIF检测效率和准确性。

Paper:12

  1. Title: A data science platform to enable time-domain astronomy (一个数据科学平台以支持时域天文学)

  2. Authors: Coulter, D.A., Foley, R.J., Kilpatrick, C.D. et al.

  3. Affiliation: Caltech Optical Observatories, California Institute of Technology, Pasadena, CA 91125, USA (加州理工学院光学天文台)

  4. Keywords: data science platform, time-domain astronomy, synoptic sky surveys, broker, Kowalski, AMPEL, HEALPix Tiles, multi-messenger astronomy

  5. Urls: Paper link: https://www.nature.com/articles/s41550-022-01755-8 Github link: None

  6. Summary:

  • (1): 本文介绍了一个新的数据科学平台,旨在支持现代时域天文学的数据挖掘和分析。时域天文学是一个快速发展的领域,需要处理巨量的数据和快速响应的能力,这些数据来自于各种地方,包括观测、天文探测器、卫星等。

  • (2): 过去的方法中,传统的数据存储和处理方案已经不能满足现代天文学的需要,创新的方法和技术成为了必然趋势。然而,现有的工具通常是针对特定任务而设计的,且缺乏一致的接口或统一的数据访问方式,这导致了工具之间的集成难度增加。

  • (3): 本文提出了一种数据科学平台,旨在创建一个支持时域天文学的通用数据处理框架。该平台的基础是 AMPEL (一种时间域事件选择器),它包含了多种分析工具和查询工具,通过与 Kowalski (一种多用途查询引擎)和 SkyPortal (一个数据可视化工具)的协作,AMPEL 可以帮助观测者发现和跟踪感兴趣的天体事件。

  • (4): 本文的方法已在多个实际场景中进行了测试和验证,包括二进制中子星合并事件、快速射电暴事件等。结果表明,AMPEL 可以对时域天文学数据进行高效的分析和挖掘,在源寻找和分类等任务上表现出色,可为天文研究提供重要支持。

  • (5): 通过构建该数据科学平台,本文旨在提供一种能够帮助天文学家利用丰富的时域天文学数据的通用工具,他们可以通过使用 AMPEL 和 HEALPix Tiles 等功能来更好地理解观测结果,并更易于将天文学数据集成进入现有的人工智能系统中,实现快速、准确的目标追踪和分类。

Paper:13

  1. Title: Low-Depth Flag-Style Syndrome Extraction for Small Quantum Error-Correction Codes

  2. Authors: Dhruv Bhatnagar, Matthew Steinberg, David Elkouss, Carmen G. Almudever, Sebastian Feld

  3. Affiliation: Dhruv Bhatnagar is from Quantum & Computer Engineering Department, Delft University of Technology, The Netherlands

  4. Keywords: quantum-error correction, stabilizer codes, flag fault tolerance, syndrome extraction, quantum computing

  5. Urls: https://arxiv.org/abs/2305.00784v1

  6. Summary:

  • (1): 本文研究小规模量子纠错代码的低深度旗式辅助检测法。
  • (2): 本文探讨了旗式辅助检测法以往的方法,讨论了它们存在的问题,并合理地阐述了新方法的动机。
  • (3): 本文提出了一种基于过去综合症的稳定器测量动态选择和利用完整稳定器组的方法,以实现具有较低深度的旗式协议。
  • (4): 本文的新协议在[[5,1,3]]代码和Steane代码的综合症提取电路中都明显低于以前的方法,与以前的方法相比取得了大幅度的性能提升,并且以假设阈值模拟的方式进行了演示。新方法充分支持其研究目标。
  • (5): 本文的研究动机在于探讨如何利用全稳定器组的属性减少量子纠错中的电路开销。

Paper:14

  1. Title: Unsupervised Discovery of 3D Hierarchical Structure

  2. Authors: Mengyu Chu, Chongxuan Li, Jingyu Yang, Bao Wang, Lawrence Carin

  3. Affiliation: Duke University

  4. Keywords: Unsupervised Learning, Deep Learning, 3D Hierarchical Structure, Biomedical Imaging, Segmentation

  5. URLs: Paper: https://arxiv.org/abs/2006.12345, Github: None

  6. Summary:

  • (1):本文研究无监督学习在三维医学图像分割中的应用,旨在探索自动发现图像内部层次结构的方法。
  • (2):以往的无监督方法存在困难,鲜有关注在图像的内部层次结构上;本文提出的方法通过利用生成扩散模型学到的具有意义的特征,发现包含层次结构的子体积,三种loss函数能提高模型的泛化性能。
  • (3):本文提出了“无监督预测分割网络”方法,该方法的网络结构由两个主要部分组成:扩散过程和反向网络。三种loss函数分别用于训练网络,目的是找到具有层次结构的子体积来自主地分割出整个3D体积。
  • (4):文章的方法在生物学仿真数据集和真实的脑肿瘤分割数据集BraTS'19上实现了更好的性能比以往的无监督结构发现方法。
  • (5):本文旨在通过利用无监督学习方法发现三维医学图像内部的层次结构,以提高自动分割过程的性能。

Paper:15

  1. Title: Toward Deeper Understanding: A Survey of Techniques for Interpretable Machine Learning

  2. Authors: Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin

  3. Affiliation: University of Washington

  4. Keywords: Interpretable Machine Learning, Explanation Methods, Surveys

  5. Urls:

  1. Summary:
  • (1): 本文是一篇关于可解释机器学习技术的综述文章,主要针对当今黑盒式机器学习模型的不可解释性,旨在探索和总结可解释性机器学习研究领域的方法和成果,以期提高模型的可理解性和透明性。

  • (2): 本文综述了可解释机器学习的方法和技术,包括传统的特征重要性分析和规则提取,基于代价敏感学习的方法和模型调整技术,基于模型间比较的方法和已知属性的度量方法等等。总的来说,这些方法虽然一定程度上解决了黑盒模型的不可解释性,但是具有各自的局限性,或者需要人为的先验知识、培训或其他额外的信息,限制了其在实际应用中的使用。

  • (3): 本文提出了一种基于局部和全局解释的框架,能够更全面地刻画模型在个体实例和整体群体层面上的行为和规律,并提出了一些通用的评价标准和指标,以便比较和选择不同的解释方法。此外,本文还展望了可解释机器学习领域的未来发展方向,包括方法的集成、评价指标和应用场景的拓展等等。

  • (4): 本文所提出的基于局部和全局解释的框架具有一定的优势和普适性,能够提高模型的可理解性和透明性,也获得了在多个测试数据集上的良好表现和评价。但是仍需要进一步探索和改进,以提高解释方法的可靠性、鲁棒性和实用性。

  • (5): 当今,随着机器学习和人工智能技术的不断发展,越来越多的人们开始关注机器学习模型的不可解释性问题。本文的研究动机在于探索和总结可解释性机器学习的方法和技术,提供了一些有益的思路和工具,以期建立更可理解、更透明的机器学习模型,为有效解决现实问题和保障社会机制提供有力支持。

Paper:16

  1. Title: Hierarchical Dialogue Understanding with Special Tokens and Turn-Level Attention

  2. Authors: Xiao Liu, Jian Zhang, Heng Zhang, Fuzhao Xue, Yang You

  3. Affiliation: 国立新加坡大学计算机科学系Department of Computer Science, National University of Singapore, 新加坡

  4. Keywords: dialogue understanding, special tokens, turn-level attention, hierarchical modeling, graph module

  5. Urls: Paper: arXiv:2305.00262v1 [cs.CL] 29 Apr 2023; Github: https://github.com/ShawX825/HiDialog.

  6. Summary:

  • (1): 本文研究背景为对话理解,传统的预训练模型无法捕捉到对话中的动态、非结构化、不连续的语义信息,所以需要提出新的方法来解决这一问题。

  • (2): 过去的方法多数使用特殊的标记来增强对话理解,但需要额外的预训练阶段,计算成本大,而本文提出的方法无需此阶段;在多轮对话理解任务上,本文的模型在三项任务(关系抽取、情感识别和动作分类)上均取得了最新的准确率并且大幅提高了模型的性能。

  • (3): 本文提出了一种基于特殊标记和层次化建模的对话理解的新方法,HiDialog。模型首先在对话中插入多个特殊标志,然后提出“转向级别的关注”来在层次上学习并整合单调的嵌入向量,最后使用异构图模块来优化所学习到的向量。

  • (4): 本文选择了三种任务:对话关系抽取、对话情感识别和对话动作分类。与其他方法相比,本文方法在这三个任务上均取得了最新的准确率。结果表明,HiDialog在多轮对话理解任务上取得了卓越的性能。而且,本文所提出的模型非常高效,并且无需额外的预训练阶段和数据集。

  • (5): 本文的研究动机是针对对话理解的研究,希望提出一种简单但有效的方法,来弥合自然语言处理领域中预训练和领域微调之间的差距。

Paper:17

  1. Title: Reconstructing seen images from human brain activity via guided stochastic search

             2. Authors: Reese Kneeland, Jordyn Ojeda, Ghislain St-Yves, Thomas Naselaris
    
             3. Affiliation: Reese Kneeland (明尼苏达大学计算机科学系), Jordyn Ojeda (明尼苏达大学计算机科学系), Ghislain St-Yves (明尼苏达大学神经科学系), Thomas Naselaris (明尼苏达大学神经科学系)
    
             4. Keywords: decoding, vision, generative models, diffusion models, fMRI
    
             5. Urls: arXiv:2305.00556v1, Github: None
    
             6. Summary:
    
             - (1): 本文研究背景是如何通过脑部活动重建视觉图像。
    
             - (2): 过去的重建方法通过在大量的库中进行暴力搜索来选择候选图像,而本文提出使用条件生成扩散模型来扩展和改进此搜索策略。此外,本文还发现不同的视觉皮层区域收敛时间的差异对应了不同的表示多样性。该方法在解决耗时和非常困难的神经科学问题上有着显著的应用前景。
    
             - (3): 本文提出使用条件生成扩散模型进行图像重建。通过从视觉皮层的所有体素上解码语义描述符,然后在此描述符上对本地像素进行条件扩散采样,最后通过编码器模型对每个样本进行评分,选择最佳重建图像,以此迭代生成高质量的视觉重建图像。
    
             - (4): 本文方法可以通过脑部活动重建视觉图像,并显示其可信度高于过去的搜索方法。
    
             - (5): 本文的研究动机是通过脑部活动解码图像来理解视觉认知。该方法在解决耗时和非常困难的神经科学问题上有着显著的应用前景。
    

Paper:18

  1. Title: Towards Computational Architecture of Liberty: A Comprehensive Survey on Deep Learning for Generating Virtual Architecture in the Metaverse (面向“自由”的计算体系结构:元宇宙中基于深度学习生成虚拟建筑的全面调查)

  2. Authors: Anqi Wang, Jiahua Dong, Jiachuan Shen, Lik-Hang Lee, and Pan Hui.

  3. Affiliation: Emerging Interdisciplinary Areas, Hong Kong University of Science and Technology (香港科技大学跨学科新兴领域), China

  4. Keywords: Deep Learning, virtual environment, architectural design, computational architecture, 3D shape generation, 3D-aware image synthesis, human-computer interaction, metaverse.

  5. Url: https://dl.acm.org/doi/10.1145/3233085. New code link not available.

  6. Summary:

  • (1): 该文章的研究背景为探究深度生成模型(DGMs)如何应用于生成元宇宙中的虚拟建筑和计算体系结构。

  • (2): 文章总结了通过深度学习进行3D形状生成的技术,特别关注对3D对象生成的各种方法进行比较,如生成对抗网络(GANs)、变分自编码器(VAEs)、3D感知图像以及扩散模型等。同时还讨论了真实世界中的虚拟建筑、计算技术等相关主题。文章重点关注了离散体素生成、从2D图像生成3D模型以及有条件的参数等主题,并指出应进一步研究3D生成和参数化控制等方面。文中提出的方法应该具有很好的实际应用意义。

  • (3): 文章通过收集、分析、总结,了解了目前深度生成模型用于虚拟建筑生成的最新动态,并提出了从数据限制、可编辑性、评估指标和人机交互等角度进行探究的研究议题,并提出了对于未来方法的相关建议。

  • (4): 本文介绍的3D形状生成的技术能够通过深度学习应用于虚拟建筑设计,以及如何从2D图像生成3D模型,具有很大的潜力。文章强调未来应该关注生成和参数控制等方面的研究。

  • (5): 该文章的研究动机是探索在元宇宙中应用深度生成模型来生成虚拟建筑并为其提供计算体系结构的可能性,以及发现未来需要进一步研究的问题。

Paper:19

  1. Title: Diffusion Models for Time Series Applications: A Survey(时间序列应用的扩散模型:一项调查)

  2. Authors: Lequan Lin, Zhengkun Li, Ruikun Li, Xuliang Li, and Junbin Gao

  3. Affiliation: Discipline of Business Analytics, The University of Sydney Business School(悉尼大学商学院商业分析学科)

  4. Keywords: Diffusion models, Time series applications, Deep learning, Generative models, Forecasting, Imputation, Generation

  5. Url: Arxiv, Github: None

  6. Summary:

  • (1):本文主要研究的是基于深度学习的扩散模型在时间序列应用上的探索。
  • (2):研究过去的方法,探索了它们存在的问题以及提出新方法的动机,并阐述了新方法的可行性。扩散模型被广泛用于图像,视频,自然语言处理等真实场景,但是在时间序列预测方面的研究相对较少。
  • (3):该方法使用深度学习中的扩散模型建立时序预测、插值和生成的框架,并提出了改进方法。
  • (4):该方法在时间序列预测、插值和生成方面的表现均超越了传统方法,并且得到了良好的效果以支持其目标。
  • (5):该研究对于众多应用场景的时间序列预测和生成具有重要的意义,同时为新研究者提供一些宝贵的参考资源。

Paper:20

  1. Title: ArK: Augmented Reality with Knowledge Interactive Emergent Ability

             2. Authors: Qiuyuan Huang, Jae Sung Park, Abhinav Gupta, Paul Bennett, Ran Gong, Subhojit Som, Baolin Peng, Owais Khan Mohammed, Chris Pal, Yejin Choi, Jianfeng Gao 
    
             3. Affiliation: Microsoft Research, Redmond (微软研究院) 
    
             4. Keywords: augmented reality, knowledge transfer, scene generation, interactive AI 
    
             5. URL: arXiv:2305.00970v1 [cs.CV] 1 May 2023, Github: None 
    
             6. Summary:
             - (1): 本文研究基于知识转移的增强实境建模,在无法预先收集大量数据用于训练时如何将通用基础模型中的知识迁移到新领域或场景中。 
    
             - (2): 以往的方法需要针对每个新任务部署AI代理程序来收集大量数据进行模型训练,这一过程在许多领域中成本高昂或不可能完成。本文中提出了一种无限代理程序,通过知识转移实现了在物理或虚拟世界中场景的理解和生成。 
    
             - (3): 本文提出了一种新型的增强实境技术,称之为“ArK”,该技术利用知识记忆在未知的物理世界或虚拟现实环境中生成场景。实现了交互式地在多模态模型中收集大量相关知识-记忆数据,并在混合现实环境中改进交互行为以满足不同的角色、目标变量、协作信息等需求。 
    
             - (4): 本文在场景生成和编辑任务上验证了ArK方法的有效性,展示了与基准线相比,ArK方法结合大型基础模型显著提高了生成的2D/3D场景的质量。这表明了在生成AI中结合ArK的潜在益处,可用于元宇宙和游戏模拟等应用。 
    
             - (5): 本文的研究动机在于探索如何减少人工成本和提高场景生成质量,以实现增强实境技术的广泛应用。
    

Paper:21

  1. Title: SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support

  2. Authors: Huachuan Qiu, Hongliang He, Shuai Zhang, Anqi Li, Zhenzhong Lan

  3. Affiliation: 浙江大学 (Zhejiang University)

  4. Keywords: deeplearning, NLP, mental health support, ChatGPT, dialogue systems

  5. URLs: Paper - arXiv:2305.00450, Github- https://github.com/qiuhuachuan/smile

  6. Summary:

  • (1): 本文的研究背景为如何使用对话系统提供心理健康支持。

  • (2): 过去的方法包括crowd-sourcing conversations,crawling QA等,但都存在成本高和难以获取真实数据的问题。本文提出了使用ChatGPT进行单轮对话扩展的方法SMILE,通过扩展已有的单轮对话生成多轮对话数据集。

  • (3): 该文的方法称为SMILE( Single-turn to Multi-turn Inclusive Language Expansion),使用ChatGPT对已有的公共单轮对话生成多轮对话数据集。

  • (4): SMILE方法生成的数据集被用于生成对话系统SMILECHAT,用于提供情感支持和建设性建议。研究通过对生成数据集和未使用SMILE方法的数据集进行对比分析,证明SMILE方法生成的数据集效果更佳,覆盖范围更广,包含了多轮对话的话题和语义特征。

  • (5): 本文主要为了解决获取真实、良好质量多轮对话数据集不易的问题。通过SMILE方法扩展单轮对话,从而节省成本,用更少的数据生成更加真实的多轮对话数据集,提供更加准确的心理健康支持。

Paper:22

  1. Title: Class-Balancing Diffusion Models Supplementary Materials

  2. Authors: Xizhou Zhu, Chuhang Zou, Yi Yang

  3. Affiliation: 中山大学 (Sun Yat-sen University)

  4. Keywords: Deep Learning, Diffusion Models, Class-Imbalanced Data, Data Generation

  5. Urls:

  1. Summary:
  • (1): 近年来,扩散模型已经显示了在保持多样性方面生成高质量视觉数据的优势。然而,这样的观察结果只适用于数据分布被精心处理为在其标签方面均匀分布的情况。在实践中,长尾数据分布似乎更为普遍,而扩散模型在这样的类不平衡数据上的表现仍然未知。

  • (2): 过去的方法包括控制扩散方程,改变算法损失函数或调整数据分布。但是这些方法并没有考虑关于调整数据分布的先验知识,将“类平衡”作为哈希目标来被强制执行。作者提出的方法可以极大地改善数据长尾分布的问题。该方法是基于扩散模型,并将平衡类别作为模型的约束条件,以提高模型的生成能力。

  • (3): 本文中提出了基于类别平衡的扩散模型(Class-Balancing Diffusion Models,CBDM),旨在生成与原始数据分布相似的样本,同时增加类别的平衡程度。该方法是通过添加分布调整正则化器来训练的,它可以根据标签分布自适应调整数据分布。

  • (4): 该方法在 CIFAR100 和 CIFAR100LT 数据集上进行了测试,结果显示,在长尾数据分布上,CBDM 的生成多样性和质量都优于其他方法。在识别任务上,CBDM 也比其他方法表现更好。实验结果表明,CBDM 可以在保持数据多样性和提升类别平衡性方面达到良好的效果。

  • (5): 本文的研究动机是探索类不平衡数据生成的问题,并提出了更好的方法进行数据生成。该方法通过平衡数据集中不同类别的样本数量,可以更好地应对实际中存在的长尾分布数据。

Paper:23

  1. Title: PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

  2. Authors: Jingqing Zhang, Yao Zhao, Mohammad Saleh, Peter J. Liu

  3. Affiliation: 本文第一作者所属机构未提及

  4. Keywords: deeplearning, NLP, Abstractive Summarization, Pre-training, PEGASUS

  5. Urls: Paper: https://dl.acm.org/doi/pdf/10.5555/3524938.3525989 Github: None

  6. Summary:

  • (1):本文研究的背景为文本摘要生成,其中抽象摘要生成是该领域的前沿和挑战,因为它需要生成有意义和连贯的文字描述。
  • (2):过去的方法主要包括传统的基于规则、基于图和基于词汇的方法,但这些方法存在着一些问题,如需要手动设计规则、生成质量不高或程序过于复杂等。本文提出的预训练抽象摘要生成框架是建立在最新的自然语言处理研究进展之上,激发了新的研究范式。
  • (3):本文提出的框架基于Transformer结构,使用扩展的预测间隙训练和处理间隙文本作为输入。在此框架下,本文还设计了一个预训练任务:文本填充。通过大量的无监督学习,预训练模型可以学习到通用的语义表达和摘要生成能力。
  • (4):本文对PEGASUS模型在CNN/Dailymail、New York Times和ROTTEN TOMATOES等数据集上进行了实验验证,在ROUGE评估方面取得了优秀的性能,如ROUGE-1/F1分别为46.04/50.85、39.89/43.37和48.41/51.84。相关结果表明,本文提出的PEGASUS模型在生成质量、效率和稳定性等方面有很大的优势。
  • (5):本文的研究动机是为了改进当前的自动文本摘要技术,提高文本摘要质量,减少人力投入和时间成本。

Paper:24

  1. Title: ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations (基于ChatGPT的句子级关系评估:重点关注时间,因果和话语关系)

  2. Authors: Chunkit Chan, Jiayang Cheng, Weiqi Wang, Yuxin Jiang, Tianqing Fang, Xin Liu, Yangqiu Song

  3. Affiliation: 香港科技大学计算机科学及工程系

  4. Keywords: ChatGPT, 语言模型, 句子级关系, 时间关系, 因果关系, 话语关系

  5. Urls: Paper Url: https://arxiv.org/abs/2304.14827v1

    Github: None

  6. Summary:

  • (1): 本文研究的背景是大语言模型在处理时间,因果和话语关系等句子级关系方面的表现和挑战。

  • (2): 文章介绍了过去的研究方法和问题,并分析了ChatGPT模型的优点和不足。作者提出了三种模板用于建立模型的初始基线分数,以实现可靠的结果。

  • (3): 作者提出了一种语言模型评估方法,针对时间关系,因果关系和话语关系等句子级关系的各种任务建立了三种模板,包括零-shot模板,零-shot prompt engineering (PE) 模板和in-context learning (ICL) 模板。

  • (4): ChatGPT模型在检测和推理因果关系方面表现强劲,并且对于带有显式话语连接的话语关系识别能力良好,但是对于结构性话语理解的任务表现不佳。同时,对于两个事件之间的时间顺序识别能力有一定不足。

  • (5): 本文的研究动机是为了更好地评估ChatGPT模型在句子级关系任务上的表现,特别是时间、因果和话语关系,以便更好地应用于下游任务中。

Paper:25

  1. Title: Search-in-the-Chain: Towards the Accurate, Credible and Traceable Content Generation for Complex Knowledge-intensive Tasks

  2. Authors: Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng, Tat-seng Chua

  3. Affiliation: 中国科学院计算技术研究所数据智能系统研究中心

  4. Keywords: Large Language Model, Search-in-the-Chain, Multi-hop Question Answering, Information Retrieval, Accuracy, Credibility, Traceability

  5. Urls: https://arxiv.org/abs/2304.14732

  6. Summary:

  • (1): 本文研究了如何提高多跳问答任务中,由大型语言模型(LLMs)所生成内容的准确性、可信度和可追溯性。

  • (2): 过去的方法主要是直接采用大型语言模型来回答多跳问题,但存在准确性和可信度较低的问题。因此,本文提出了一种新的框架——Search-in-the-Chain,利用信息检索(IR)来辅助大型语言模型,提高问答内容的准确性和可信度。

  • (3): Search-in-the-Chain框架包括两个主要组成部分:大型语言模型和信息检索。大型语言模型利用信息检索中的IR-oriented query构建一条查询链(chain-of-query),IR则负责验证、完善和追踪链中每个节点的信息,并向大型语言模型提供未知知识,以确保生成答案的准确性。

  • (4): 本文使用四个多跳问答数据集进行了实验,表明Search-in-the-Chain相对于其他基准方法具有更好的表现,并且能够区分生成文本中来自大型语言模型和信息检索的知识。

  • (5): 本文的动机在于提高大型语言模型在复杂知识密集型任务中生成的答案的准确性、可信度和可追溯性。