Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

arXiv-2023/10-Table-GPT: Table-tuned GPT for Diverse Table Tasks #368

Open
BrambleXu opened this issue Oct 16, 2023 · 0 comments
Open

arXiv-2023/10-Table-GPT: Table-tuned GPT for Diverse Table Tasks #368

BrambleXu opened this issue Oct 16, 2023 · 0 comments
Assignees
Labels
LLM(M) Large language models

Comments

@BrambleXu
Copy link
Owner

Summary:

  • 📄 概述
    • GPT-3和ChatGPT等语言模型展示出色的能力来遵循多样的人类指令并执行各种任务。
    • 今天的语言模型在表相关任务中仍然不够优秀,可能因为它们主要在一维自然语言文本上进行预训练,而关系表是二维对象。
    • 提出一种新的“表调整”范例,继续训练/微调GPT-3.5和ChatGPT等语言模型,使用合成自真实表格的多样化表格任务作为训练数据,以增强语言模型理解表格和执行表格任务的能力。

Resource:

  • pdf

  • [code](

  • [paper-with-code](

  • 🧪 方法

    • 开展广泛实验,表明“表调整”是一种有前途的新方向。
    • 表调整产生的Table-GPT模型具有强大的表格模型性能,在广泛的已知和未知表格任务上明显优于175B GPT-3.5和ChatGPT。
    • 这些模型具有通用性,能够对新的表格任务做出良好响应,类似于GPT-3.5和ChatGPT对新的自然语言处理任务的响应。
  • 🔍 今日语言模型的局限性

    • 今天的语言模型在“可靠地阅读表格”方面尚存在问题。
    • 自然语言文本和关系表有很大差异,导致现有的语言模型在“读取”二维表格时表现不佳,尤其是在垂直方向。
    • 通过测试表明,现今的大型语言模型不能可靠地“读取”二维表格。
  • 📊 任务划分和基准

    • 介绍两种简单的测试以评估语言模型对表格的基本阅读和理解能力。
    • 列出示例表格任务,强调语言模型在垂直方向理解表格的重要性。
  • 💡 提案

    • 指出在自然语言处理中改变语言模型行为的成功尝试,引入“指令调整”技术。
    • 提出类似于“指令调整”的“表调整”方法,以提高语言模型理解表格和执行表格任务的能力。
  • ⚙️ 先决条件

    • 回顾语言模型的两种流行类型:编码器式和解码器式。
    • 解释编码器式语言模型在特定任务上的微调限制,以及解码器式语言模型的通用性和适用性。- 📊 编码器风格的语言模型用于表格任务
  • 🧪 长期而富有成果的研究(例如 TURL [16],TaBERT [64],Ditto [32] 和 Doduo [48])

  • 📚 表格模型基于 BERT 类模型,在各种表格任务上表现良好

  • 🎯 表格模型应该“泛化”到新数据集和新任务

  • 💡 文本到表格:通用表格模型应该像 ChatGPT 一样通用,能够按照指示执行新的看不见的表格任务

  • 🔄 解码器风格的语言模型用于表格任务

  • 🛠 与优化提示不同,我们提出的“表格调整”探索不同方向

  • 💼 表格调整目的是在一次训练后,改进模型在一系列表格任务上的性能

  • ⚖️ 表格调整是提示工程的补充,可以同时受益于仔细设计的指示和示例

  • ⚙️ 对比指示调整,我们的表格调整改进了模型理解表格和执行表格任务的能力

  • 📈 目标是在 Table-GPT 中实现“最佳效果”,具有泛化能力和良好的表格任务性能

  • ❓ 语言模型能“读取”表格吗?

  • 📝 一维(文本)与二维(表格):语言模型主要基于自然语言文本和编程代码进行预训练,而表格是二维的,读取方式不同

  • 🧩 让语言模型理解表格是具有挑战性的,特别是在列方向上

  • 🧭 顺序敏感(文本)与排列不变(表格):自然语言文本常常是顺序敏感的,而表格则常常是排列不变的

  • 🌐 表格不同于文本,可能使语言模型在表格应用中表现不理想

  • 🛠 为 Table-GPT 提出了表格调整方法

  • 💡 总体方法:综合然后增强

  • 🗂 提出了“表格任务”的定义,包括指令、表格和完成的多样组合

  • 📄 汇总了 18 个与表格相关的任务,用于调整 GPT 为 Table-GPT- 💡 先前的研究显示,“(指令,完成)”配对的质量至关重要[40, 50],以至于公司聘请大量人工标记员手动标记此类数据(例如指令:“写一个熊去海滩的寓言故事”,完成:“实际带有熊的故事”)[40],以确保训练数据的质量和多样性。

  • 💡 我们希望在表格领域复制指令调整的成功,但理想情况下不需要昂贵的人工标注。重用现有基准数据:多样性不足。

  • 💡 一种生成表格任务的方法是使用数据库文献中发布的现有基准数据(自然语言处理文献中也进行了类似尝试[59])。然而,我们发现现有基准数据存在以下问题:(1)任务多样性有限:因为文献往往侧重于少数几个难度较大的表格任务(例如实体匹配和数据转换);(2)数据多样性有限:因为基准数据通常由研究人员手动标记,仅适用于少数特定数据集,这对于基准评估目的足够,但当我们想将它们用作语言模型的“训练数据”时则不足够。我们尝试仅使用现有基准数据进行表格调整会导致过拟合,因为缺乏任务和数据的多样性。

  • 💡 Table-GPT: 用于多样化表格任务的表格调整GPT。会议’17,2017年7月,华盛顿特区,美国。算法1:为表格调整合成表格任务。输入:多样化实际表格语料库C,表格任务类型集合S。输出:多样化合成的表格任务A = {(Ins,T,C)}。

  • 💡 我们的方法:先合成再增强。因此,我们提出了一种“先合成再增强”的方法,使用实际表格创建多样化的表格任务,可以用作调整语言模型的训练数据。我们在算法1中展示了我们的合成-增强方法的主要步骤。首先,我们从大型实际表格语料库C中对表格T和表格任务类型S进行采样。从(T,S)对中,我们合成表格任务的实例t =(Ins,T,C)(第3行),这是我们将在第4.2节中详细讨论的任务合成步骤。然后,我们从创建的多样化表格任务实例(Ins,T,C)中进行“增强”任务,包括指令/表格/完成级别(第6-8行),这是我们将在第4.3节中描述的步骤。生成的表格任务A = {(Ins',T',C')}成为我们用于调整语言模型的训练数据。

  • 💡 4.2 合成多样化的表格任务。我们现在描述如何合成多样化的表格任务实例t =(Ins,T,C)(算法1的第3行),以便锻炼语言模型理解二维表结构的能力。我们提出了两种互补的方法:(1)为任务多样性合成新的表格任务,(2)为数据多样性合成现有表格任务的新测试用例。我们将分别讨论每个方法。- ⚙️ 从 𝑡 ⊂ 𝑇 中生成多样化的表任务

  • ⚙️ 通过𝑃(𝐶𝑖𝑛) = 𝐶𝑜𝑢𝑡确保在𝑇的所有行中保持

  • ⚙️ 从𝑇中随机移除一个值𝑣 ∈ 𝐶𝑜𝑢𝑡,生成测试表𝑇−𝑣

  • ⚙️ 综合任务 𝑅2𝑅(𝑇) 以推断变换并填补缺失的𝑣以生成𝑇

  • ⚙️ 通过模式匹配(T-7)生成新的模式匹配测试用例

  • ⚙️ 从𝑇采样𝑘行以生成𝑇1,采样𝑘+1到2𝑘行以生成𝑇2

  • ⚙️ 对𝑇2中的列标题进行“释义”并重排列列以生成测试用例

  • ⚙️ 对𝑇1和𝑇2的列进行洗牌,生成模式匹配测试用例

  • ⚙️ 为数据插补生成测试表 𝑇−𝑣 并预测缺失的𝑣

  • ⚙️ 生成含有可能的印刷错误的修改后𝑇的错误检测任务

  • ⚙️ 从𝑇中提取列表数据而不含明确列分隔符的提取任务

  • ⚙️ 在指令级别进行增强,使用生成模型对指令进行重述

  • ⚙️ 在表级别进行增强,通过列/行重排列和采样增加表的多样性

  • ⚙️ 在完成级别进行增强,为复杂表任务生成推理步骤

  • ⚙️ 使用原始任务的完成和地面实况生成推理步骤

  • ⚙️ 进行额外的增强,包括模板级增强和任务级增强

  • ⚙️ 使用表任务进行模型调优,创建更好的“表基础模型”- 📊 评估了表格调整的效益

  • 🏢 通过对比不同模型进行测试任务和数据

  • 🔄 对4个未见过的任务进行了测试(T-1 到 T-4)

  • 🌐 使用不同来源的数据进行了测试,确保分离性

  • 📚 对5个已知任务进行了评估

  • 💡 合成表格任务进行了测试

  • 🧪 使用现有基准数据进行了评估

  • 📈 比较了 GPT-3.5 和 Table-GPT-3.5 的整体质量改善

  • 📈 比较了 ChatGPT 和 Table-ChatGPT 的整体质量改善

  • 🏗️ 展示了表格调整模型在各种表格任务上的强大性能

  • 💡 研究了在特定任务优化方面的效益- 📊 比较表现

  • 📊 平均性能

  • 📊 前5

  • 📋 提示模板

  • 🧪 GPT-3.5

  • 🧪 Table-GPT-3.5

  • 🔢 图表10:提示工程的质量比较,基于Efthymiou数据集的5个最佳提示模板

  • 📈 敏感性分析

  • 📈 任务数量变化对平均性能的影响

  • 📈 训练数据规模的变化对平均性能的影响

  • 📈 基模型规模的变化对平均性能的影响

  • 📈 提示模板变化对平均性能的影响

  • 📈 表格格式变化对性能的影响

  • 📊 表格5:使用不同表格格式时Table-GPT-3.5的性能

  • 📊 表格6:表格调整的割除研究

  • 📈 数据大小对平均性能的影响

  • 📈 模型大小对平均性能的影响

  • 📈 提示模板对平均性能的影响

  • 🚫 无完成级别增强(无思维链)

  • 🛑 没有任务级别增强(未合成任务)

  • 🛑 没有表级别增强(无列排列)

  • 🛑 没有指令级别增强(无提示变体)

  • 🛑 没有链式思维

  • ✍ 结论与未来工作

  • 📚 参考文献- 📊 数据转换脚本的可视化规范 [28]

  • 🧪 大型语言模型是翻译质量的最先进评估器 [29]

  • 🗃️ 使用 ChatGPT 进行列类型注释 [30]

  • 💡 评估数据集发现的匹配技术 [31]

  • 🔄 使用指令反向翻译实现自对齐 [32]

  • 🧩 使用预训练语言模型进行深度实体匹配 [33]

  • 🔍 自动构建 BI 模型的自动 BI [34]

  • 🤝 使用 ChatGPT 进行实体匹配 [43]

  • 🔍 为问题回答搜索表格单元 [49]

  • 🖋️ 训练语言模型遵循指令 [50]

  • 📊 支持数据集成中的匹配任务的统一多任务模型 [51]

  • 🔍 通过检测行和类型模式整理混乱的 CSV 文件 [52]

  • 🏋️‍♂️ 在文本和表格数据的联合理解上进行预训练 [64]

  • 📝 复杂跨领域语义解析和文本到 SQL 任务的大规模人工标注数据集 [65]

  • 🔄 使用预训练深度模型和迁移学习进行端到端模糊实体匹配 [66]

  • 📈 更少即更多的对齐 [67]{"answer": "China"}Input:

  • Column Headers: AcademicJournal Airport Book Building City Film Mammal Newspaper Plant PoliticalParty Scientist SportsTeam

Table:

|Name| 
|---| 
|Wells Fargo Tower| 
|Regions-Harbert Plaza| 
|AT&T City Center| 
|Regions Center| 
|City Federal Building| 
|Alabama Power Headquarters Building| 
|Thomas Jefferson Tower| 
|John Hand Building| 
|Daniel Building|

Output:

{"chosen_column_headers": ["Building"]}
```Completion:  {"table": "|ProductID|Month|TargetSale|\n|---|---|---|\n|1|6|50|\n|1|7|60|\n|1|8|70|\n|2|9|80|\n"}
- [📊] 数据目标销售
  - 产品ID: 1, 月份: 6, 销售目标: 50
  - 产品ID: 1, 月份: 7, 销售目标: 60
  - 产品ID: 1, 月份: 8, 销售目标: 70
  - 产品ID: 2, 月份: 6, 销售目标: 40
  - 产品ID: 2, 月份: 7, 销售目标: 50
  - 产品ID: 2, 月份: 8, 销售目标: 60
  - 产品ID: 3, 月份: 6, 销售目标: 30
  - 产品ID: 3, 月份: 7, 销售目标: 40
  - 产品ID: 3, 月份: 8, 销售目标: 50
  - 产品ID: 4, 月份: 6, 销售目标: 30

- [🏈] 2015年FF得分排名
  - 排名1: Cam Newton, 得分: 389.1, 比赛场次: 16, 平均得分: 24.3
  - 排名2: Tom Brady, 得分: 343.7, 比赛场次: 16, 平均得分: 21.5
  - 排名3: Russell Wilson, 得分: 336.4, 比赛场次: 16, 平均得分: 21.0
  - 排名4: Blake Bortles, 得分: 316.1, 比赛场次: 16, 平均得分: 19.8
  - 排名5: Carson Palmer, 得分: 309.2, 比赛场次: 16, 平均得分: 19.3
  - 排名7: Aaron Rodgers, 得分: 301.3, 比赛场次: 16, 平均得分: 18.8
  - 排名8: Kirk Cousins, 得分: 293.5, 比赛场次: 16, 平均得分: 18.3
  - 排名9: Matthew Stafford, 得分: 289.7, 比赛场次: 16, 平均得分: 18.1
  - 排名10: Eli Manning, 得分: 287.6, 比赛场次: 16, 平均得分: 18.0

- [🔍] 实体匹配
  - 第一化妆品与第二化妆品不同实体,价格和颜色不同。

- [🛒] 实体匹配 (Few-Shot)
  - 化妆品I与化妆品II为不同实体,具有不同的价格、颜色和描述。

- [✍] 数据填充 (Zero-Shot)
  - "A.D.I.D.A.S."的选项内容为 "False"。

- [✍] 数据填充 (Few-Shot)
  - 选项内容为 "False"。

- [📈] 行/列排序 (Zero-Shot)
  - 根据 "Gauge" 列以字母升序排序。

- [📈] 行/列排序 (Few-Shot)
  - 根据列标题以字母降序排序。
Summarized by https://chrome.google.com/webstore/detail/cbgecfllfhmmnknmamkejadjmnmpfjmp
@BrambleXu BrambleXu self-assigned this Oct 16, 2023
@BrambleXu BrambleXu added the LL(M) Lifelong Learning&Continual Learning Model label Oct 16, 2023
@BrambleXu BrambleXu added LLM(M) Large language models and removed LL(M) Lifelong Learning&Continual Learning Model labels Jan 27, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
LLM(M) Large language models
Projects
None yet
Development

No branches or pull requests

1 participant