Paper:JarxiV
title: JarviX: A LLM No code Platform for Tabular Data Analysis and Optimization
authors: Shang-Ching Liu, ShengKun Wang, Wenqi Lin, Chung-Wei Hsiung, Yi-Chen Hsieh, Yu-Ping Cheng, Sian-Hong Luo, Tsungyao Chang, Jianwei Zhang
year: 2023
摘要
JarviX提供了一个复杂的数据分析框架,利用LLM促进表格数据集的自动引导和高精度数据分析。提供简洁的数据洞察摘要、提出相关分析问题、有效可视化数据,并为结果提供全面解释。
引言
当前研究焦点是各种任务的评估,但缺少为下有应用提供记过话和框架的学术资{1}。大模型能力尚未达到庄家水平{2}。
主要工作:提出一种将LLM用于表格数据分析的全面方法,特别是非专业人员利用LLM进行高级数据分析。
实现:将H2O-AutoML定制的AutoML管道集成。
主要目标:通过微调和AutoML,使用户具备利用LLM进行基于规则的数据分析的知识和工具。
相关工作
- 数据分析的自然语言接口。比如IBM、Power BI、Tableau、Spreadsheet
- LLM在高级数据分析中的应用。比如Text2SQL的性能评估、Sprider基准测试上77.3%准确率、SQL生成可视化。需求:填补空白,对于现实世界应用中的实际解决方案,提供更高级的API并集成LLM。
- 外部知识整合。比如隐私数据、训练数据过时。已有方案(LangChain不断嵌入最新数据并从其他数据库检索相关信息;llama_index提供更机构化嵌入级别的方案来检索和查询相关信息(最新事实、关系数据))。
概述
JarviX一个用于高效分析和优化表格数据的无代码平台,处理结构化(比如csv、dataframes)和非结构化(比如text、audio)类型{图1}。比如:结构化数据进行数据类型检测、统计计算和相关性分析,然后存储在Postgres数据库中;非结构化数据文本提取和嵌入管理,存储在向量数据库(比如Elastic Search)。
与平台交互的三个关键功能:JarviX Insight、自然语言接口、JarviX Guidance。JarviX Insight收集结构化数据信息(比如列名、类型、统计数据)并生成数据总结报告。用于了解数据并确定关键问题;自然语言接口提供数据查询输入方式(比如audio、text)通过微调的大模型转换输入为基于规则的系统。用于提供数据可视化、解释和后续问题的建议。JarviX Guidance逐步分析数据(考虑数据集的理解、角色、特定数据集、分析的目标列),预测用户首要问题并生成结果,记录分析中间结果。用于可保存、共享的综合报告。
系统分解
总共分为5个部分:数据输入方法、JarviXInsight、问题匹配器、分析顾问、LLM提示工程。数据输入方法中有3种结构化数方法(SFTP、数据库连接、CSV上传)和1种非结构化数据(上传)。另外有1个自动数据清理的接口(比如自动类型检测、列统计计算、列相关矩阵计算)进行对结构化数据预处理,非结构化数据用llama hub的各种连接器提取文本,然后存储在Faiss向量数据库中,分配结构化数据相同项目ID。用于无缝集成和检索结构化和非结构化数据。JarviX Insight {图1、3}激活两个过程,首先采用预处理提示确定数据的性质,另外生成十个最相关问题。用于有效理解数据、潜在可视化算结果、创建总结文本。问题匹配器用SQL将将自然语言接口的问题链接到相应关键模块,依赖三种类型关键字(列名相关术语、限制性短语、算法和模块关键字)将相关列组合并根据第三种相关字匹配算法和模块。分析顾问 {图1}手动选择有兴趣的列进行探索得到第一个查询的全面结果(可视化、支持下解释的见解、后续潜在查询的提示)。LLM提示工程有两阶段过程{图4}(手动生成提示、反馈循环优化提示),持续进行提示优化指导满足预期结果的性能标准。进行了实验测试,比如正态性测试、预测、比较、根因分析、异常检测和关系提取等。比较现有提示工程技术
案例研究
提供2个案例展示:JarviX Insight与太阳能电池制造、JarviX Guidance与LCD工出数据分析。
JarviX Insight {图2}生成报告大致了解数据集(数据主题、最有价值的查询),然后利用“问题匹配”功能形成一般查询{图5}并经输入转换为基于规则的系统可识别的关键字,用AutoML管道简化训练机器学习模型(只需定义数据源、数据集、目标列、性能指标)即可生成模型{图6}。JarviX Guidance指导JarviX新手完成分析{图7}描述数据表格内容、概述我们的目标和角色。{图8}将前面的差异分析回顾,形成一个总结报告。
总结
集成LLM和AutoML技术(案例分析1),提供表格数据分析的全面方法,集成非结构化数据生成见解。
未来工作
改进的4个方面:微调LLM改进个性化推荐、扩展支持的数据类型、查询类别范围、用户界面。
伦理考虑和局限性
上下文响应。比如位置、语言偏差