需求人群:
["数据科学家:可以快速对大量数据进行分类和清洗,以便于进一步分析。","开发人员:能够集成到应用程序中,自动化数据预处理流程。","企业用户:通过自动化数据清洗,提高数据处理效率,降低成本。"]
使用场景示例:
社交媒体评论的分类和情感分析。
新闻文章的自动归档和主题分类。
客户反馈数据的整理和提取,用于产品改进。
产品特色:
数据分类:使用LLMs将数据分入预定义的类别。
数据转换:通过提示对数据进行转换。
数据提取:根据模式将数据提取成结构化格式。
批量处理:节省令牌,通过只发送一次模式和示例来分类一批数据。
重试逻辑:内置重试逻辑,用于处理API相关错误。
进度条:在处理大量数据时提供进度反馈。
自动批处理:自动调整批处理大小以最优化令牌使用和错误处理。
使用教程:
1. 安装databonsai库。
2. 在项目根目录下创建一个包含API密钥的.env文件。
3. 设置LLM提供程序和类别。
4. 使用categorize函数对单条数据进行分类。
5. 使用categorize_batch函数对数据批量进行分类。
6. 使用apply_to_column_autobatch函数对DataFrame或列表进行自动批处理。
7. 监控进度条以了解当前处理进度。
8. 在遇到错误时,根据需要调整批处理大小或使用更好的LLM模型。
浏览量:72
最新流量情况
月访问量
5.16m
平均访问时长
00:06:42
每次访问页数
5.81
跳出率
37.20%
流量来源
直接访问
52.27%
自然搜索
32.92%
邮件
0.05%
外链引荐
12.52%
社交媒体
2.15%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
11.99%
德国
3.63%
印度
9.20%
俄罗斯
5.25%
美国
19.02%
使用大型语言模型(LLMs)进行数据清洗和整理的Python库。
databonsai是一个Python库,利用大型语言模型(LLMs)执行数据清洗任务。它提供了一系列工具,包括数据分类、转换和提取,以及对LLM输出的验证,支持批量处理以节省令牌,并且具备重试逻辑以处理速率限制和瞬时错误。
数据驱动的框架,增强大型语言模型的工作流编排能力
WorkflowLLM是一个以数据为中心的框架,旨在增强大型语言模型(LLMs)在工作流编排方面的能力。核心是WorkflowBench,这是一个大规模的监督式微调数据集,包含来自83个应用、28个类别的1503个API的106763个样本。WorkflowLLM通过微调Llama-3.1-8B模型,创建了专门针对工作流编排任务优化的WorkflowLlama模型。实验结果表明,WorkflowLlama在编排复杂工作流方面表现出色,并且能够很好地泛化到未见过的API。
O1复制之旅:战略进展报告第一部分
O1-Journey是由上海交通大学GAIR研究组发起的一个项目,旨在复制和重新想象OpenAI的O1模型的能力。该项目提出了“旅程学习”的新训练范式,并构建了首个成功整合搜索和学习在数学推理中的模型。这个模型通过试错、纠正、回溯和反思等过程,成为处理复杂推理任务的有效方法。
AI驱动的电子元件分类器,智能组件管理的终极解决方案。
Vanguard-s/Electronic-Component-Sorter是一个利用机器学习和人工智能自动化识别和分类电子元件的项目。该项目通过深度学习模型,能够将电子元件分为电阻、电容、LED、晶体管等七大类,并通过OCR技术进一步获取元件的详细信息。它的重要性在于减少人工分类错误,提高效率,确保安全性,并帮助视觉障碍人士更便捷地识别电子元件。
长视频语言理解的时空自适应压缩模型
LongVU是一种创新的长视频语言理解模型,通过时空自适应压缩机制减少视频标记的数量,同时保留长视频中的视觉细节。这一技术的重要性在于它能够处理大量视频帧,且在有限的上下文长度内仅损失少量视觉信息,显著提升了长视频内容理解和分析的能力。LongVU在多种视频理解基准测试中均超越了现有方法,尤其是在理解长达一小时的视频任务上。此外,LongVU还能够有效地扩展到更小的模型尺寸,同时保持最先进的视频理解性能。
检测并提取表格到Markdown和CSV格式的工具
Tabled是一个用于检测和提取表格的Python库,它使用surya来识别PDF中的表格,识别行列,并能够将单元格格式化为Markdown、CSV或HTML。这个工具对于数据科学家和研究人员来说非常有用,他们经常需要从PDF文档中提取表格数据以进行进一步的分析。Tabled的主要优点包括高准确性的表格检测和提取能力,支持多种输出格式,以及易于使用的命令行界面。此外,它还提供了一个交互式的APP,允许用户直观地尝试在图像或PDF文件上使用Tabled。
文本到图像生成的自适应工作流
ComfyGen 是一个专注于文本到图像生成的自适应工作流系统,它通过学习用户提示来自动化并定制有效的工作流。这项技术的出现,标志着从使用单一模型到结合多个专业组件的复杂工作流的转变,旨在提高图像生成的质量。ComfyGen 背后的主要优点是能够根据用户的文本提示自动调整工作流,以生成更高质量的图像,这对于需要生成特定风格或主题图像的用户来说非常重要。
突破大型语言模型限制的自动化框架
AutoDAN-Turbo是一个自动化的、无需人为干预的框架,旨在自动发现并实施多种策略,以突破大型语言模型(LLMs)的限制。该框架能够自动开发出多样的攻击策略,显著提高了攻击成功率,并且可以作为一个统一的框架整合现有的人为设计的越狱策略。AutoDAN-Turbo的重要性在于其能够提升LLMs在对抗环境中的安全性和可靠性,为红队评估工具提供了一种新的自动化方法。
先进的通用机器人代理
GR-2是一个先进的通用机器人代理,专为多样化和可泛化的机器人操作而设计。它首先在大量互联网视频上进行预训练,以捕捉世界的动态。这种大规模预训练涉及3800万视频剪辑和超过500亿个标记,使GR-2能够在随后的策略学习中跨广泛范围的机器人任务和环境进行泛化。随后,GR-2针对视频生成和动作预测进行了微调,使用机器人轨迹。它展示了令人印象深刻的多任务学习能力,在100多个任务中平均成功率达到97.7%。此外,GR-2在新的、以前未见过的场景中表现出色,包括新的背景、环境、对象和任务。值得注意的是,GR-2随着模型大小的增加而高效扩展,突显了其持续增长和应用的潜力。
多语言大型语言模型
Llama 3.2是由Meta公司推出的多语言大型语言模型(LLMs),包含1B和3B两种规模的预训练和指令调优生成模型。这些模型在多种语言对话用例中进行了优化,包括代理检索和总结任务。Llama 3.2在许多行业基准测试中的表现优于许多现有的开源和封闭聊天模型。
Excel中的Copilot,释放数据驱动的决策力。
Copilot in Excel是微软推出的一款集成在Excel中的智能助手,它通过自然语言处理和机器学习技术,帮助用户更高效地分析和理解数据。Copilot in Excel的主要优点包括简化数据格式化、自动化重复性任务、提供公式建议、执行条件格式化、进行数据分析和可视化等。它支持Python编程语言,使得用户无需具备专业的编程技能,也能进行高级数据分析。Copilot in Excel的推出,标志着数据分析和决策支持工具的重大进步,它将数据分析的门槛降低,使得更多非技术背景的用户也能轻松地从数据中获取洞见。
AI编程智能体语言,实现LLM与IDE之间的通信以自动化编程。
the Shire是一种AI编程智能体语言,旨在实现大型语言模型(LLM)与集成开发环境(IDE)之间的通信,以支持自动化编程。它起源于AutoDev项目,旨在为开发者提供一个AI驱动的IDE,包括DevIns,Shire的前身。Shire通过提供定制化的AI代理,使用户能够构建符合个人需求的AI驱动开发环境。
细粒度对象切割工具,用于精确编辑图像。
finegrain-object-cutter 是一个基于Hugging Face Spaces平台的图像编辑工具,它利用先进的机器学习技术来实现对图像中对象的细粒度切割。该工具的主要优点在于其高精度和易用性,用户可以通过简单的操作来实现复杂的图像编辑任务。它特别适合需要对图像进行精细处理的设计师和开发者,可以广泛应用于图像编辑、增强现实、虚拟现实等领域。
免费且快速的提示链生成器
PromptChainer 是一个旨在提高大型语言模型输出质量的工具,通过自动化提示链的生成,帮助用户将复杂任务分解成可管理的小步骤,从而获得更精确和高质量的结果。它特别适合需要多步骤和/或大量上下文和知识的任务。
世界顶尖的开源大型语言模型
Reflection Llama-3.1 70B 是目前世界上顶尖的开源大型语言模型(LLM),采用名为 Reflection-Tuning 的新技术进行训练,使模型能够检测其推理中的错误并进行修正。该模型在合成数据上进行了训练,这些数据由 Glaive 生成。对于正在训练模型的用户来说,Glaive 是一个非常出色的工具。该模型使用标准的 Llama 3.1 聊天格式,通过特殊的标签来区分模型的内部思考和最终答案,从而提升用户体验。
高效开源的大型语言模型
OLMoE-1B-7B 是一个具有1亿活跃参数和7亿总参数的专家混合型大型语言模型(LLM),于2024年9月发布。该模型在成本相似的模型中表现卓越,与更大的模型如Llama2-13B竞争。OLMoE完全开源,支持多种功能,包括文本生成、模型训练和部署等。
AI工程和研究的智能伴侣
MLE-Agent 是为机器学习工程师和研究人员设计的智能伴侣,具备自主创建基线、集成Arxiv和Papers with Code、智能调试、文件系统整合、综合工具集成以及交互式命令行聊天等功能。它支持OpenAI、Ollama等AI/ML功能和MLOps工具,为无缝工作流程提供支持。
使用ComfyUI节点实现图像分割的库
ComfyUI-segment-anything-2是一个基于segment-anything-2模型的图像分割库,它允许用户通过ComfyUI节点轻松实现图像分割功能。该库目前处于开发阶段,但功能已经基本可用。它通过自动下载模型并集成到ComfyUI中,为用户提供了一个简单易用的图像分割解决方案。
智能文件重命名工具
ai-renamer 是一个基于 Node.js 的命令行工具,利用 Ollama 和 LM Studio 模型(如 Llava, Gemma, Llama 等)智能地根据文件内容重命名文件。它支持视频、图片等多种文件类型,并且可以通过自定义参数来优化重命名过程。该工具使用户能够自动化文件管理,提高效率,尤其适合需要批量处理文件名的开发者和内容创作者。
低代码多代理系统框架
Praison AI 是一个低代码的集中式框架,旨在简化各种大型语言模型(LLM)应用的多代理系统的创建和编排。它强调易用性、可定制性和人机交互。Praison AI 利用 AutoGen 和 CrewAI 或其他代理框架,通过预定义的角色和任务来实现复杂的自动化任务。用户可以通过命令行界面或用户界面与代理进行交互,创建自定义工具,并通过多种方式扩展其功能。
自动化生成高质量函数调用数据集的管道
APIGen是一个自动化的数据生成管道,旨在为函数调用应用生成可验证的高质量数据集。该模型通过三个层次的验证过程确保数据的可靠性和正确性,包括格式检查、实际函数执行和语义验证。APIGen能够规模化、结构化地生成多样化的数据集,并通过实际执行API来验证生成的函数调用的正确性,这对于提升函数调用代理模型的性能至关重要。
将大型语言模型的编码能力转换为图像生成能力。
Omost是一个旨在将大型语言模型(LLM)的编码能力转化为图像生成(更准确地说是图像组合)能力的项目。它提供了基于Llama3和Phi3变体的预训练LLM模型,这些模型能够编写代码以使用Omost的虚拟Canvas代理来组合图像视觉内容。Canvas可以由特定的图像生成器实现来实际生成图像。Omost项目背后的技术包括Direct Preference Optimization (DPO)和OpenAI GPT4o的多模态能力。
大型语言模型的详细列表和信息
Models Table 提供了一个包含300多个大型语言模型的列表,这些模型被所有主要的AI实验室使用,包括Amazon Olympus, OpenAI GPT-5, OpenAI GPT-6等。该列表展示了大型语言模型的发展趋势和多样性,对于AI研究者和开发者来说是一个宝贵的资源。
易用的大规模语言模型知识编辑框架
EasyEdit 是一个面向大型语言模型(LLMs)的易用知识编辑框架,旨在帮助用户高效、准确地调整预训练模型的特定行为。它提供了统一的编辑器、方法和评估框架,支持多种知识编辑技术,如ROME、MEND等,并提供了丰富的数据集和评估指标,以衡量编辑的可靠性、泛化性、局部性和可移植性。
一种通过大型语言模型引导的模拟到现实世界转移策略,用于获取机器人技能。
DrEureka是一个利用大型语言模型(LLMs)自动化和加速模拟到现实(sim-to-real)设计的方法。它通过物理模拟自动构建合适的奖励函数和领域随机化分布,以支持现实世界中的转移。DrEureka在四足机器人运动和灵巧操作任务上展示了与人工设计相媲美的sim-to-real配置,并能够解决如四足机器人在瑜伽球上平衡和行走等新颖任务,无需人工迭代设计。
利用机器学习自动生成基础设施代码,提高开发效率。
GitHub Copilot for Infrastructure as Code(简称Infra Copilot)是一个利用机器学习技术帮助基础设施专业人员自动生成精确基础设施代码的工具。它通过理解基础设施任务的上下文,允许专业人员使用自然语言表达需求,并接收相应的代码建议。Infra Copilot不仅简化了基础设施即代码(IaC)的开发过程,还确保了跨环境和项目的一致性,加速了新团队成员的上手和学习过程,显著提高了工作效率并节约了时间。
上传数据,获取机器学习模型
Automated Machine Learning as a Service是一个提供自动化机器学习服务的网站。用户可以通过上传数据来获取他们的机器学习模型,该平台为用户提供了便捷的机器学习模型开发和部署流程。该平台还提供了丰富的功能和优势,包括简单易用的界面、自动化的模型训练和优化、灵活的定价策略等。用户可以根据自己的需求选择适合的定价方案,并在不同的场景中应用该机器学习模型。该产品的定位是为广大用户提供高效、便捷、灵活的机器学习解决方案。
© 2024 AIbase 备案号:闽ICP备08105208号-14