加速 ML 应用程序开发:生产就绪的 Airflow 与关键 AI 工具集成

加速 ML 应用程序开发:生产就绪的 Airflow 与关键 AI 工具集成

生成式人工智能和操作性机器学习使组织能够利用其数据来推动新产品并提高客户满意度,从而在现代数据领域发挥着至关重要的作用。这些技术用于虚拟助理、推荐系统、内容生成等。它们帮助组织通过数据驱动的决策、自动化、增强的业务流程和客户体验建立竞争优势。

Apache Airflow 是许多团队 ML 操作的核心,通过对大型语言模型 (LLM) 的新集成,Airflow 使这些团队能够利用ML 和 AI 的最新进展来构建生产质量的应用程序。

简化机器学习开发

机器学习模型和预测分析常常是在孤岛中创建的,远离生产系统和应用程序。组织面临着一个永恒的挑战,即将数据科学家的笔记本转变为具有稳定性、可扩展性、合规性等的生产就绪应用程序。

然而,在一个平台上实现标准化来编排 DataOps 和 MLOps 工作流程的组织不仅能够减少端到端开发的摩擦,还能减少基础设施成本和 IT 蔓延。虽然这似乎有悖常理,但这些团队也受益于更多的选择。当像 Apache Airflow 这样的集中式编排平台是开源的,并且包含与几乎所有数据工具和平台的集成时,数据和机器学习团队可以选择最适合他们需求的工具,同时享受标准化、治理、简化故障排除的好处和可重用性。

Apache AirflowAstro(Astronomer 的完全托管 Airflow 编排平台)是数据工程师和 ML 工程师会面的地方,通过操作 ML 创造业务价值。每个行业和部门每天都有大量数据工程管道在 Airflow 上运行,它是现代数据操作的主力,ML 团队不仅可以利用这一基础进行模型推理,还可以进行训练、评估和监控。

优化气流以增强机器学习应用

随着组织不断寻找利用大型语言模型的方法,Airflow 越来越成为非结构化数据处理、检索增强生成 (RAG)、反馈处理和基础模型微调等操作的前沿和中心。为了支持这些新用例并为 Airflow 用户提供一个起点,Astronomer 与 Airflow 社区合作创建了Ask Astro,作为用于对话式 AI 的 RAG 与 Airflow 的公共参考实现。

更广泛地说,Astronomer 领导了与矢量数据库和法学硕士提供商的新集成的开发,以支持这种新型应用程序以及确保它们安全、新鲜和可管理所需的管道。

连接到最广泛使用的法学硕士服务和矢量数据库

Apache Airflow 与一些使用最广泛的矢量数据库(Weaviate、Pinecone、OpenSearch、pgvector)和自然语言处理 (NLP) 提供商(OpenAI、Cohere)相结合,通过最新的开源开发提供了可扩展性。它们共同为对话式 AI、聊天机器人、欺诈分析等应用程序的 RAG 开发提供了一流的体验。

开放人工智能

OpenAI 是一家 AI 研究和部署公司,提供用于访问 GPT-4 和 DALL·E 3 等最先进模型的 API。OpenAI Airflow 提供商提供可轻松将 OpenAI 与 Airflow 集成的模块。用户可以生成数据嵌入,这是使用 LLM 支持的应用程序进行 NLP 的基础步骤。

查看教程 →使用 Apache Airflow 协调 OpenAI 操作

连贯

Cohere 是一个 NLP 平台,提供 API 来访问尖端的法学硕士。Cohere Airflow 提供商提供可轻松将 Cohere 与 Airflow 集成的模块。用户可以利用这些以企业为中心的法学硕士,使用自己的数据轻松创建 NLP 应用程序。

查看教程 →使用 Apache Airflow 编排 Cohere LLM

韦维阿特

Weaviate是一个开源矢量数据库,它存储文本、图像、音频或视频等对象的高维嵌入。Weaviate Airflow 提供商提供可轻松将 Weaviate 与 Airflow 集成的模块。用户可以使用开源矢量数据库处理高维矢量嵌入,该数据库提供丰富的功能、卓越的可扩展性和可靠性。

查看教程 →使用 Apache Airflow 编排 Weaviate 操作

PG向量

pgvector 是 PostgreSQL 数据库的开源扩展,增加了存储和查询高维对象嵌入的功能。pgvector Airflow 提供商提供了可以轻松将 pgvector 与 Airflow 集成的模块。用户可以通过 PostgreSQL 数据库的开源扩展来解锁在高维空间中处理向量的强大功能。

查看教程 →使用 Apache Airflow 编排 pgvector 操作

松果

Pinecone 是一个专有的矢量数据库平台,旨在处理大规模基于矢量的人工智能应用程序。Pinecone Airflow 提供商提供的模块可轻松将 Pinecone 与 Airflow 集成。

查看教程 →使用 Apache Airflow 协调 Pinecone 操作

开放搜索

OpenSearch 是一个基于 Apache Lucene 的开源分布式搜索和分析引擎。它提供了针对大量文本的高级搜索功能以及强大的机器学习插件。OpenSearch Airflow 提供商提供了可轻松将 OpenSearch 与 Airflow 集成的模块。

查看教程 →使用 Apache Airflow 协调 OpenSearch 操作