LLM Twin Course LLM Twin Course LLM Twin Course

LLM Twin Course LLM Twin Course LLM

2024-01-01 2 分钟阅读

LLM Twin Course

LLM Twin Course 是一个免费课程，向你展示如何设计、训练和部署一个准备就绪的生产标准的 LLM（大型语言模型）。这个过程涵盖了从数据收集到部署的全套流程，同时教授利用 MLOps 最佳实践，例如实验跟踪器、模型注册表、提示监控和版本控制。

为什么这个课程不同？

这个课程带你走出了孤立的脚本或笔记本电脑，学习如何构建和部署一个端到端的生产级 LLM 系统。通过学习，你将能够将自己的风格和个性集成到 LLM 中，创建一个能像你一样写作的 AI 角色，即你的 “LLM 双胞胎”。

课程学习内容：

课程将教你如何搭建一个真实世界的 LLM 系统，包括：

使用各种社交媒体平台的爬虫获取你的数字数据。
通过一系列ETL管道，清理、标准化并加载数据到 MongoDB。
使用 CDC 模式发送数据库更改到 RabbitMQ 队列。
使用流处理（Bytewax），实时清理、分块、嵌入消息，并加载到向量数据库 Qdrant。
创建自定义数据集，使用 QLoRA 微调 LLM。
使用 Comet ML 的实验跟踪器监控实验，并将最佳模型保存到 Comet 的模型注册表中。
通过 REST API 部署微调后的 LLM，并使用 RAG 增强提示来生成内容。

课程架构：

课程架构分为四个 Python 微服务：

数据收集管道： 从社交媒体平台爬取数字数据。
特征管道： 实时处理数据并加载到向量数据库。
训练管道： 微调 LLM，并使用实验跟踪器监控。
推断（Inference）管道： 加载和部署微调后的 LLM，生成内容。

适合对象：

对于希望学习如何使用 LLMOps 好的原则来工程化准备生产就绪的 LLM 系统的机器学习工程师（MLE）、数据工程师（DE）、数据科学家（DS）或软件工程师（SWE）而言，这个中级课程非常合适。前提是你需要有 Python、机器学习和云服务的基本知识。

如何学习？

通过 11 个实践课和开源代码，你可以自己的节奏阅读和尝试代码。尽管文章和代码完全免费，但是实际运行代码时，使用的多个云工具可能会产生额外成本。课程尽量保持成本最小，使用的云计算平台（AWS、Qwak）和无服务器工具（Qdrant、Comet）都提供了免费版本。

什么时候会使用 LLM Twin Course？

当你需要学习或提升如何构建实际生产级别的大型语言模型（LLM）时，这个课程提供了一个全面的、实践导向的学习路径。无论是想要探索自动化内容生成、个性化 AI 助手的开发，还是只是出于学术研究的目的，都可以通过学习构建一个 LLM 双胞胎来实现。这个课程帮助你在机器学习的实践应用和 MLops 领域里迈出坚实的一步。