Multi-Modal Researcher Multi-Modal Researcher Multi-Modal Researcher
Multi-Modal Researcher Multi-Modal Researcher LangGraph
Multi-Modal Researcher
Multi-Modal Researcher 是一个基于 LangGraph 的自动化工作流项目,旨在利用 Google Gemini 2.5 系列模型的独特能力,实现主题研究和播客生成。用户输入一个研究主题,并可选择提供一个 YouTube 视频 URL,系统便能通过 Gemini 的原生搜索工具进行网络研究,结合对视频的分析(如果提供),将这些见解整合并生成一份带引用的综合报告。此外,它还能进一步生成一份简短的、包含多扬声器(如专家与采访者)对话的播客脚本及其对应的 TTS 音频文件,提供从文本到语音的多模态输出。该项目支持模型选择、内容创作温度以及语音配置等运行时定制。