Langchain 教程：YouTube 视频摘要指南

首页

新闻

2025-12-04

LunaYoung

122

在我们这个快节奏的数字世界里，能够快速理解视频的核心信息是非常有价值的。对于研究人员、学生和专业人士来说，为冗长的 YouTube 视频生成简明摘要可以大大节省时间，提高工作效率。本指南提供了使用 Langchain、OpenAI 和 Whisper 自动创建 YouTube 内容摘要的清晰、循序渐进的方法。您将学习如何在 Google Colab 中编写 Python 脚本来提取音频，将其转录为文本，然后使用强大的人工智能模型对其进行压缩。

要点

学习使用 Langchain、OpenAI 和 Whisper 进行自动视频摘要。

在 Google Colab 中编写 Python 代码，下载和转录视频音频。

应用文本分割和摘要方法来创建简洁的概述。

实施 map reduce 链技术，有效总结大型文档。

利用 OpenAI API 访问高级摘要模型。

使用 RecursiveCharacterTextSplitter 将文本分割成更小的、易于管理的片段。

为视频摘要设置环境

开始使用 Google Colab

首先，请确保您拥有 Google 账户，以便访问 Google Colab，这是一个免费的云平台，非常适合运行 Python 代码。打开 Google Colab 并创建一个新笔记本。这将是视频摘要项目的工作区。将笔记本重命名为 "YouTube_Summarizer "等易于记忆的名称，以帮助您保持条理清晰。

接下来，调整运行时配置。

进入 "运行时 "菜单，选择 "更改运行时类型"。从下拉菜单中选择 "T4 GPU "作为硬件加速器。该选项将使用 GPU 的处理能力来加快代码执行速度。保存设置，将其应用到 Colab 环境中。现在，您可以安装必要的软件包了。

安装必要的 Python 软件包

在编写代码之前，您必须安装所需的 Python 库。这些软件包为音频提取、转录和摘要提供了工具。在 Colab 单元中使用pip install 运行以下命令：

pip install OpenAI!pip install -U openai-whisper!pip install pytube!pip install langchain

OpenAI：该库可实现与 OpenAI 语言模型的交互，这对文本摘要至关重要。
Whisper：OpenAI 的自动语音识别 (ASR) 系统，用于将音频转换为文本。
Pytube：用于直接从 YouTube 视频中下载音频的库。
Langchain：一个功能强大的框架，为链和其他工具提供标准接口，简化了使用语言模型构建应用程序的过程。

这些命令将安装 OpenAI、Whisper、Pytube 和 Langchain 库，为您提供下一步所需的所有工具。安装完成后，你就可以将这些软件包导入脚本了。

从 YouTube 视频中提取音频

导入 Pytube 并加载视频

首先导入pytube库，它允许你从 YouTube 下载音频。导入后，指定要处理的 YouTube 视频的 URL。

下面的代码展示了如何做到这一点：

import pytube as ptyt = pt.YouTube("https://www.youtube.com/watch?v=dd1kN_myNDs")stream = yt.streams.filter(only_audio=True)[0]stream.download(filename='yt_audio.mp3')

这段代码使用提供的 URL 创建一个 YouTube 对象，过滤可用流以选择纯音频选项，然后将其下载为名为yt_audio.mp3 的 MP3 文件。该文件将在下一阶段用于转录。

用 Whisper 转录音频

下载音频文件后，下一步就是使用 OpenAI 的 Whisper 模型将其转换为文本。Whisper 是一款强大的语音文本转换工具，可通过之前安装的openai-whisper库使用。下面是转录音频的方法：

import whispermodel = whisper.load_model("base")result = model.transcribe("yt_audio.mp3")text = result["text"]print(text)

这段代码加载了 Whisper 的基本模型，转录了yt_audio.mp3文件，并提取了生成的文本。转录文本将打印到控制台，为您提供视频音频内容的书面版本。准备好文本后，现在可以使用 Langchain 对其进行总结。

使用 Langchain 总结转录文本

现在您有了转录文本，可以使用 Langchain 创建摘要。Langchain 为使用 OpenAI 的语言模型进行文本摘要提供了一个灵活的框架。这一过程包括将文本分成较小的片段，然后对每个片段进行总结，最后生成一个简明扼要的概述。

请按照以下步骤使用 Langchain 设置摘要流程：

从 Langchain 导入所需模块：
这包括用于集成 OpenAI、LLM 链、摘要和文本分割的模块。
from langchain import OpenAI, LLMChainfrom langchain.chains.summarize import load_summarize_chainfrom langchain.text_splitter import RecursiveCharacterTextSplitter
初始化 OpenAI 语言模型：
llm = OpenAI(model_name="text-davinci-003", openai_api_key="YOUR_API_KEY", temperature=0)
将YOUR_API_KEY替换为实际的 OpenAI API 密钥，您可以从 OpenAI 平台获取该密钥。
将转录文本分割成易于管理的片段：
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0, separators=["

", "", ". ", " ", ""])texts = text_splitter.split_text(text)

这段代码将文本分割成每段 1000 个字符的片段，没有重叠。4.** 从文本块创建文档对象**:```pythondocs=[Document(page_content=t) for t in texts].

加载摘要链：
chain = load_summarize_chain(llm, chain_type="map_reduce", verbose=False)
这段代码使用map_reduce方法初始化摘要链。这种方法对大型文档很有效，因为它先对每个块进行单独摘要（map 步骤），然后将这些摘要合并为最终摘要（reduce 步骤）。
执行摘要链：
output_summary = chain.run(docs)print(output_summary)
这将在文档块上运行摘要过程，并打印最终摘要。现在，您已经获得了原始 YouTube 视频内容的简明摘要。

按照这些步骤，您就可以使用 Langchain、OpenAI 和 Whisper 高效地总结 YouTube 视频，实现信息提取自动化并提高工作效率。

分步指南：用代码总结 YouTube 视频

步骤 1：打开 Google Colab 并创建新笔记本

打开浏览器，进入 Google Colab 网站。使用谷歌账户登录。登录后，点击 "新建笔记本 "创建新笔记本。这将为你的项目打开一个简洁的编码环境。

第 2 步：配置运行时设置

为确保最佳性能，尤其是人工智能模型的性能，请将运行时配置为使用 GPU。点击菜单栏中的 "运行时"，然后选择 "更改运行时类型"。从 "硬件加速器 "下拉菜单中选择 "GPU"。保存更改。这将为会话分配一个 GPU，加速处理任务。

第 3 步：安装所需的库

接下来，使用pip 安装必要的 Python 库。这些库包括openai、openai-whisper、pytube 和langchain。在 Colab 单元中运行以下代码：

pip install openai!pip install -U openai-whisper!pip install pytube!pip install langchain

执行单元格以安装库。确保安装成功后再继续。

第 4 步：导入库并设置 OpenAI API 密钥

将必要的库导入笔记本。同时，设置 OpenAI API 密钥，以便访问语言模型。您可以在 OpenAI 平台上生成一个 API 密钥。在代码中用你的实际密钥替换YOUR_API_KEY。

import pytube as ptimport whisperfrom langchain import OpenAI, LLMChainfrom langchain.chains.summarize import load_summarize_chainfrom langchain.text_splitter import RecursiveCharacterTextSplitteropenai_api_key = "YOUR_API_KEY"

第 5 步：加载 YouTube 视频并提取音频

指定 YouTube 视频 URL 并使用pytube提取音频。下面的代码创建了一个YouTube对象，过滤了纯音频流，并将音频下载为 MP3 文件：

yt = pt.YouTube("https://www.youtube.com/watch?v=dd1kN_myNDs")stream = yt.streams.filter(only_audio=True)[0]stream.download(filename='yt_audio.mp3')

步骤 6：用 Whisper 转录音频

使用 Whisper 模型将下载的音频文件转录为文本。加载模型并用它转录音频：

model = whisper.load_model("base")result = model.transcribe("yt_audio.mp3")text = result["text"]print(text)

第 7 步：使用 Langchain 总结文本

使用 Langchain 总结转录文本。这包括将文本分割成块，从中创建文档，然后使用摘要链生成最终摘要。

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0, separators=["", "", ". ", " ", ""])texts = text_splitter.split_text(text)from langchain.document_loaders import TextLoaderfrom langchain.docstore.TextLoader(text_splitter.split_text(text))document import Documentdocs = [Document(page_content=t) for t in texts]llm = OpenAI(model_name="text-davinci-003", openai_api_key=openai_api_key, temperature=0)chain = load_summarize_chain(llm, chain_type="map_reduce", verbose=False)output_summary = chain.run(docs)print(output_summary)

这段代码分割文本、创建文档、初始化摘要链并运行它以生成摘要。

步骤 8：运行代码并获取摘要

执行 Colab 笔记本中的所有代码单元。这将运行从下载音频到最终生成摘要的整个摘要流程。生成的摘要将显示在控制台中。

Langchain、OpenAI 和 Whisper 的定价考虑因素

了解成本

使用 Langchain、OpenAI 和 Whisper 时，必须了解它们各自的定价模式，以便有效管理预算。

OpenAI API：OpenAI 根据令牌使用量收费。费用因模型（如 text-davinci-003）和处理的令牌数量而异。定价通常以每 1,000 个代币为单位，因此监控使用情况是控制成本的关键。
Whisper：你可以通过 OpenAI 将 Whisper 用作 API，也可以自己托管。如果使用 OpenAI API，转录成本取决于音频时长。
Langchain：作为一个开源框架，Langchain 本身是免费的。但是，您必须考虑集成服务的成本，例如通过它使用 OpenAI API 的成本。

基于 Langchain 的视频摘要的优缺点

优点

与手动总结相比，自动化可节省大量时间。

生成简明摘要，抓住视频要点。

可定制的设置允许根据您的需求调整摘要。

与强大的 OpenAI 语言模型无缝集成。

开源，提供灵活性和社区驱动的支持。

缺点

需要基本的编程知识进行设置和配置。

摘要的准确性取决于音频转录和语言模型的质量。

使用 OpenAI API 需要付费。

转录和摘要过程中可能出现错误或不准确。

可能无法捕捉到原始视频的所有细微差别和上下文。

用于视频摘要的 Langchain 的主要功能

利用 Langchain 的功能

Langchain 提供多种功能，可提高视频摘要的效率：

链抽象：提供了构建链的标准化方法，可轻松将语言模型和文本分割器等不同组件结合到一个连贯的工作流程中。
文本分割：包括各种文本分割方法，如RecursiveCharacterTextSplitter，它可根据指定的分隔符（如段落和句子）分割文本。
摘要链：提供预构建的链，如load_summarize_chain，它使用map_reduce等技术有效地汇总大型文档。

自动视频摘要的多种用例

跨领域应用

自动视频摘要在不同领域都有大量实际应用：

教育：学生和教师可以快速查看讲座视频、提取关键观点并创建学习指南。
研究：研究人员可以高效地分析视频内容、提取相关数据并识别模式。
商业：专业人士可随时了解行业趋势，分析竞争对手的内容，并创建总结报告。
媒体监测：机构可以跟踪新闻广播、分析舆论并识别新出现的报道。

常见问题

什么是 Langchain，它如何促进视频摘要？

Langchain 是一个旨在简化使用语言模型构建应用程序的框架。它为创建操作链提供了一个标准接口。对于视频摘要，Langchain 可帮助管理从处理转录文本到生成最终摘要的整个过程，使其成为一个灵活而强大的工具。

如何获得 OpenAI API 密钥？

验证和使用 OpenAI 用于文本摘要的语言模型需要 OpenAI API 密钥。您可以在 OpenAI 平台上注册，并在账户设置中生成一个密钥，从而获得一个 API 密钥。该密钥允许您的脚本访问支持摘要的模型。

使用 Langchain、OpenAI 和 Whisper 时，管理成本的主要考虑因素是什么？

为了有效管理成本，请密切关注 OpenAI API 的令牌使用情况，因为计费是基于消耗量的。通过使用适当的文本块大小来优化代码，并考虑在较简单的任务中使用价格较低的模型。就 Whisper 而言，如果使用 API，费用是根据音频长度计算的，因此处理较短的片段或使用自托管版本有助于控制费用。

进一步探索：相关问题和高级技术

如何使用 Langchain 提高视频摘要的准确性？

提高摘要准确性需要调整多个参数和技术。请考虑以下策略：尝试使用不同的文本分割器：字符文本分割器：根据字符分割文本，这有助于保持句子结构：递归字符文本分割器：使用分隔符列表递归分割文本，从而实现更智能的分割：测试不同的分割器，看看哪种最适合您的特定视频内容。调整分块大小和重叠：分块大小：文本片段的大小会影响摘要。较小的片段可能会产生更详细的摘要，而较大的片段则会提供更多的上下文：分块重叠：分块之间的重叠有助于保持上下文的流畅。选择更强大的语言模型：OpenAI 提供多种模型，包括

Suno领投方：删除帖子无法填补版权诉讼的漏洞备受瞩目的AI音乐生成平台Suno正面临一场艰难的版权诉讼，而其领投投资人的坦率言论，可能恰恰为对方提供了他们梦寐以求的证据。 Menlo Ventures（Suno的核心投资者）合伙人C.C. Gong近日删除了一个推文，该推文与公司当前的法律辩护策略直接相悖。在之前的版权诉讼中，Suno的辩护主要依赖“合理使用”的论点，声称AI生成的音乐仅仅是一种“工具”，既不会直接与受版权保护的原创作品竞争

Claude Opus 4.7 正式发布，将可靠性置于智能之上 Anthropic 今年保持着激进的开发节奏，几乎每隔一天就会推出新功能。备受期待的 Claude Opus 4.7 刚刚正式发布，有趣的是，Anthropic 在公告中直言不讳地表示：“这并非我们最强大的模型。” 传闻中更强大的 Claude Mythos Preview 仍处于待命状态。尽管如此，Opus 4.7 依然引发了广泛关注，因为它致力于解决“更可靠”而非“更智能”的问题。基准测试结果

海尔推出全球最轻的人工智能运动外骨骼机器人，重量仅为1.75公斤海尔集团推出了全球最轻的运动型人工智能外骨骼机器人——海尔外骨骼机器人W3。此次发布创下了行业轻量化新纪录，标志着在轻量化设计和智能人体运动增强领域取得了重大突破。高端材料成就超轻量化设计W3采用创新的一体化制造工艺，融合全碳纤维与钛合金。这种航空级材料组合将总重量控制在仅1.75公斤，实现了轻量化与高强度的完美平衡，展现出极致的机械性能。为提升舒适度，该机器人融入了非牛顿流体材料，触感柔软亲肤，

相关专题推荐

漫画创作