為YouTube視頻構建AI驅動的問答系統

首頁

新聞

2025-06-03

AlbertKing

是否曾經花費數小時瀏覽YouTube影片，試圖在無盡的音頻流中尋找智慧的珍寶？想像一下：你坐在那裡，一遍又一遍地點擊播放教學影片，希望能偶然發現你所需的那個關鍵資訊。現在，設想一個世界，你可以立即瀏覽所有這些內容，提取你所需的精確資訊，甚至能回答特定問題——只需輕輕一指。這篇文章將展示如何使用一些最新的AI工具，為YouTube影片打造屬於你自己的問答系統。通過結合Chroma、LangChain和OpenAI的Whisper，你可以將數小時的音頻轉化為可操作的洞察。從總結長篇講座到找到關鍵時刻的精確時間戳，這個系統可能會永遠改變你消費影片內容的方式。

對AI工具、程式設計技巧有迫切問題，或者只是需要一個地方來暢談技術？加入我們在Discord上的社群——這是與志同道合的人聯繫的完美場所！

為YouTube影片打造問答系統

在深入之前，讓我們先談談為什麼這值得你花時間。在當今快節奏的數位世界中，人們不斷被資訊轟炸。無論你是試圖掌握複雜概念的學生，還是渴望保持領先的專業人士，有效地從冗長的YouTube影片中提取知識至關重要。問答系統通過將數小時的內容濃縮成易於消化的摘要，讓你能精確鎖定所需資訊，使這一切變得更簡單。將其視為將你喜愛的影片轉化為一份能回答你所有迫切問題的速記表。

運作方式如下：想像你問道：「向量資料庫和關聯式資料庫有什麼不同？」無需花費數小時觀看影片，系統會提取相關片段，給你答案，甚至告訴你精確的時間戳。不再浪費時間無目的地滾動滑鼠——只有純粹、專注的學習。此外，這不僅適用於學術用途；對於希望分析商業通話、播客集數或任何其他形式的音頻內容的人來說，這同樣有用。

核心組件：Chroma、LangChain和OpenAI的Whisper

要打造這個問答系統，你將依賴三個強大的工具，它們協同工作：

Chroma

Chroma標誌

Chroma是你處理向量儲存的可靠助手。將其想像成一個超級智能的文件櫃，將文字資料組織成可搜索的向量。這為什麼重要？因為Chroma讓你無需翻閱大量文字，就能執行閃電般快速的相似性搜索。當你提出問題時，它會迅速將你的查詢與影片轉錄中最相關的部分匹配。Chroma的高效使其非常適合處理像轉錄這樣的大型資料集，確保你能迅速獲得答案。

LangChain

LangChain是操作背後的大腦。它像指揮家一樣，協調一切——從提取轉錄到生成答案。憑藉其模組化設計，LangChain無縫連接不同的AI組件，確保它們和諧運作。例如，它負責維護多次互動的上下文，讓對話自然流暢。LangChain的靈活性意味著你可以根據需求調整系統，無論是追求簡潔的摘要還是詳細的解釋。

OpenAI的Whisper

在將音頻轉為文字方面，Whisper是王者。這款開源工具擅長將口語轉錄成書面形式，處理從細微口音到嘈雜環境的一切。其可靠性確保生成的文字盡可能準確，為有效的分析奠定基礎。如果沒有Whisper，系統的其餘部分將難以解釋原始音頻資料。

打造問答系統的分步指南

準備好捲起袖子打造一些很棒的東西了嗎？按照以下步驟打造你的個性化YouTube問答系統：

步驟1：安裝所需程式庫

首先安裝必要的程式庫。每個程式庫在流程中都扮演重要角色：

whisper：將音頻轉為文字。
pytube：下載YouTube影片。
langchain：處理問答邏輯。
chromadb：儲存嵌入以進行高效搜索。
openai：與OpenAI的模型互動。

在終端機中執行以下命令：

text

pip install git+https://github.com/openai/whisper.git
pip install pytube
pip install langchain
pip install chromadb
pip install openai

確保每個程式庫正確安裝後再繼續。

步驟2：導入必要模組

程式庫安裝完成後，將它們導入你的腳本：

text

import whisper
import torch
import os
from pytube import YouTube
from langchain.text_splitter import CharacterTextSplitter
from langchain.document_loaders import DataFrameLoader
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQAWithSourcesChain
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.llms import OpenAI
import pandas as pd

這些模組為你帶來所需的所有功能。

步驟3：配置設備並載入Whisper模型

決定是否要利用你的GPU（如果可用）或使用CPU：

text

device = "cuda" if torch.cuda.is_available() else "cpu"
whisper_model = whisper.load_model("large", device=device)

選擇適合的模型大小取決於你的硬體。較大的模型提供更高的準確度，但需要更多資源。

步驟4：從YouTube影片提取音頻

創建一個函數來下載並儲存音頻：

text

def extract_and_save_audio(video_url, destination, final_filename):
    video = YouTube(video_url)
    audio = video.streams.filter(only_audio=True).first()
    output_path = audio.download(output_path=destination)
    ext = os.path.splitext(output_path)[1]
    new_file = final_filename + '.mp3'
    os.rename(output_path, new_file)
    return new_file

此函數從YouTube影片中提取音頻流並將其儲存為MP3檔案。乾淨的音頻對於準確轉錄至關重要。

步驟5：轉錄音頻並將其分塊

使用Whisper轉錄音頻：

text

audio_file = 'geek_avenue.mp3'
result = whisper_model.transcribe(audio_file)
transcription = pd.DataFrame(result['segments'])

現在，將轉錄分成可管理的塊：

text

def chunk_clips(transcription, clip_size):
    texts = []
    sources = []
    for i in range(0, len(transcription), clip_size):
        clip_df = transcription.iloc[i:i + clip_size]
        text = '. '.join(clip_df['text'].to_list())
        sources.append(text)
        text = '. '.join(clip_df['text'].to_list())
        source = str(round(clip_df.iloc[0]['start'] / 60, 2)) + "--" + str(round(clip_df.iloc[-1]['end'] / 60, 2)) + " 分鐘"
        texts.append(text)
        sources.append(source)
    return texts, sources

texts, sources = chunk_clips(transcription, clip_size=4)

分塊可防止系統達到token限制，並保持內容的可管理性。

步驟6：創建嵌入並設置Chroma

為文字塊生成嵌入：

text

embeddings = OpenAIEmbeddings()
df = pd.DataFrame({'text': texts, 'sources': sources})
document_loader = DataFrameLoader(df, page_content_column="text")
documents = document_loader.load()

用這些文件初始化Chroma：

text

vectorstore = Chroma.from_documents(documents=documents, embedding=embeddings, persist_directory="./chroma_db")
vectorstore.persist()

這將設置一個本地資料庫，Chroma在其中儲存嵌入的文字塊。

步驟7：建立問答鏈

使用LangChain將所有內容整合在一起：

text

chain = RetrievalQAWithSourcesChain.from_chain_type(
    llm=OpenAI(temperature=0.5),
    chain_type="stuff",
    retriever=vectorstore.as_retriever()
)

此鏈結結合語言模型與檢索器，以有效提取並回答問題。

步驟8：測試系統

使用範例查詢試驗你的問答系統

Master Emerald Kaizo Nuzlocke：終極生存與策略指南 Emerald Kaizo 是有史以來最強大的 Pokémon ROM hacks 之一。雖然嘗試執行 Nuzlocke 會使挑戰成倍增加，但透過縝密的規劃和策略執行，勝利仍然是可以實現的。這本權威指南提供在 Hardcore Nuzlocke 規則下征服 Emerald Kaizo 的必要工具、經過實戰考驗的戰術以及深入的 AI 分析。準備好迎接 Pokémon 精通的終極考驗吧！基本策略收集關

AI Powered Cover Letters：期刊投稿專家指南在現今競爭激烈的學術出版環境中，撰寫一封有效的求職信對您的稿件能否被接受起著舉足輕重的作用。探索像 ChatGPT 之類的人工智能工具如何簡化這項重要任務，幫助您撰寫出精緻、專業的求職信，吸引期刊編輯的注意。我們的全面指南揭示了逐步優化您的投稿包並最大化出版成功率的策略。重點必要的研究準備：彙整所有稿件細節和期刊規格。AI 輔助撰稿：使用 ChatGPT 生成初始求職信模板。個人客製化：完善 AI

美國將因社交媒體法規制裁外國官員美國站出來反對全球數位內容法規美國國務院本周針對歐洲的數位治理政策發出尖銳的外交譴責，顯示在網路平台控制權上的緊張關係正不斷升級。國務卿 Marco Rubio 公布了一項新的簽證限制政策，針對參與美國認為影響美國數位空間的過度審查的外國官員。新簽證限制說明根據週三公佈的政策，美國將拒絕被判定為正在執行影響美國受保護言論的海外內容規定的外國公民入境。Rubio 強調兩項主要的違法行為：

評論 (5)

0/200

提交

JoseAdams