유튜브 영상 정보와 자막 정보를 손쉽게 추출하는 방법



유튜브 영상 정보와 자막 정보를 손쉽게 추출하는 방법

제가 직접 경험해본 결과로는 유튜브 영상의 정보를 효율적으로 추출하기 위해 다양한 라이브러리를 활용할 수 있음을 알게 되었습니다. 최근에는 yt-dlp와 youtube-transcript-api라는 두 가지 도구를 주로 사용하고 있는데, 이 두 라이브러리를 통해 영상 정보와 자막 정보를 쉽게 가져올 수 있어요.

 

👉유튜브 영상 정보와 자막 바로 확인

 

유튜브 영상 정보 가져오기

영상의 기본적인 정보(제목, 채널명, 업로드 날짜 등)를 가져오는 것은 매우 쉽습니다. 제가 최근에 사용한 라이브러리는 yt-dlp입니다. 이 라이브러리를 이용하면 정말 간편하게 필요한 정보를 가져올 수 있어요.



yt-dlp 설치 및 사용법

  • 먼저 pip를 통해 해당 라이브러리를 설치해야 합니다. 다음과 같이 입력하시면 됩니다.

pip install yt-dlp

  • 설치 후, 아래와 같은 코드를 통해 영상을 분석할 수 있습니다.

“`python
import yt_dlp

def get_youtube_video_info(video_url):
ydl_opts = {
‘noplaylist’: True,
‘quiet’: True,
‘no_warnings’: True,
}

with yt_dlp.YoutubeDL(ydl_opts) as ydl:
    video_info = ydl.extract_info(video_url, download=False)
    video_id = video_info['id']
    title = video_info['title']
    upload_date = video_info['upload_date']
    channel = video_info['channel']
    duration = video_info['duration_string']

return video_id, title, upload_date, channel, duration

“`

  • 위 코드를 사용하여 get_youtube_video_info라는 함수를 만듭니다. 이 함수는 비디오 URL을 입력받아 영상 정보를 반환하죠. 자주 사용하는 비디오 URL을 설정한 후 함수를 호출해보세요.

유튜브 영상 정보 출력 예시

python
video_url = 'https://www.youtube.com/watch?v=CyEsljuyEW8'
video_info = get_youtube_video_info(video_url)
print(video_info)

이 호출을 통해 영상의 제목, 채널명 등 필요한 정보를 손쉽게 얻을 수 있었습니다!

유튜브 자막 가져오기

영상의 자막 정보를 가져오는 것은 제가 AI 기반 요약 서비스를 만들기 위해 필수적으로 해야 하는 작업이었어요. 직접 다운로드하지 않고 자막 정보를 활용하는 것이 효율적이니까요.

youtube-transcript-api 설치하기

자막 정보를 가져오기 위해서는 다음과 같은 설치를 진행해야 해요.

pip install youtube-transcript-api

자막 정보 추출 코드

자막 정보를 가져오기 위해서는 먼저 비디오 ID를 추출해야 합니다. 아래와 같은 함수를 활용해 쉽고 간편하게 가져오세요.

“`python
from youtube_transcript_api import YouTubeTranscriptApi

def get_video_id(video_url):
return video_url.split(‘v=’)[1][:11]
“`

이제 비디오 URL을 통해 ID를 얻어올 수 있어요.

자막 언어 출력하기

“`python
video_id = get_video_id(video_url)
transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)

for transcript in transcript_list:
print(f”- [자막언어] {transcript.language}, [자막 언어 코드] {transcript.language_code}”)
“`

이 코드로 각 영상에 설정된 다양한 언어의 자막 정보를 확인할 수 있었습니다.

자막 파일 저장하기

자막 정보를 가지고 SRT 파일과 TXT 파일로 저장하는 방법도 간단합니다. 자막 정보를 SRT 형식으로 저장하는 코드 예시는 아래와 같습니다.

SRT 파일로 저장하기

“`python
transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=[‘ko’, ‘en’])
srt_formatter = SRTFormatter()
srt_formatted = srt_formatter.format_transcript(transcript)

with open(f”{video_id}.srt”, ‘w’) as f:
f.write(srt_formatted)
“`

SRT 파일로 저장된 자막 정보를 통해 나중에 영상을 보고 복습할 때 유용하게 사용할 수 있었어요.

TXT 파일로 저장하기

“`python
text_formatter = TextFormatter()
text_formatted = text_formatter.format_transcript(transcript)

with open(f”{video_id}.txt”, ‘w’) as f:
f.write(text_formatted)
“`

이렇게 텍스트 파일도 저장할 수 있어요. 영상 내용을 후에 쉽게 참고할 수 있는 점이 정말 좋더라고요.

자막 정보를 요약하기 위한 준비

마지막 단계로, 이렇게 가져온 자막 정보를 LLM(Language Model) 추천 시스템에 넣어 요약하는 부분은 다음 글에서 다루려고 해요. 하지만, 이 과정을 진행함으로써 자막 정보를 직접 다루는 것이 얼마나 간편해질 수 있는지 느꼈답니다.

자주 묻는 질문 (FAQ)

영상 정보를 가져오는 데 필요한 라이브러리는 무엇인가요?

유튜브 영상 정보를 가져오기 위해서는 yt-dlp라는 라이브러리를 사용합니다.

자막 정보를 어떻게 가져올 수 있죠?

자막 정보는 youtube-transcript-api를 통해 쉽게 가져올 수 있습니다.

SRT 파일로 저장하는 방법은?

SRT 파일로 저장하기 위해서는 자막 정보를 가져온 후, SRTFormatter를 사용하여 저장할 수 있습니다.

영상 정보는 어떤 형식으로 반환되나요?

영상 정보는 비디오 ID, 제목, 업로드 날짜, 채널명, 영상 길이 등의 형태로 반환됩니다.

영상의 정보와 자막을 이렇게 쉽게 가져올 수 있다는 사실을 알고 나니, 앞으로 더 많은 영상 데이터를 활용할 수 있을 것 같아요. 그동안 영상 분석이 어려웠던 분들도 이제는 걱정하지 않으셔도 될 것 같습니다.

키워드: 유튜브, 영상 정보, 자막, yt-dlp, youtube-transcript-api, SRT, 자막 파일, LLM, 영상 요약, 데이터 추출, API 사용.

이전 글: 기금e든든 모바일 신청: 쉽고 빠른 대출 접근법 안내