웹사이트 스크랩 에이전트 생성기


배경

네이버 블로그에 있는 동영상을 다운받으려고 봤더니 네이버에서만 쓰는 querystring이 있어서 yt-dlp로는 다운로드가 안되더라. 별수없이 따로 코드를 짜서 다운로드하기로 했다.

스크립트 작성

직접 코드짠게 거의 없다. 처음에 브라우저에서 copy as curl로 복사한 명령어로 파일을 받을 수 있는 것을 확인한 다음에

  1. “convert this curl command using requests” 해서 쓱싹 첫 파일 다운받고
  2. “parse m3u8 and pick the best quality under 720p” 해서 원하는 화질 선택하고
  3. “copy all querystring from master_url to the selected url”해서 URL에 쿼리를 싸악 입혀주고
  4. “download url and parse m3u8”
  5. “download first segment from the m3u8” 해서 일단 첫번째 조각만 다운받게 해 보고, 처음에 잘 안돼서
  6. “copy all querystring from url to the segment url” 해서 쿼리 또 입혀주고, 잘 되는거 확인한 다음에
  7. “download all segments using above code” 해서 모든 조각에 대해 돌아가게 하고
  8. 중간에 파일 끊기는게 한번 있어서 거기만 “retry up to 3 times”해서 재시도하게 하고
  9. “sleep 10 seconds for each retry”해서 재시도마다 잠깐 쉬게 해주고
  10. “run ffmpeg to merge all segments, without transcoding” 해서 조각 합져주도록 하니까

개발 끝! 어차피 일회용으로 쓰고 버릴거라 퀄리티 필요없음!

결론

대충 어찌어찌 하면 된다… 는 것을 알고 있으면 구체적인 실행은 대충 맡겨놓고 결과만 확인하는 식으로 개발하는게 확실히 빠르긴 빠르다. LLM 아니었으면 몇시간 걸릴 일이 몇분만에 끝났다.

사랑해요 네이버