工具開發筆記 2026 · 05 · 03

用 Claude 自動剪影片:Whisper + FFmpeg 實作筆記(附最大踩坑)

想用 AI 自動剪影片,其實核心只要解決一個問題:讓 AI 知道影片裡哪個時間點發生了什麼事,才有辦法做剪輯。這篇是我用 Claude + Whisper + FFmpeg 做出一套自動剪片系統的開發心得,會講思路、用到的工具,還有我踩過最大的一個坑。

auto-edit by Claude 自動剪片工具介面:左側逐字時間軸標記(每字精度 0.1〜0.4 秒),右側影片預覽與 A-Roll/B-Roll 自動排程

兩種思路:用視覺判斷,還是用聽覺判斷?

有兩個思路可以解決這個問題。

第一個是靠 Claude 的視覺語言能力,對影片每秒截取大量畫面,去判斷每個時間點發生了什麼。Claude 原生就有這個能力,只是很燒 token,而且如果畫面沒有明顯變化——例如一個 KOL 站在鏡頭前講話,視覺上幾乎沒什麼動靜——這個方法的效果就有限。

這時候換個思路,改用聽覺來做判斷

我的自動剪片邏輯,是先把每部影片的台詞跟對應的時間點辨識出來,讓 Claude 拿到一條完整的時間軸:「這個人在 0.3〜2.6 秒說了『我愛你』,在 27.4〜30 秒說了『我絕不會騙你的』。」

結果 Claude 前後魔改,輸出了:「我騙你的,我絕不愛你。」哈哈好啦這是玩笑,但你懂那個邏輯。當每一段台詞都被精準標上時間,就可以做到真正意義上的自動剪輯。

因為只有人物畫面有點單調(我的應用場景幾乎沒有視覺變化),我也加入了 B-roll 搭配功能——讓 Claude 在說到某段台詞的時候,插入對應的素材影片。例如講到「我騙你的」,就跳出一個動畫,大大地寫著 LIAR〜

你需要的三個工具

要做到這套架構,除了 Claude 之外,你至少還需要這三樣東西:

  • Whisper:幫你辨識影片台詞,並以 0.01 秒為單位標記每段台詞的起點和終點。
  • FFmpeg:依時間點精準剪輯影片,把不同片段組合在一起,並做轉場、字幕、音樂等後製。
  • B-roll 影片來源:免費的可以用 Pexels,能找到一些無版權影片;如果想要更客製化,我會用 Higgsfield,因為 Claude 原生就有和它的 connector,直接跟 Claude 說想要什麼影片,就能幫你到平台上生成。

邏輯其實不複雜——但我還是踩了不少坑,這邊跟大家分享最大的一個。

最大的坑:Whisper 的辨識精準度

Whisper 有時候明明有聲音卻辨識不到,或是標記的時間點跟實際發音有微小的誤差。一開始我沒想到是這個問題,以為是影片編輯器的 bug,結果花了大概 500〜800 塊台幣的額外 token 費用,改了一堆東西,最後才發現根本是辨識標記不夠準。

更可惡的是,我一開始就跟 Claude Code 提過「會不會是辨識不精準的問題」,結果它就是不知道哪來的執念,一頭鑽進編輯器方向各種打補丁,改到亂七八糟,差點做不出來 XDDD

幸好後來我們想出一個測試方法:直接產出音檔,讓人工來聽,看這段程式的辨識有沒有問題。靠這一招釐清了問題所在,最後補上了 wav2vec2 工具,讓它精準分析每小段台詞的字音變化——例如 Whisper 讀到「我愛你」,wav2vec2 會再細分成「我。愛。你」三個字。加上這個之後,問題就順利解決了。

我個人的體會是:做工具不要求快,要求清楚地理解過程中發生了什麼。Claude 在開發過程中,它到底在做什麼、思路有沒有鑽牛角尖?有時候它需要你在方向上給它一個提醒——但前提是你自己也要搞懂整個架構。

如果你也想做一個自動剪輯系統

最快的方法,就是把上面這篇文章貼給 Claude,請它一步一步教你怎麼做。沒有什麼神奇的 prompt,就是這樣 XDD

但我是認真的——因為我自己也是這樣走過來的:遇到問題,找找別人怎麼解,然後試著自己做。重點是做的過程要試著理解技術面 Claude 到底在幹嘛,這會是一個很好玩的學習過程 XDD 很推薦大家試試看。


關於作者

我是 Rand,一位有 1500 小時以上經驗的 Life Coach,也是 AI 工具的打造者。助人者要同時服務個案、做行銷內容,還要處理預約、帳務、系統等各種行政事務,壓力山大。所以我開始自己做工具,讓自己能夠更輕鬆地完成各種個人品牌必備的任務,像自動產出輪播貼文、自動剪影片、自動產出 SEO 文章、AI 友善的網站架構,還有各種好玩的互動測驗用來導流跟引導人思考,這些對我來說,都是真的很好玩的事情!

想看用 AI 讓生活過得更輕省,追蹤 AI 生活實驗室 👉 @life.coach.mtcity,我們一起玩 AI!