用 Claude 自動剪影片：Whisper + FFmpeg 實作筆記（附最大踩坑）

想用 AI 自動剪影片，其實核心只要解決一個問題：讓 AI 知道影片裡哪個時間點發生了什麼事，才有辦法做剪輯。這篇是我用 Claude + Whisper + FFmpeg 做出一套自動剪片系統的開發心得，會講思路、用到的工具，還有我踩過最大的一個坑。

auto-edit by Claude 自動剪片工具介面：左側逐字時間軸標記（每字精度 0.1〜0.4 秒），右側影片預覽與 A-Roll／B-Roll 自動排程

兩種思路：用視覺判斷，還是用聽覺判斷？

有兩個思路可以解決這個問題。

第一個是靠 Claude 的視覺語言能力，對影片每秒截取大量畫面，去判斷每個時間點發生了什麼。Claude 原生就有這個能力，只是很燒 token，而且如果畫面沒有明顯變化——例如一個 KOL 站在鏡頭前講話，視覺上幾乎沒什麼動靜——這個方法的效果就有限。

這時候換個思路，改用聽覺來做判斷。

我的自動剪片邏輯，是先把每部影片的台詞跟對應的時間點辨識出來，讓 Claude 拿到一條完整的時間軸：「這個人在 0.3〜2.6 秒說了『我愛你』，在 27.4〜30 秒說了『我絕不會騙你的』。」

結果 Claude 前後魔改，輸出了：「我騙你的，我絕不愛你。」哈哈好啦這是玩笑，但你懂那個邏輯。當每一段台詞都被精準標上時間，就可以做到真正意義上的自動剪輯。

因為只有人物畫面有點單調（我的應用場景幾乎沒有視覺變化），我也加入了 B-roll 搭配功能——讓 Claude 在說到某段台詞的時候，插入對應的素材影片。例如講到「我騙你的」，就跳出一個動畫，大大地寫著 LIAR〜

你需要的三個工具

要做到這套架構，除了 Claude 之外，你至少還需要這三樣東西：

Whisper：幫你辨識影片台詞，並以 0.01 秒為單位標記每段台詞的起點和終點。
FFmpeg：依時間點精準剪輯影片，把不同片段組合在一起，並做轉場、字幕、音樂等後製。
B-roll 影片來源：免費的可以用 Pexels，能找到一些無版權影片；如果想要更客製化，我會用 Higgsfield，因為 Claude 原生就有和它的 connector，直接跟 Claude 說想要什麼影片，就能幫你到平台上生成。

邏輯其實不複雜——但我還是踩了不少坑，這邊跟大家分享最大的一個。

最大的坑：Whisper 的辨識精準度

Whisper 有時候明明有聲音卻辨識不到，或是標記的時間點跟實際發音有微小的誤差。一開始我沒想到是這個問題，以為是影片編輯器的 bug，結果花了大概 500〜800 塊台幣的額外 token 費用，改了一堆東西，最後才發現根本是辨識標記不夠準。

更可惡的是，我一開始就跟 Claude Code 提過「會不會是辨識不精準的問題」，結果它就是不知道哪來的執念，一頭鑽進編輯器方向各種打補丁，改到亂七八糟，差點做不出來 XDDD

幸好後來我們想出一個測試方法：直接產出音檔，讓人工來聽，看這段程式的辨識有沒有問題。靠這一招釐清了問題所在，最後補上了 wav2vec2 工具，讓它精準分析每小段台詞的字音變化——例如 Whisper 讀到「我愛你」，wav2vec2 會再細分成「我。愛。你」三個字。加上這個之後，問題就順利解決了。

我個人的體會是：做工具不要求快，要求清楚地理解過程中發生了什麼。Claude 在開發過程中，它到底在做什麼、思路有沒有鑽牛角尖？有時候它需要你在方向上給它一個提醒——但前提是你自己也要搞懂整個架構。

如果你也想做一個自動剪輯系統

最快的方法，就是把上面這篇文章貼給 Claude，請它一步一步教你怎麼做。沒有什麼神奇的 prompt，就是這樣 XDD

但我是認真的——因為我自己也是這樣走過來的：遇到問題，找找別人怎麼解，然後試著自己做。重點是做的過程要試著理解技術面 Claude 到底在幹嘛，這會是一個很好玩的學習過程 XDD 很推薦大家試試看。

關於作者

我是 Rand，一位有 1500 小時以上經驗的 Life Coach，也是 AI 工具的打造者。助人者要同時服務個案、做行銷內容，還要處理預約、帳務、系統等各種行政事務，壓力山大。所以我開始自己做工具，讓自己能夠更輕鬆地完成各種個人品牌必備的任務，像自動產出輪播貼文、自動剪影片、自動產出 SEO 文章、AI 友善的網站架構，還有各種好玩的互動測驗用來導流跟引導人思考，這些對我來說，都是真的很好玩的事情！

想看用 AI 讓生活過得更輕省，追蹤 AI 生活實驗室 👉 @life.coach.mtcity，我們一起玩 AI！