음성 인식 (STT)

STT 엔진

Whisper: 범용 음성인식, 다양한 모델 크기 선택 가능

Whisper 모델

large-v3-turbo: large-v3와 비슷한 품질, 더 빠른 속도

SeamlessM4T 모델

large: Meta의 다국어 모델, 한국어 성능 우수

화자 분리

화자 분리 모델

FunASR: 한국어/중국어에 최적화, 토큰 불필요

자막 타이밍

자막 미리 표시 (초)

0.0초

자막이 실제 시점보다 미리 나타나는 시간

자막 지연 사라짐 (초)

0.5초

자막이 끝난 후 화면에 유지되는 시간

문장 분리 간격 (초)

1.5초

이 간격 이상 침묵시 문장을 분리

영상 자동 편집기

AI 기반 음성 인식 및 화자 분리

영상 파일을 업로드하세요

00:00 / 00:00

파일 업로드

클릭하거나 파일을 드래그하세요

MP4, AVI, MKV, MOV, WebM (무제한)

자동 처리

영상을 업로드하고 처리 버튼을 누르세요.
설정에서 모델을 변경할 수 있습니다.

진행 상태

음성 인식 0%

화자 분리 0%