Python sử dụng chuyển đổi giọng nói thành văn bản
Hướng dẫn API Chuyển đổi Giọng nói thành Văn bản#
Tổng quan#
Audio API cung cấp hai endpoint chính:📝 transcriptions: chuyển đổi âm thanh thành văn bản
🔄 translations: dịch âm thanh sang tiếng Anh
Định dạng được hỗ trợ#
📁 Kích thước file: tối đa 25 MB
🎵 Định dạng hỗ trợ: mp3, mp4, mpeg, mpg, m4a, wav, webm
Cách sử dụng#
1. Chuyển đổi (Transcription)#
Chuyển đổi âm thanh thành văn bản ngôn ngữ gốc2. Dịch (Translation)#
Chuyển đổi âm thanh bất kỳ ngôn ngữ nào thành văn bản tiếng Anh3. Tính năng Timestamp#
4. Xử lý file lớn#
Sử dụng PyDub để chia nhỏ file lớn hơn 25MB:Gợi ý tối ưu hóa#
Mẹo sử dụng Prompts#
1.
🔍 Dùng để sửa lỗi nhận dạng từ vựng cụ thể
2.
📜 Duy trì tính liên kết của ngữ cảnh
3.
✍️ Kiểm soát đầu ra dấu câu
4.
🗣️ Giữ lại các từ lấp liếm
5.
📝 Kiểm soát kiểu dáng văn bản đầu ra (ví dụ: tiếng Trung giản thể hay phồn thể)
Ngôn ngữ được hỗ trợ#
Hỗ trợ 98 ngôn ngữ, bao gồm:Các ngôn ngữ châu Á chính: tiếng Trung, tiếng Nhật, tiếng Hàn, v.v.
Ngôn ngữ châu Âu: tiếng Anh, tiếng Pháp, tiếng Đức, v.v.
Ngôn ngữ các khu vực khác: tiếng Ả Rập, tiếng Hindi, v.v.
Lưu ý: Chỉ liệt kê các ngôn ngữ có tỷ lệ lỗi từ (WER) dưới 50%, các ngôn ngữ khác mặc dù được hỗ trợ nhưng chất lượng có thể thấp hơn
Modified at 2026-03-08 06:37:17