Hướng dẫn API Chuyển đổi Giọng nói thành Văn bản

Tổng quan

Audio API cung cấp hai endpoint chính:

📝 transcriptions: chuyển đổi âm thanh thành văn bản

🔄 translations: dịch âm thanh sang tiếng Anh

Định dạng được hỗ trợ

📁 Kích thước file: tối đa 25 MB

🎵 Định dạng hỗ trợ: mp3, mp4, mpeg, mpg, m4a, wav, webm

Cách sử dụng

1. Chuyển đổi (Transcription)

Chuyển đổi âm thanh thành văn bản ngôn ngữ gốc

2. Dịch (Translation)

Chuyển đổi âm thanh bất kỳ ngôn ngữ nào thành văn bản tiếng Anh

3. Tính năng Timestamp

4. Xử lý file lớn

Sử dụng PyDub để chia nhỏ file lớn hơn 25MB:

Gợi ý tối ưu hóa

Mẹo sử dụng Prompts

🔍 Dùng để sửa lỗi nhận dạng từ vựng cụ thể

📜 Duy trì tính liên kết của ngữ cảnh

✍️ Kiểm soát đầu ra dấu câu

🗣️ Giữ lại các từ lấp liếm

📝 Kiểm soát kiểu dáng văn bản đầu ra (ví dụ: tiếng Trung giản thể hay phồn thể)

Ngôn ngữ được hỗ trợ

Hỗ trợ 98 ngôn ngữ, bao gồm:

Các ngôn ngữ châu Á chính: tiếng Trung, tiếng Nhật, tiếng Hàn, v.v.

Ngôn ngữ châu Âu: tiếng Anh, tiếng Pháp, tiếng Đức, v.v.

Ngôn ngữ các khu vực khác: tiếng Ả Rập, tiếng Hindi, v.v.

Lưu ý: Chỉ liệt kê các ngôn ngữ có tỷ lệ lỗi từ (WER) dưới 50%, các ngôn ngữ khác mặc dù được hỗ trợ nhưng chất lượng có thể thấp hơn

Python sử dụng chuyển đổi giọng nói thành văn bản

Hướng dẫn API Chuyển đổi Giọng nói thành Văn bản#

Tổng quan#

Định dạng được hỗ trợ#

Cách sử dụng#

1. Chuyển đổi (Transcription)#

2. Dịch (Translation)#

3. Tính năng Timestamp#

4. Xử lý file lớn#

Gợi ý tối ưu hóa#

Mẹo sử dụng Prompts#

Ngôn ngữ được hỗ trợ#