Trang chủBlog › Tách người nói là gì

Tách người nói (speaker diarization) là gì? Vì sao quan trọng khi phiên âm

Một bản phiên âm chỉ là khối chữ dài, không biết ai nói câu nào, sẽ rất khó dùng. Tách người nói giải quyết đúng việc đó: gán mỗi câu cho một người, để biên bản đọc như một cuộc hội thoại thật.

Tách người nói (speaker diarization) — gán mỗi câu trong bản phiên âm cho đúng người nói

Tách người nói là gì?

Tách người nói (tiếng Anh: speaker diarization) là quá trình xác định “ai nói khi nào” trong một đoạn audio, rồi gán mỗi đoạn lời cho một người (Người 1, Người 2, Người 3…). Nói cách khác, nó trả lời câu hỏi: câu này là của ai?

Khi ghép với bản phiên âm theo dấu thời gian, kết quả là một biên bản có nhãn người nói rõ ràng, thay vì một đoạn văn dài liền mạch không biết ai phát ngôn.

Tách người nói khác gì “nhận dạng người nói”?

Hai khái niệm dễ nhầm nhưng khác nhau:

Tách người nói (diarization)Nhận dạng người nói (recognition)
Trả lời“Ai nói câu nào” (Người 1/2/3)“Người này cụ thể là ai” (tên thật)
Cần mẫu giọng trước?KhôngCó — phải đăng ký giọng từng người
Dùng choPhiên âm hội thoại, biên bảnXác thực danh tính, bảo mật

Khi phiên âm cuộc họp hay phỏng vấn, thứ bạn cần gần như luôn là diarization: phân biệt các người nói với nhau là đủ, không cần hệ thống biết trước họ là ai.

Vì sao tách người nói quan trọng

Tách người nói hoạt động thế nào?

Đơn giản hoá, hệ thống làm 4 bước:

  1. Cắt đoạn — phát hiện lúc có tiếng nói và chia audio thành các đoạn nhỏ.
  2. Trích “dấu vân giọng” — mỗi đoạn được biến thành một vector đặc trưng thể hiện chất giọng (cao/thấp, âm sắc…).
  3. Gom nhóm — các đoạn có giọng giống nhau được gom vào một nhóm; mỗi nhóm = một người nói.
  4. Gắn nhãn & ghép — đặt nhãn Người 1/2/3 và ghép với bản phiên âm theo dấu thời gian.
Cách tách người nói hoạt động: cắt đoạn audio, trích dấu vân giọng, gom nhóm theo giọng, gắn nhãn người nói
4 bước: cắt đoạn → trích dấu vân giọng → gom nhóm theo giọng → gắn nhãn người nói.

Về số người: hệ thống có thể tự đoán, nhưng nếu bạn khai báo trước số người tham gia thì thường chính xác hơn — đỡ gộp hai người thành một, hoặc tách một người thành hai.

Vì sao đôi khi tách sai — và cách cải thiện

Tách người nói là phần khó; kết quả phụ thuộc nhiều vào chất lượng audio. Hay sai khi:

Mẹo để tách chính xác hơn:

Tách người nói với tiếng Việt thì sao?

Tin tốt: diarization chủ yếu dựa vào đặc trưng giọng, nên phần lớn độc lập với ngôn ngữ — tiếng Việt hay tiếng Anh đều xử lý được. Cái khó của hội thoại Việt thực tế nằm ở môi trường: quán đông, nhạc nền, nhiều người và hay chêm tiếng Anh. Vì vậy nên chọn công cụ vừa tách người nói tốt vừa mạnh tiếng Việt (xem thêm: chuyển giọng nói thành văn bản tiếng Việt — chọn công cụ nào).

Với Trâu Vàng, bản phiên âm có tách người nói kèm dấu thời gian: mỗi câu gán cho một người, bấm vào câu là tua đúng đoạn audio để kiểm chứng — và bạn có thể đổi nhãn “Người 1” thành tên thật khi cần.

Thử phiên âm có tách người nói

Tải file lên hoặc thu âm trực tiếp — nhận biên bản phân vai trong vài phút.

Bắt đầu ngay →

Câu hỏi thường gặp

Tách người nói có cần biết trước bao nhiêu người không?

Không bắt buộc — hệ thống tự đoán được. Nhưng khai báo trước số người thường cho kết quả chính xác hơn.

Có biết chính xác tên người nói không?

Không. Diarization chỉ gán “Người 1, Người 2…”. Muốn gắn tên thật, bạn tự đổi nhãn sau khi phiên âm.

Vì sao đôi khi gán nhầm người nói?

Thường do nói chồng, giọng giống nhau, mic xa hoặc thu mono trong môi trường ồn. Mic gần + hạn chế nói chồng sẽ giúp giảm nhầm.