Tách người nói có biết chính xác tên người không?

Không. Tách người nói (diarization) chỉ phân biệt 'Người 1, Người 2...' theo đặc trưng giọng, không biết danh tính. Muốn gắn tên thật, bạn tự đổi nhãn sau khi phiên âm. Việc biết cụ thể ai là ai cần một kỹ thuật khác gọi là nhận dạng người nói.

Vì sao đôi khi tách người nói bị nhầm?

Thường do nhiều người nói chồng lên nhau, giọng quá giống nhau, micro đặt xa hoặc thu một kênh (mono) trong môi trường ồn. Đặt mic gần, hạn chế nói chồng và khai báo số người sẽ giúp giảm nhầm.

Trang chủ › Blog › Tách người nói là gì

Tách người nói (speaker diarization) là gì? Vì sao quan trọng khi phiên âm

Q: Tách người nói có cần biết trước bao nhiêu người không?

Không bắt buộc — hệ thống có thể tự đoán số người. Nhưng nếu bạn khai báo trước số người tham gia, kết quả thường chính xác hơn, đỡ gộp hoặc tách nhầm.

Một bản phiên âm chỉ là khối chữ dài, không biết ai nói câu nào, sẽ rất khó dùng. Tách người nói giải quyết đúng việc đó: gán mỗi câu cho một người, để biên bản đọc như một cuộc hội thoại thật.

Tách người nói (speaker diarization) — gán mỗi câu trong bản phiên âm cho đúng người nói

Tách người nói là gì?

Tách người nói (tiếng Anh: speaker diarization) là quá trình xác định “ai nói khi nào” trong một đoạn audio, rồi gán mỗi đoạn lời cho một người (Người 1, Người 2, Người 3…). Nói cách khác, nó trả lời câu hỏi: câu này là của ai?

Khi ghép với bản phiên âm theo dấu thời gian, kết quả là một biên bản có nhãn người nói rõ ràng, thay vì một đoạn văn dài liền mạch không biết ai phát ngôn.

Tách người nói khác gì “nhận dạng người nói”?

Hai khái niệm dễ nhầm nhưng khác nhau:

	Tách người nói (diarization)	Nhận dạng người nói (recognition)
Trả lời	“Ai nói câu nào” (Người 1/2/3)	“Người này cụ thể là ai” (tên thật)
Cần mẫu giọng trước?	Không	Có — phải đăng ký giọng từng người
Dùng cho	Phiên âm hội thoại, biên bản	Xác thực danh tính, bảo mật

Khi phiên âm cuộc họp hay phỏng vấn, thứ bạn cần gần như luôn là diarization: phân biệt các người nói với nhau là đủ, không cần hệ thống biết trước họ là ai.

Vì sao tách người nói quan trọng

Biên bản đọc được — gán đúng vai (chủ trì, khách, thành viên) thay vì một khối chữ.
Phỏng vấn — tách rõ lời người hỏi và người trả lời, tiện trích dẫn (xem thêm: cách phiên âm file ghi âm cuộc họp).
Tư vấn & bán hàng — đo tỷ lệ nói giữa nhân viên và khách (nói quá nhiều hay lắng nghe đủ?), tìm đúng đoạn khách nêu nhu cầu.
Pháp lý, y tế, nghiên cứu — biết chính xác ai phát ngôn điều gì.
Tìm kiếm nhanh — lọc “chỉ xem lời của Người 2”, nhảy đúng đoạn cần.

Tách người nói hoạt động thế nào?

Đơn giản hoá, hệ thống làm 4 bước:

Cắt đoạn — phát hiện lúc có tiếng nói và chia audio thành các đoạn nhỏ.
Trích “dấu vân giọng” — mỗi đoạn được biến thành một vector đặc trưng thể hiện chất giọng (cao/thấp, âm sắc…).
Gom nhóm — các đoạn có giọng giống nhau được gom vào một nhóm; mỗi nhóm = một người nói.
Gắn nhãn & ghép — đặt nhãn Người 1/2/3 và ghép với bản phiên âm theo dấu thời gian.

Cách tách người nói hoạt động: cắt đoạn audio, trích dấu vân giọng, gom nhóm theo giọng, gắn nhãn người nói — 4 bước: cắt đoạn → trích dấu vân giọng → gom nhóm theo giọng → gắn nhãn người nói.

Về số người: hệ thống có thể tự đoán, nhưng nếu bạn khai báo trước số người tham gia thì thường chính xác hơn — đỡ gộp hai người thành một, hoặc tách một người thành hai.

Vì sao đôi khi tách sai — và cách cải thiện

Tách người nói là phần khó; kết quả phụ thuộc nhiều vào chất lượng audio. Hay sai khi:

Nói chồng — nhiều người nói cùng lúc, ranh giới mờ.
Giọng quá giống nhau — ví dụ hai người cùng giới, cùng tông.
Micro đặt xa hoặc thu một kênh (mono) trong phòng ồn.
Audio nén mạnh, mất chi tiết giọng.

Mẹo để tách chính xác hơn:

Đặt mic gần người nói, giảm tiếng ồn/nhạc nền.
Hạn chế nói chồng; để mỗi người nói dứt câu.
Khai báo số người nếu công cụ cho phép.
Ghi ở chất lượng tốt, tránh nén quá mạnh.

Tách người nói với tiếng Việt thì sao?

Tin tốt: diarization chủ yếu dựa vào đặc trưng giọng, nên phần lớn độc lập với ngôn ngữ — tiếng Việt hay tiếng Anh đều xử lý được. Cái khó của hội thoại Việt thực tế nằm ở môi trường: quán đông, nhạc nền, nhiều người và hay chêm tiếng Anh. Vì vậy nên chọn công cụ vừa tách người nói tốt vừa mạnh tiếng Việt (xem thêm: chuyển giọng nói thành văn bản tiếng Việt — chọn công cụ nào).

Với Trâu Vàng, bản phiên âm có tách người nói kèm dấu thời gian: mỗi câu gán cho một người, bấm vào câu là tua đúng đoạn audio để kiểm chứng — và bạn có thể đổi nhãn “Người 1” thành tên thật khi cần.

Thử phiên âm có tách người nói

Tải file lên hoặc thu âm trực tiếp — nhận biên bản phân vai trong vài phút.

Bắt đầu ngay →

Câu hỏi thường gặp

Tách người nói có cần biết trước bao nhiêu người không?

Không bắt buộc — hệ thống tự đoán được. Nhưng khai báo trước số người thường cho kết quả chính xác hơn.

Có biết chính xác tên người nói không?

Không. Diarization chỉ gán “Người 1, Người 2…”. Muốn gắn tên thật, bạn tự đổi nhãn sau khi phiên âm.

Vì sao đôi khi gán nhầm người nói?

Thường do nói chồng, giọng giống nhau, mic xa hoặc thu mono trong môi trường ồn. Mic gần + hạn chế nói chồng sẽ giúp giảm nhầm.