Nhập từ khóa muốn tìm kiếm gì?

Google AI Edge Eloquent: Ứng dụng nhập liệu giọng nói có thể thay thế bàn phím vật lý

Google AI Edge Eloquent: Ứng dụng nhập liệu giọng nói có thể thay thế bàn phím vật lý

Google vừa giới thiệu Google AI Edge Eloquent trên iOS - ứng dụng chuyển đổi giọng nói thành văn bản hoàn toàn mới với khả năng hoạt động offline và tự động tối ưu nội dung, mở ra khả năng thay thế bàn phím vật lý trên thiết bị di động trong tương lai gần.

Công nghệ Gemma giúp nhận dạng giọng nói trực tiếp trên thiết bị

Google AI Edge Eloquent hoạt động dựa trên các mô hình nhận dạng giọng nói Gemma của Google, cho phép xử lý giọng nói ngay trên thiết bị mà không cần kết nối internet. Đây là điểm khác biệt lớn so với các giải pháp chuyển giọng nói thành văn bản hiện có thường phụ thuộc vào cloud computing để xử lý dữ liệu. Khi người dùng nói, ứng dụng hiển thị nội dung theo thời gian thực trên màn hình, tạo cảm giác nhập liệu liền mạch như đang gõ phím thông thường.

Việc xử lý offline mang lại hai lợi ích chính. Thứ nhất là tốc độ phản hồi nhanh hơn vì không phải gửi dữ liệu lên server và chờ kết quả trả về. Thứ hai là vấn đề riêng tư được đảm bảo hoàn toàn vì giọng nói không bao giờ rời khỏi thiết bị, trong khi các giải pháp cloud thường ghi lại và lưu trữ dữ liệu giọng nói để cải thiện độ chính xác. Google thiết kế Eloquent với tùy chọn xử lý nội bộ mặc định, chỉ chuyển sang chế độ đám mây khi người dùng chủ động bật.

Công nghệ Gemma được Google phát triển tối ưu cho thiết bị di động, đặc biệt là các chiếc iPhone với chip Apple Silicon đời mới. Mô hình này đủ nhẹ để chạy trên RAM của thiết bị nhưng vẫn đủ mạnh để nhận dạng giọng nói với độ chính xác cao, bao gồm cả tiếng Việt với các âm tiết và từ ghép phức tạp. Đây là bước tiến lớn so với các giải pháp nhận dạng giọng nói trước đây thường gặp khó khăn với các ngôn ngữ không phổ biến như tiếng Việt.

Giao diện chuyển giọng nói thành văn bản thời gian thực

Giao diện ứng dụng hiển thị nội dung theo thời gian thực khi người dùng nói

Tính năng tự động lọc từ đệm và chỉnh sửa câu văn

Điểm mạnh nhất của Google AI Edge Eloquent so với các giải pháp như Dictation của Apple hay Google Voice Typing truyền thống là khả năng tự động tối ưu nội dung sau khi chuyển đổi. Khi người dùng dừng nói, ứng dụng tự động quét văn bản vừa tạo ra và loại bỏ các từ đệm vô nghĩa như "um", "ah", "ờ", "à" - những từ xuất hiện rất thường xuyên trong văn nói nhưng không nên có trong văn viết.

Quan trọng hơn, hệ thống không chỉ lọc từ đệm mà còn chỉnh sửa câu văn để trở nên mạch lạc và rõ ràng hơn. Các câu rời rạc được nối lại, cấu trúc câu được sắp xếp lại theo ngữ pháp chuẩn, văn phong được điều chỉnh để tự nhiên hơn. Kết quả cuối cùng không phải là bản ghi chép thô mà một đoạn văn đã qua biên tập cơ bản, có thể sử dụng ngay mà không cần chỉnh sửa nhiều.

Apple Dictation hiện tại chỉ chuyển giọng nói thành văn bản nguyên bản, giữ lại cả từ đệm và cấu trúc câu văn nói, khiến người dùng phải dành thời gian edit lại. Google Voice Typing trên Gboard cũng tương tự. Eloquent giải quyết vấn đề này bằng cách tích hợp AI hiểu được ngữ cảnh và biết cách biến văn nói thành văn viết tự nhiên. Việc này tiết kiệm đáng kể thời gian cho người dùng, đặc biệt khi soạn thảo email dài, bài viết hoặc tài liệu.

Ứng dụng cũng cho phép người dùng điều chỉnh mức độ can thiệp của AI vào nội dung. Chế độ nhẹ chỉ lọc từ đệm và sửa lỗi chính tả cơ bản. Chế độ mạnh sẽ thay đổi cấu trúc câu và điều chỉnh văn phong. Người dùng có thể chọn mức phù hợp với từng nhu cầu cụ thể: nhắn tin nhanh thì dùng chế độ nhẹ, viết tài liệu chính thức thì dùng chế độ mạnh.

Bộ công cụ xử lý nội dung tích hợp sẵn

Google AI Edge Eloquent không chỉ là công cụ chuyển giọng nói thành văn bản mà còn tích hợp nhiều tính năng xử lý nội dung nâng cao. Người dùng có thể yêu cầu tóm tắt ý chính từ đoạn văn bản vừa tạo, giúp rút ngắn nội dung dài dòng thành các bullet points ngắn gọn. Tính năng này hữu ích khi bạn nói dài dòng về một chủ đề nhưng muốn kết luận ngắn gọn để gửi email hoặc báo cáo.

Ứng dụng cũng cho phép điều chỉnh văn phong của đoạn văn. Bạn có thể chuyển từ văn phong trang trọng sang văn phong thân mật, hoặc ngược lại, chỉ bằng vài thao tác. Tính năng này giúp tiết kiệm thời gian khi cần viết cùng một nội dung cho nhiều đối tượng khác nhau: báo cáo cho sếp thì trang trọng, thông báo cho team thì thân thiện. Viết lại văn bản bằng tay cho từng phiên bản sẽ rất tốn thời gian, nhưng với Eloquent, việc này chỉ mất vài giây.

Khi bật chế độ đám mây, ứng dụng tận dụng sức mạnh của Gemini - mô hình AI hiện đại nhất của Google - để nâng cao chất lượng xử lý. Gemini giúp hiểu ngữ cảnh sâu hơn, phát hiện các lỗi ngữ vi phức tạp và đề xuất cách diễn đạt tự nhiên hơn. Tuy nhiên, chế độ này sẽ gửi dữ liệu lên server Google nên chỉ nên dùng cho nội dung không nhạy cảm. Google cho biết dù có bật chế độ cloud, dữ liệu vẫn không được lưu trữ sau khi xử lý xong.

Một tính năng hữu ích khác là khả năng thay đổi độ dài văn bản. Bạn có thể yêu cầu rút gọn một đoạn văn dài, hoặc mở rộng ý tưởng ngắn gọn thành phân tích chi tiết. Tính năng này đặc biệt hữu ích khi viết các đoạn giới thiệu, summary hoặc mở rộng ý cho bài viết. Người dùng chỉ cần nói ý chính, AI sẽ giúp phát triển thành đoạn văn hoàn chỉnh với độ dài mong muốn.

Công cụ tóm tắt và điều chỉnh văn phong trong ứng dụng

Bộ công cụ xử lý nội dung giúp tối ưu văn bản chỉ với vài thao tác

Cá nhân hóa từ vựng và lưu trữ lịch sử chi tiết

Google hiểu rằng mỗi người dùng có cách nói và từ vựng riêng, đặc biệt trong môi trường công việc với các thuật ngữ chuyên ngành hoặc tên riêng. Google AI Edge Eloquent cho phép người dùng bổ sung từ vựng cá nhân vào từ điển của ứng dụng. Bạn có thể thêm tên đồng nghiệp, tên sản phẩm, thuật ngữ kỹ thuật, hoặc bất kỳ từ nào bạn hay dùng mà AI thường nhận diện sai.

Khi từ vựng được thêm vào, ứng dụng sẽ tự động ghi nhớ và sử dụng cho lần sau. Điều này giúp tăng độ chính xác nhận diện đáng kể theo thời gian. Ví dụ, bạn hay nói về sản phẩm "XPhone" nhưng AI thường hiểu là "iPhone" - sau khi thêm "XPhone" vào từ điển cá nhân, vấn đề sẽ được giải quyết hoàn toàn. Tính năng này đặc biệt quan trọng với các ngành như kỹ thuật, y tế, hoặc bất kỳ lĩnh vực nào có nhiều thuật ngữ riêng.

Ứng dụng lưu trữ toàn bộ lịch sử ghi âm, cho phép người dùng tìm kiếm và truy xuất lại nội dung cũ. Bạn có thể tìm kiếm theo từ khóa, thời gian, hoặc độ dài ghi âm. Lịch sử này không chỉ là văn bản cuối cùng mà còn giữ nguyên bản ghi âm gốc, giúp bạn có thể kiểm tra lại nếu AI hiểu sai ý. Tính năng này hữu ích khi cần tra cứu thông tin đã nói trước đó mà không nhớ chính xác thời điểm.

Google cũng cung cấp các thống kê chi tiết về thói quen nói của người dùng: tốc độ nói trung bình, tổng số từ đã ghi nhận, tần suất sử dụng, và các chỉ số khác. Những thống kê này không chỉ thú vị mà còn giúp bạn hiểu rõ hơn về cách mình nói và từ đó điều chỉnh để đạt hiệu quả tốt hơn. Ví dụ, nếu tốc độ nói quá nhanh, AI có thể không kịp nhận diện chính xác, bạn sẽ biết cần nói chậm lại.

Phiên bản Android với khả năng thay thế bàn phím mặc định

Hiện Google AI Edge Eloquent chỉ có trên iOS, nhưng nhiều thông tin cho thấy phiên bản Android đang được phát triển với khả năng tích hợp sâu hơn nhiều so với bản iOS. Google đang nghiên cứu phương án cho phép ứng dụng thay thế bàn phím mặc định của Android, biến Eloquent thành phương thức nhập liệu chính thay vì chỉ là một ứng dụng độc lập.

Nếu tính năng này được thực hiện, người dùng Android sẽ có thể nhập liệu bằng giọng nói ở bất kỳ đâu: nhắn tin Zalo, viết email, soạn thảo tài liệu Google Docs, hoặc bất kỳ ứng dụng nào cần nhập liệu. Viết bằng giọng nói sẽ trở nên tự nhiên như gõ phím, chỉ cần nhấn nút nói và nói thay vì gõ từng ký tự. Google cũng đang cân nhắc phương án nút nổi toàn hệ thống, cho phép kích hoạt nhập liệu giọng nói chỉ với một lần chạm từ bất kỳ màn hình nào.

Phiên bản Android được kỳ vọng sẽ tận dụng được sự linh hoạt của hệ điều hành này để tích hợp sâu hơn vào hệ thống. Apple thường hạn chế các ứng dụng bên thứ ba thay thế các tính năng hệ thống cốt lõi như bàn phím, trong khi Android cho phép tùy biến nhiều hơn. Đây là lý do Google có thể phát triển phiên bản Android mạnh mẽ hơn với khả năng thay thế hoàn toàn bàn phím vật lý trong nhiều tình huống.

Việc thay thế bàn phím vật lý bằng giọng nói có thể sẽ không diễn ra ngay lập tức, nhưng với sự phát triển của AI như hiện nay, tương lai này không còn quá xa vời. Các tình huống mà nhập liệu giọng nói sẽ vượt trội hơn bàn phím bao gồm: lái xe, nấu ăn, tập thể dục, hoặc bất kỳ khi nào hai tay đang bận. Giọng nói là phương thức nhập liệu tự nhiên nhất của con người, và công nghệ như Eloquent đang giúp nó trở nên thực tế cho các công việc hàng ngày.

So sánh với các giải pháp nhập liệu giọng nói hiện có

Trên thị trường hiện có nhiều giải pháp nhập liệu giọng nói, từ Dictation tích hợp sẵn trong iOS và Android đến các ứng dụng chuyên nghiệp như Otter.ai hoặc Whisper. Dictation của Apple và Google Voice Typing là miễn phí và tích hợp sẵn trong hệ điều hành, nhưng chỉ chuyển giọng nói thành văn bản cơ bản mà không có tính năng chỉnh sửa hay tối ưu nội dung.

Otter.ai tập trung vào ghi chú cuộc họp với khả năng nhận diện người nói và tạo transcript chi tiết, nhưng chủ yếu dùng cho môi trường doanh nghiệp và yêu cầu kết nối internet. Whisper của OpenAI có độ chính xác cao nhất hiện nay nhưng chủ yếu dùng cho transcribe audio file, không phải nhập liệu thời gian thực. Các giải pháp này đều không hướng đến việc thay thế bàn phím trong giao tiếp hàng ngày.

Google AI Edge Eloquent định vị ở giữa: miễn phí như Dictation nhưng có tính năng AI mạnh mẽ như các giải pháp trả phí, tập trung vào nhập liệu hàng ngày thay vì chuyên dụng cho meeting notes. Điểm khác biệt lớn nhất là khả năng tự động tối ưu nội dung sau khi chuyển đổi, biến văn nói thành văn viết tự nhiên - tính năng không có trong bất kỳ giải pháp nào khác hiện nay.

Tuy nhiên, Eloquent cũng có những hạn chế. Ứng dụng mới ra mắt nên có thể còn lỗi và chưa ổn định. Tính năng tiếng Việt dù đã cải thiện nhưng chưa chắc bằng tiếng Anh. Việc phụ thuộc vào internet cho chế độ cloud có thể gây phiền toái khi kết nối kém. Google cũng chưa công bố lộ trình cập nhật hay hỗ trợ lâu dài, khiến người dùng lo ngại về tính bền vững của giải pháp này.

So với bàn phím vật lý, nhập liệu giọng nói vẫn còn những hạn chế về độ chính xác và độ nhạy. Trong môi trường ồn ào, nhận diện giọng nói sẽ kém đi. Một số nội dung như code, ký hiệu đặc biệt, hoặc công thức toán học vẫn khó thể nhập bằng giọng nói hiệu quả. Bàn phím vật lý vẫn sẽ cần thiết trong nhiều tình huống ít nhất trong tương lai gần.

Câu hỏi thường gặp

Google AI Edge Eloquent có miễn phí không?

Ứng dụng hiện đang miễn phí trên iOS nhưng chưa rõ Google có thu phí trong tương lai hay không.

Ứng dụng hỗ trợ ngôn ngữ nào?

Hiện hỗ trợ chính tiếng Anh và tiếng Việt, cùng một số ngôn ngữ phổ biến khác.

Có thể dùng khi không có internet không?

Có, chế độ offline cho phép nhập liệu giọng nói hoàn toàn mà không cần kết nối internet.

Khi nào có phiên bản Android?

Google chưa công bố ngày phát hành chính thức nhưng nhiều thông tin cho rằng đang trong giai đoạn phát triển.

Tính năng nào khác biệt nhất so với Dictation của Apple?

Khả năng tự động lọc từ đệm và chỉnh sửa câu văn mạch lạc là tính năng độc nhất của Eloquent so với Dictation.

Khám Phá

Xu hướng AI trên thiết bị di động năm 2026: Gemini Nano 4 và Hybrid AI thay đổi cách sử dụng laptop

Meta giới thiệu trợ lý AI kinh doanh tự động hóa quy trình bán hàng

iPhone 17 Pro Max chụp ảnh từ không gian: Hình ảnh Trái Đất ngoạn mục mang đến tầm nhìn mới

Bài viết liên quan
iPhone 17 Pro Max dẫn đầu thị trường smartphone toàn cầu: Chiến lược thành công của Apple

iPhone 17 Pro Max đạt 5% thị phần toàn cầu quý 4/2025, trở thành smartphone bán chạy nhất thế giới. Phân tích chiến lược của Apple và vị thế đối thủ.

Pin hạt nhân Zhulong-1: Công nghệ năng lượng mới hoạt động liên tục hơn 100 năm

Khám phá Zhulong-1 - pin hạt nhân từ Đại học Sư phạm Tây Bắc hoạt động >100 năm, mật độ năng lượng cao hơn 10x lithium-ion, chịu nhiệt -100°C đến 200°C.

Việt Nam tiên phong triển khai mạng 6G với công nghệ AI-native

Việt Nam trở thành quốc gia đầu tiên trên thế giới triển khai mạng 6G theo kiến trúc AI-native. FPT, Viettel, VNG tham gia liên minh toàn cầu với Google, Meta, Microsoft.

iOS 27: Ứng dụng Siri độc lập trên màn hình chính

iOS 27 sẽ ra mắt ứng dụng Siri riêng trên màn hình chính iPhone với giao diện mới, tích hợp Google Gemini và tính năng tương tác như ChatGPT.

Google AI Edge Eloquent: Ứng dụng nhập liệu giọng nói có thể thay thế bàn phím vật lý

Google ra mắt Google AI Edge Eloquent trên iOS - ứng dụng chuyển giọng nói thành văn bản hoạt động offline với tính năng tự chỉnh sửa và tóm tắt nội dung.

iPhone 5C trở thành tượng đài Gen Z: Vượt thời gian nhờ thiết kế màu sắc và camera hoài cổ

iPhone 5C ra mắt 2013 đang được Gen Z săn tìm nhờ thiết kế vỏ nhựa đa sắc và chất ảnh nhiễu hạt độc đáo, phản ánh xu hướng tìm kiếm công nghệ mang cảm xúc.

iPhone 17 Pro Max chụp ảnh từ không gian: Hình ảnh Trái Đất ngoạn mục mang đến tầm nhìn mới

NASA công bố những bức ảnh chụp từ không gian bằng iPhone 17 Pro Max trong sứ mệnh Artemis II, mở ra góc nhìn mới về khả năng nhiếp ảnh smartphone.