Trợ lý giọng nói của Alibaba – AliGenie – được phát triển tương tự như Alexa trên Amazon Echo. Nó có thể đặt hàng trực tuyến, kiểm tra thời tiết, chơi nhạc yêu thích và điều khiển các thiết bị thông minh khác trong nhà thông qua các lệnh thoại.
Nền tảng đàm thoại DuerOS của Baidu đã được thêm vào như là một tính năng trong các sản phẩm như robot trợ lí, một hộp set-top box và một điện thoại thông minh HTC. Nó có các chức năng tương tự như AliGenie và các trợ lý giọng nói khác, cũng như khả thực hiện cuộc trò chuyện ngẫu nhiên (dù còn khá thô sơ). Công ty cho biết họ đã nhận được nhiều đơn đặt hàng cho bộ công cụ DuerOS.
Kun Jing, tổng giám đốc đơn vị kinh doanh Duer của Baidu, hy vọng sẽ có thêm nhiều công ty tham gia vào lĩnh vực này trong năm nay. Niềm tin này một phần xuất phát từ sự thành công của các sản phẩm như Echo ở thị trường Mỹ (chính điều này đã thu hút sự quan tâm của các công ty công nghệ Trung Quốc).
Công ty nghiên cứu IDC dự đoán rằng đến năm 2020, 51% ngành công nghiệp lái xe thông minh và 68% ngành công nghiệp điện thoại di động, thiết bị đeo ở Trung Quốc sẽ có một hệ thống trò chuyện dựa trên AI. Các giao diện thoại sẽ tương tác một cách tự nhiên hơn và thu hút nhiều người hơn vào thế giới kết nối (theo Jing, người giám sát sự phát triển của DuerOS).
Máy tính dựa trên giọng nói là một lựa chọn tốt cho Trung Quốc. Ngày nay, việc gõ tiếng Trung trên một bàn phím QWERTY điển hình dựa vào một hệ thống được gọi là "pinyin" – nó được phát triển dựa trên các phát âm của các chữ cái nhưng vì có 4 tông giọng theo tiếng Quan Thoại và mỗi chữ có ý nghĩa khác nhau nên người dùng phải lựa chọn đúng chữ mình cần (theo cách phát âm). Một âm tiết phổ biến như "yi" có thể tương ứng với 60 hoặc nhiều hơn các ký tự được sử dụng phổ biến tại Trung Quốc.
Một số phương pháp nhập liệu có thể ưu tiên cho chữ có nhiều khả năng nhất theo ngữ cảnh, nhưng chúng không phải lúc nào cũng chính xác. Không quá ngạc nhiên khi người dùng các công nghệ di động (ví dụ như ứng dụng WeChat) lại có xu hướng để lại tin nhắn thoại, chứ không phải bằng văn bản được gõ như ở Mỹ.
Ở Trung Quốc ngày nay, công nghệ trợ lý giọng nói hoạt động bằng cách chuyển lệnh thoại của người dùng sang văn bản và tạo ra một phản hồi dựa trên ý nghĩa của văn bản. Quá trình này hoạt động khá tốt đối với các lệnh dựa trên nhiệm vụ, ví dụ như kiểm tra tiếng Anh hay tìm bản dịch sang tiếng Anh của một từ tiếng Trung cụ thể. Tuy nhiên, điều này khó lòng duy trì liên tục qua các cuộc trò chuyện được thay đổi chủ đề liên tục.
Giải quyết vấn đề đàm thoại cho máy tính đòi hỏi phải vượt qua một số thử thách đầy phức tạp của ngôn ngữ Trung Quốc. Ví dụ, ở Trung Quốc, các chữ giống nhau được sắp xếp theo thứ tự khác nhau sẽ có nghĩa khác nhau. Tuy nhiên, vẫn có những trường hợp sắp xếp theo cùng một thứ tự lại có ý nghĩa khác nhau phù hợp với chữ trước hoặc sau nó. Ngoài ra, văn bản Trung Quốc không có khoảng trống phân chia từ như tiếng Anh.
Vì vậy, các nhà nghiên cứu ngôn ngữ tự nhiên của Trung Quốc phải tạo ra các thuật toán để chèn vào các khoảng trống nhằm tạo ra ý nghĩa đúng đắn khi kết hợp các chữ với nhau. Trong tiếng Trung Quốc cũng không có hình thức phân chia đặc biệt như thì hiện tại, tương lai hay quá khứ, điều này làm cho máy móc khó khăn trong việc giải mã thời gian của một chuỗi sự kiện.
Các nhà nghiên cứu cũng đang phải đối phó với những thách thức khác như: có nhiều tiếng địa phương tồn tại, một số trong đó không thể hiểu được lẫn nhau và cùng một biểu hiện có thể có nghĩa là những thứ khác nhau trong các ngữ cảnh khác nhau.
Zhiyong Wu, giáo sư tại Đại học Tsinghua, người đã có nhiều kinh nghiệm nghiên cứu về ngôn ngữ tự nhiên của Trung Quốc nói rằng để máy tính thực sự hiểu ý định của một người nói và giao tiếp một cách thích hợp thì nó cần tiếp nhận những thông tin tinh vi như ngữ điệu. Chúng cũng sẽ phải hiểu những cảm xúc bởi vì việc đưa ra quyết định của con người không chỉ dựa trên logic.
Theo Technologyreview, để làm cho hệ thống của mình trở nên thông minh hơn, Baidu giới thiệu mô hình "huấn luyện viên" (trainer) trên nền tảng của họ trong năm nay để cho phép các nhà phát triển phần mềm đóng góp dữ liệu ngôn ngữ theo thời gian thực thông qua một bot chú thích gắn liền. Bot này nhận được thông tin phản hồi của nhà phát triển (như lời giải thích của một truy vấn hệ thống mà lần đầu tiên nó không hiểu), học hỏi từ đó và sau đó sửa chữa hệ thống.
Một lợi thế mà các nhà nghiên cứu Trung Quốc khi họ cố gắng giải quyết những vấn đề này là một lượng lớn dữ liệu. Mạng thần kinh nhân tạo (Neural Networks) làm nền tảng cho sự hiểu biết ngôn ngữ của các máy tính ngày nay đòi hỏi số lượng lớn dữ liệu để đào tạo. Dữ liệu càng nhiều thì hệ thống thần kinh nhân tạo càng nhanh chóng trưởng thành, bởi vậy những công ty như Alibaba hay Baidu có lợi thế khi sở hữu một cơ sở người dùng rộng lớn. Tính đến cuối năm 2016, Baidu cho biết họ có 665 triệu người dùng di động hàng tháng và vào tháng 3 năm nay, Alibaba đã có 507 triệu người dùng di động hàng tháng.
Nhưng Gang Wang, một nhà khoa học thuộc Phòng thí nghiệm của Alibaba Lab cho biết các nhà nghiên cứu sẽ phải thiết kế mạng thần kinh nhân tạo không cần nhiều dữ liệu nhưng lại hiệu quả hơn trong việc học tập ngôn ngữ. Ông lưu ý rằng, trong thế giới thực, mọi người thể hiện ý nghĩa tương tự theo những cách khác nhau, và không thể dạy cho máy tính mọi biểu hiện khả dĩ.
Với vai trò là nhà nghiên cứu học thuật, ông và các đồng nghiệp đã đưa ra phương pháp giảng dạy cho máy tính hiểu một chủ đề khi có rất ít dữ liệu, đó là sử dụng dữ liệu từ các chủ đề có liên quan. Ví dụ, để đào tạo một mạng lưới thần kinh hiểu các vấn đề trong y học thể thao, bạn có thể rút ra dữ liệu từ thể thao và dữ liệu từ y học. Cách tiếp cận này không tốt bằng cách sử dụng các dữ liệu hữu cơ nhưng có cũng có thể giúp hệ thống hiểu rõ được một chủ đề với lượng dữ liệu ít mà nó được cung cấp.
Theo Chenfeng Song, người sáng lập ra Ainemo, điều tạo ra một trợ lí AI thành công tại Trung Quốc là nội dung và dịch vụ của. Đây chính là khởi điểm để công ty bán ra robot trợ giúp bằng giọng nói được gọi là Little Fish vào đầu tháng Sáu vừa qua. Song có kế hoạch để dần dần xây dựng các chương trình giáo dục và chăm sóc sức khỏe dựa vào trợ lí của công ty ông. Little Fish sử dụng nền tảng đàm thoại DuerOS. Lệnh thoại (Voice) là một cách rất tốt để phân phối nội dung cho những người không thể truy cập Internet thông qua máy tính để bàn và điện thoại thông minh, đặc biệt là trẻ em và người lớn tuổi.