Nếu bạn làm việc trong lĩnh vực báo chí số, rất có thể bạn đã sử dụng một số loại thẻ (tag) trong các nội dung đã đăng của mình.
Theo một nghiên cứu của Parse.ly từ năm 2015, 70% công ty truyền thông, báo chí đã sử dụng tag. Con số này chắc chắn đã tăng lên rất nhiều vào năm 2021. Theo What’s New In Publishing, các cơ quan báo chí, truyền thông khác nhau áp dụng cách tiếp cận để gắn tag nội dung cũng khác nhau.
Tag là gì?
Trong ngữ cảnh của nội dung tin tức, tag là một loại siêu dữ liệu. Một bài báo thường đi kèm với siêu dữ liệu, chẳng hạn như tác giả của bài đăng, dấu thời gian (timestamp - một chuỗi các ký tự hoặc thông tin được mã hóa xác định khi một sự kiện nào đó xảy ra, thường là ngày và giờ) và thông tin thuộc thành phần nào của trang web đó (chẳng hạn như tin tức, kinh doanh, văn hóa... Không có tag - siêu dữ liệu, tất cả những gì bạn còn lại chỉ là những con số không có ngữ cảnh! Đôi khi, tag còn được hiểu là từ khóa hay chủ đề.
Trước khi nói về bản thân các tag, chúng ta cần quan tâm đến các thành phần tạo nên một trang web tin tức. Các công ty báo chí, truyền thông có thể tự thiết kế hoặc dựa trên các tiêu chuẩn hiện có của các tổ chức uy tín trên thế giới, chẳng hạn như IPTC (Hội đồng Viễn thông Báo Chí Quốc tế) hoặc IAB (Hội đồng kiến trúc Internet). Các cơ quan báo chí có thể sử dụng luôn hệ thống này hoặc tùy chỉnh cho phù hợp với nhu cầu của từng tổ chức.
Các hệ thống này bao gồm một tập hợp các danh mục. Một tờ báo đa ngành nghề, lĩnh vực có thể chỉ sử dụng các danh mục cấp khái quát nhất (ví dụ: chính trị, thể thao, khoa học…) trong khi một tạp chí chuyên ngành hơn sẽ nghiên cứu sâu hơn về lĩnh vực quan tâm cụ thể của họ. Các bài viết được đưa lên sẽ phù hợp hoặc thuộc một danh mục nào đó trên hệ thống.
Điều này có ý nghĩa hoàn hảo đối với cấu trúc của một trang web tin tức nhưng nó cũng đồng nghĩa với việc nhiều bài báo cùng chủ đề sẽ được đặt trong cùng một danh mục.
Một bài báo có thể thuộc danh mục “chính trị thế giới” nhưng chỉ bấy nhiêu đó không đủ để nói cho bạn đọc biết bài báo đó đề cập đến điều gì. Đó là mối quan hệ Mỹ - Nga? Hay các cuộc bầu cử ở Đức? Đây là lý do tại sao các “thẻ từ khóa” - “keyword tag” xuất hiện.
Tag “từ khóa” hoặc tag “chủ đề” là những thẻ được sử dụng phổ biến nhất. Chúng cho phép “phân loại” một cách chi tiết các bài báo. Một số loại tag khác cũng khá hữu ích có thể kể đến như tag dựa trên nội dung, quan điểm, đặc điểm chung, độ dài văn bản…
Các tag chính là siêu dữ liệu đi kèm với bài viết, nghĩa là chúng có thể được sử dụng mà không cần phải truy cập vào chính bài viết. Nhưng chính xác thì các tag có thể được sử dụng để làm gì?
Tag có vai trò gì?
Nhìn chung, các tag cho phép phân tích tốt hơn. Rất khó để phân tích các bài viết không có tag chỉ dựa trên các danh mục chính như thể thao, tin tức hay kinh doanh. Các tag cụ thể cho phép phân tích dữ liệu chi tiết về mức độ tương tác của độc giả, cải thiện hệ thống lưu trữ và hơn thế nữa.
Nếu các công ty truyền thông quan tâm đến phân tích độc giả, họ có thể sử dụng tag để xem xét xem chủ đề nào đang nhận được nhiều lượt xem trên trang web nhất, chủ đề nào có tỷ lệ tương tác tốt nhất và được chia sẻ nhiều nhất hoặc ngược lại.
Ngoài ra, nếu trang web của bạn có tường phí (paywall) đối với một số nội dung nhất định, các tag có thể trở thành công cụ hữu ích để tổ chức xác định nội dung nào miễn phí và nội dung nào dành cho người đăng ký trả phí.
Tag cũng có thể hữu ích cho việc quảng cáo. Chúng giúp các tổ chức đối chiếu quảng cáo với chủ đề bài viết và tránh đặt quảng cáo không phù hợp với nội dung của bài báo. Trên hết, các tag giúp tối ưu hóa công cụ tìm kiếm (SEO). Tag tạo liên kết giữa các bài báo và cung cấp cho trang web của bạn một kết cấu cho phép các công cụ tìm kiếm có cơ hội tốt hơn để tạo ra các kết nối ngữ nghĩa giống nhau.
Suy nghĩ về các tag, về cách chúng đem lại lợi ích cho độc giả và tổ chức báo chí có nghĩa là chúng ta có thể coi chúng là hai loại tag khác nhau. Hiểu theo cách đơn giản, các tag bên ngoài dành cho người đọc có thể được chọn từ các tag dùng nội bộ, phức tạp hơn.
Các tag có thể chứa thông tin bổ sung về chủ đề được sử dụng để phân loại và liên kết các tag liên quan với nhau. Ví dụ, “Theresa May” và “Boris Johnson” đều chứa thông tin chung là cả hai đều là “thủ tướng Anh”. Do đó, các nhà báo có thể sử dụng thông tin chung này để đưa hai tag cụ thể vào cùng một danh mục. Theo cách này, các tổ chức báo chí có thể tạo ra các loại tag được phân cấp tốt hơn trên trang web và cơ sở lưu trữ dữ liệu của mình.
Gắn tag như thế nào?
Việc chọn các tag phù hợp cho một bài báo không dễ dàng như bạn tưởng tượng. Khi tổ chức báo chí không có chiến lược gắn tag đúng đắn, điều này có thể dẫn đến nhiều vấn đề như số lượng người đọc giảm, việc phân tích số liệu trở nên khó khăn. Thông thường, các bài báo thường bỏ sót các tag quan trọng hoặc đặt thừa một số tag không liên quan. Dưới đây là 4 nguyên tắc để đặt tag đúng cách các nhà báo có thể tham khảo theo What’s New In Publishing:
1. Đặt tag có liên quan mật thiết đến nội dung bài viết
Tag chủ đề phải phản ánh được nội dung chính của bài báo chứ không phải tất cả những gì nó đề cập. Sẽ đơn giản nếu lướt qua một bài báo và chọn ra những từ “có vẻ” quan trọng (ví dụ như con người, địa điểm, sản phẩm…) nhưng sẽ cần có sự khác biệt khi đặt tag giữa một bài viết đánh giá về một mẫu iPhone mới và một câu chuyện khác bàn về vấn đề bảo mật Siri trên iPhone. Việc lạm dụng quá nhiều tag sẽ khiến giá trị của chúng bị giảm. Vì vậy, bất kỳ tag nào được sử dụng phải có sự liên quan mật thiết đến nội dung chính của bài báo.
2. Tạo sự cân bằng giữa tổng quát và cụ thể
Chìa khóa của một thẻ tốt là nó đủ bao quát để áp dụng cho nhiều phần của nội dung bài báo nhưng cũng đủ cụ thể để nó không trở thành thẻ được áp dụng cho một nửa số bài đăng của bạn trên trang web! Thông thường, sẽ tốt hơn nếu bạn dựa vào tính cụ thể vì nó có thể giới thiệu các chi tiết trong bài đăng của bạn mà bạn không thể lấy từ siêu dữ liệu danh mục trên trang web của bạn.
3. Luôn để các tag ngắn gọn
Một cách tốt để tránh việc đặt các tag của bạn trở nên quá cụ thể là giữ chúng thật ngắn gọn (không quá 3 từ).
4. Viết đúng chính tả
Điều này nghe có vẻ rất hiển nhiên nhưng nó lại vô cùng quan trọng. Các tag của bạn cần phải viết đúng chính tả và có định dạng nhất quán (ví dụ như một từ nào đó có cần được viết hoa hay không).
Cách tốt nhất để đảm bảo tính nhất quán là tìm kiếm các tag đó trên các công cụ tìm kiếm như Google, để tham khảo các tag đã được sử dụng trước đó.
Ngay cả khi đã kiểm tra kỹ lưỡng, các nhà báo vẫn có thể mắc lỗi trong quá trình đặt tag. Khi Süddeutsche Zeitung (SZ) xem xét cách đặt tag của họ, tờ báo này nhận ra rằng có rất nhiều tag trùng lặp không cần thiết.
Ví dụ các tag “Thủ tướng Merkel", "Thủ tướng Angela Merkel", "Thủ tướng Đức Angela Merkel” là tất cả các thẻ đang được sử dụng trên SZ, nhưng thực chất nó chỉ là một. Tương tự, một tag cũng thường được sử dụng ở cả số ít và số nhiều, ví dụ như “iPhone” và “iPhones”. Bên cạnh đó, mỗi nhà báo lại có một cách đặt tag khác nhau. Những điều này sẽ dẫn đến hệ thống tag không nhất quán và khó phân tích.
Việc suy nghĩ và đặt tag phù hợp cho bài viết là một nhiệm vụ không phải nhà báo nào cũng muốn làm. Vậy có cách nào khác để xây dựng các tag một cách nhất quán, có liên quan, duy nhất và chứa các chi tiết quan trọng?
Đặt tag với sự trợ giúp của NLP
Theo What’s New In Publishing, cách tốt nhất để đặt tag thành công là sử dụng công nghệ xử lý ngôn ngữ tự nhiên (NLP). Phần mềm NLP là một hệ thống AI được đào tạo giúp máy tính hiểu, giải thích và mô phỏng ngôn ngữ của con người bằng cách học hỏi từ nhiều lĩnh vực khác nhau, bao gồm ngôn ngữ học máy tính và ngôn ngữ học tính toán.
Nhờ chức năng gán nhãn từ loại (part-of-speech tagging) và phân tích ngữ pháp, AI hiểu được các cấu trúc cú pháp không chỉ ở cấp độ một câu mà còn là giữa các câu. Điều này có nghĩa là nó có thể giải mã các “thực thể” (dù đó là một con người, tổ chức hay bất kỳ thứ gì khác).
Thậm chí, công nghệ AI này còn có thể xác định được đâu là chủ thể quan trọng, đâu là các đối tượng “bình thường” được nhắc đến trong văn bản. Do đó, NLP không đơn thuần chỉ là đếm xem ai đó hoặc chủ đề nào đó được đề cập bao nhiêu lần trong một văn bản.
Không dừng lại ở đó, nhờ tính năng nhân dạng thực thể có tên (NER), phần mềm NLP có khả năng nhận dạng các thực thể trong văn bản và phân loại chúng vào trong các nhóm đã được định trước như tên người, tổ chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu… Sau đó, sự phân loại này có thể được sử dụng để ưu tiên một số thực thể nhất định hơn các thực thể còn lại, tùy thuộc vào chiến lược của từng tổ chức báo chí.
Đối với các chủ đề khác nhau, chiến lược cũng có thể khác nhau. Phần mềm NLP có thể ưu tiên các nhân vật và tổ chức trong các bài báo chính trị; các sản phẩm như ô tô, điện thoại di động trong các tin công nghệ và khái niệm chung trong các bài báo khoa học.
Theo một cách nào đó, NLP “làm việc” với văn bản giống như con người. Nhưng lợi thế của nó là một khi đã được định hướng chiến lược, nó sẽ luôn tuân theo. Điều đó có nghĩa là nó sẽ luôn chọn các thẻ giống nhau cho cùng một chủ đề bài viết.
Một ưu điểm lớn khác của phần mềm NLP là nó có thể được liên kết với một cơ sở tri thức (knowledge base - một công nghệ được sử dụng để lưu trữ các thông tin có cấu trúc và phi cấu trúc phức tạp được sử dụng bởi một hệ thống máy tính). Nhờ cơ sở tri thức, AI có thể xác định một thực thể ngay cả khi thực thể đó được gọi bằng những cái tên khác nhau và cung cấp cùng một thẻ chính xác để tránh vấn đề trùng lặp đã đề cập ở trên.
Cơ sở tri thức cũng có thể được sử dụng để cung cấp thông tin bổ sung về các thực thể được gắn tag và mối quan hệ của chúng đối với các đối tượng khác.
Đồng thời, công nghệ này cũng có thể sử dụng thông tin mà nó có để không bị nhầm lẫn giữa các thực thể khác nhau có tên gọi giống nhau. Ví dụ, AI có thể phân biệt một số bài báo nói về Adam Scott - một nam diễn viên người Mỹ với những bài báo khác nói về Adam Scott - tay gôn người Úc.
Trên đây chỉ là một vài trong số rất nhiều lợi thế của việc gắn tag được NLP hỗ trợ. Bởi vậy, không có gì ngạc nhiên khi ngày càng có nhiều công ty truyền thông, báo chí đang chuyển sang một số hình thức gắn tag tự động hoặc bán tự động.
Trong khi một số tổ chức truyền thông lớn có thể đủ khả năng để phát triển các giải pháp của riêng họ (như tờ New York Times) thì đối với nhiều tổ chức báo chí vừa và nhỏ, điều này không khả thi.
Nắm bắt được khó khăn của các công ty truyền thông, hiện nay, có một số công ty có thể cung cấp dịch vụ này. Một yêu cầu nữa là những dịch vụ như vậy phải được tích hợp vào CMS một cách dễ dàng. Sau đó, nó có thể giúp các nhà báo có được các tag nhất nhất quán, có liên quan mật thiết đến nội dung được đề cập, giúp các nhà báo tiết kiệm thời gian làm công việc mà họ thường coi là tẻ nhạt và dành thời gian đó để làm công việc họ có thể làm tốt nhất - sản xuất nội dung.
Theo What’s New In Publishing