Đặt ra câu hỏi “thứ gì có trước Big Bang”, tất cả chúng ta đều không có câu trả lời và hầu hết các nhà khoa học chỉ đưa ra được giả thuyết là cùng. May mắn thay, sự kiện bùng nổ của công cụ tìm kiếm Google không bí ẩn được như Big Bang, vẫn còn những chuyên gia, những nhà nghiên cứu hiểu chuyện có thể nói được cho chúng ta biết về “thuở sơ khai” của Internet, thời mà bạn cãi nhau với người yêu về một vấn đề cỏn con nhưng không thể Google ra được kết quả.
Trang tin công nghệ Gizmodo đã đem câu hỏi khó tới tham vấn ý kiến một số chuyên gia, hòng tìm được câu trả lời:
Amelia Acker, trợ lý giáo sư ngành thông tin tại Đại học Texas. Cô có những nghiên cứu về sự xuất hiện, hành động tiêu chuẩn hóa và bảo toàn thông tin trên mạng xã hội và không gian mạng nói chung.
Trong thị trường tồn tại cả những công cụ tìm kiếm như Yahoo, Bing và DuckDuckGo, Google Search chiếm tới 90% thị phần. Nhưng trước khi Google xuất hiện, những thuật toán tìm kiếm được hỗ trợ tài chính bởi quảng cáo phủ lấy hầu hết mọi khía cạnh Internet. Thời đó có thư mục web cùng các công cụ tìm kiếm chứa nhiều chỉ mục, kết hợp cả hai lại ta sẽ có tài nguyên trang web được sắp xếp theo từng chủ đề.
Google đã trở thành công cụ tìm kiếm mặc định của đại đa số cư dân mạng.
Những công cụ tìm kiếm sơ khai nhất là những thư mục được sắp xếp bằng tay. Những web ontologist, tạm gọi là những nhà bản thể học trang web (hay được Yahoo gọi là các “người lướt web - surfer”) sẽ đọc toàn bộ các trang web về một chủ đề cụ thể và xếp hạng chúng. Dần dần, mô hình làm thủ công này sẽ được thay thế bằng bot sắp xếp tự động, tiêu chí sắp xếp các website dựa trên độ uy tín và độ liên quan của trang web so với từng truy vấn của người dùng.
Những năm đầu của thập niên 90, cư dân mạng có khoảng 20 công cụ tìm kiếm để mà xài, một vài trong số đó là WebCrawler, Lycos, AltaVista và Yandex. Những chỉ mục của các công cụ tìm kiếm này được biên dịch và xếp vào thành từng nhóm nội dung, cấu trúc và chủ đề. Những công cụ tìm kiếm sơ khai được thiết kế để người dùng đào bới đống tài nguyên trong từng chủ đề lớn như “tin tức”, “du lịch”, “thể thao”, “kinh doanh”. Từng cột chủ đề với một loạt các hyperlink dẫn tới các nội dung liên quan sẽ khiến trang chủ của công cụ tìm kiếm trông giống một cái mục lục dày đặc nội dung.
Bạn phải nhớ rằng hành động tìm kiếm trên Internet của hồi những năm 90 có mục đích khác thời nay, mang nhiều tính khuyến khích người ta lướt web hơn là cung cấp một dịch vụ thực thụ. Nền văn hóa mạng thuở xưa không chú trọng vào tìm kiếm câu chuyện xác định sự thật hay một sản phẩm nhất định, thay vào đó công cụ tìm kiếm giúp người dùng khám phá kho tàng tài nguyên kỹ thuật số và trải nghiệm mạng Internet. Ngày đó, không có quảng cáo nhắm tới từng đối tượng mà chỉ là một công cụ để khám phá. So với trải nghiệm tìm kiếm ngày nay, thì việc dùng Internet xưa kia mang nhiều tính trải nghiệm hơn. Mỗi người sẽ có một chuyến hành trình riêng trong việc tìm nội dung để đọc và khám phá ra nội dung mới.
Giao diện của AltaVista, một trong những công cụ tìm kiếm thuở xưa.
Để tôi lấy ví dụ: có thời, khi bạn đi tìm lời nhạc cho bài hát Small Town Boy, bạn có thể tìm thấy cả cộng đồng người Đức gồm các fan yêu thích ca sĩ Jimmy Somerville. Ngày nay, bạn tìm lời nhạc thì Google sẽ đưa bạn lời nhạc từ các trang web liên quan. Khi bạn chuyển đổi từ trải nghiệm tìm kiếm diện rộng thành tìm trải nghiệm tìm kết quả chính xác bằng thuật toán, việc tìm kiếm trên không gian mạng sẽ trở thành việc lặp đi lặp lại và ít nhiều giống quy tắc sử dụng Internet rồi. Bạn có thể có chính xác thứ mình muốn nhưng lại mất đi những cái kỳ lạ có thể thấy dọc chặng đường tìm kiếm, những thứ vốn làm chuyến hành trình thú vị hơn.
Ngày nay, khi nói về “tìm kiếm”, bạn sẽ chẳng nghĩ tới việc tìm các chỉ mục hay tới một trang web cụ thể nào. Thay vào đó, bạn sẽ nghĩ tới kéo và vuốt tìm thông tin từ một ứng dụng tổng hợp nào đó, hay bạn sẽ có được một câu trả lời chính xác đã xuất hiện trên một địa chỉ web nào đó. Đa số các tính năng tìm kiếm đương thời, đặc biệt là các công cụ nằm bên trong nền tảng của Facebook, Amazon hay cửa hàng ứng dụng, đều đã biến quá trình tìm kiếm thành một công cụ làm tiền nữa, họ thu thập thêm dữ liệu người dùng để tìm ra hành vi sử dụng như từ khóa tìm kiếm hay thói quen lướt web.
Christine L. Borgman, giáo sư nghiên cứu có tiếng công tác trong ngành nghiên cứu thông tin tại Đại học California. Cô là tác giả cuốn sách “Dữ liệu lớn, nhỏ và không dữ liệu: Học bổng trong một thế giới được liên kết” nói về những giá trị của dữ liệu trong một cấu trúc chứa thông tin thay đổi nhanh tới chóng mặt. Trong cuốn sách, cô Borgman còn đưa ra những case study dựa trên cơ sở khoa học nói chung và khoa học xã hội.
Hồi thập niên 90, Yahoo và AltaVista phát triển tốt. Thế nhưng lĩnh vực vi tính hóa truy hồi thông tin đã tồn tại trước đó từ lâu, ít nhất đã xuất hiện từ thập niên 50. Những năm 1970, chúng ta đã thương mại hóa có hệ thống online có thể truy cập từ xa đầu tiên.
Kỹ thuật truy vấn thông tin không do Google phát minh ra mà được phát triển dựa trên khả năng thu thập và truy vấn dữ liệu cũ, đơn cử như cách Paul Otlet đã làm xưa kia. Otlet là một trong những cha đẻ sinh ra khoa học thông tin hiện đại và cũng là người phát minh ra phương pháp Phân loại Thập phân Phổ biến (Universal Decimal Classification, phương pháp phân loại thư mục và thư viện tri thức một cách có hệ thống, mọi nhánh của tri thức được sắp xếp thành những lĩnh vực có liên quan và kết kết chặt chẽ với nhau).
Paul Marie Ghislain Otlet, một trong nhiều người sáng lập nên khoa học thông tin.
Lịch sử của truy vấn thông tin trực tuyến đặc biệt khắt khe - những chuyên gia trong ngành đào sâu vào việc liệt kê những lĩnh vực như thuốc men, kỹ thuật luyện kim, khoa học vật chất, hóa học, kỹ thuật, giáo dục và khoa học xã hội. Đến đầu thập niên 70, ta đã có sẵn một cơ sở dữ liệu trực tuyến rất đầy đủ và đã được thương mại hóa; bạn trả tiền theo từng phút truy cập.
Một trong những quy chuẩn cơ bản nhất của Google xuất thân từ td-idf (Text Frequency Times - Inverse Document Frequency, tạm dịch là là Tần số Chữ viết - Tần số Văn bản Nghịch đảo Thời gian), do Karen Spärck Jones phát minh ra. Phương pháp này của cô Jones sẽ để mắt tìm kiếm tuần suất xuất hiện của một thuật ngữ trong một văn bản, chia với nghịch đảo của số lần văn bản đó xuất hiện. Cô Jones là một người đi tiên phong trong ngành và sau này có cố vấn cho Google. Chắc chắn cả Page và Brin, hai nhà sáng lập Google ắt hẳn cũng hiểu rõ về lịch sử ngành truy vấn thông tin.
Google sinh ra từ Sáng kiến Thư viện Kỹ thuật số, dự án được dẫn dắt bởi quỹ Khoa học Quốc gia và 8 tới 10 đơn vị liên bang khác. Tôi cũng đã tham gia những buổi họp đầu tiên, nơi Brin và Page đề xuất ý tưởng Google của họ. Tôi vẫn nhớ suy nghĩ của mình lúc đấy là: quả thực tuyệt vời, họ đã phát minh lại cách thức đo lường thư mục dữ liệu cho nền tảng web.
Bibliometrics - đo lường thư mục là cách thức tạo ra các liên kết giữa các văn bản và rồi cho chúng đi theo hệ thống mạng. Cách thức này đặc biệt hữu ích khi người dùng tìm những chủ đề với những thuật ngữ chuyên môn thay đổi liên tục.
Safiya Umoja Noble, trợ lý giáo sư ngành nghiên cứu thông tin và chuyên gia trong ngành công nghệ, văn hóa và cách sử dụng cũng như ảnh hưởng của Internet tới con người.
Một trong những yếu tố quan trọng nhất của thời buổi chia sẻ thông tin qua Internet chính là các chuyên gia có chuyên môn, từ thủ thư cho tới các học giả cho tới những người có thú vui tìm hiểu, họ chính là những người chuyên tâm nuôi dưỡng kho tàng kiến thức và sắp xếp chúng cho người khác tìm. Nhờ đó, bàn tay can thiệp của con người hiện hữu rõ, ngay cả khi AI và các công cụ tìm kiếm xuất hiện. Chúng ta hiểu rằng sức người thì kiến thức mới được chia sẻ online, và chúng ta phải tự tìm ra đâu mới là nguồn uy tín dựa trên một vài trang web được điều hành bởi các tổ chức lớn, đặc biệt là các trường đại học và các tổ chức nghiên cứu.
Thực tế, công cụ tìm kiếm đầu tiên là các thư viện ảo, và nhiều người dùng hiểu rằng giá trị của thư viện nằm ở việc chúng là của công. Khi tự động hóa dần xuất hiện, thủ thư và chuyên gia sách bị thay thế bởi trí tuệ nhân tạo, chúng ta mất mát nhiều lắm. Những giá trị chung bị thay thế bởi những nền tảng khổng lồ phục vụ cho việc quảng cáo, như là Yahoo! Hay Google.
Bạn có còn nhớ giao diện Yahoo! Search thuở xưa
Ngày nay, ý kiến chuyên môn thường tới từ nguồn ngoài và được tối ưu hóa, hậu thuẫn về mặt tài chính bởi người trả giá cao nhất trên AdWords. Điều này đã tạo khoảng cách lớn giữa tri thức và quảng cáo trên các nền tảng công cụ tìm kiếm, nhất là khi một người muốn tìm hiểu về những vấn đề phức tạp.
Theo một cách nào đó, hành động “tìm kiếm” của thời nay đã làm xói mòn niềm tin của ta vào ý kiến chuyên gia cũng như chính tư duy phản biện của cá nhân, những thứ vốn được hậu thuẫn bởi những sự thật và các nghiên cứu được xây dựng chặt chẽ, và khiến chúng ta dễ bị “dắt mũi” bởi những nội dung độc hại. Công cụ tìm kiếm có thể giúp ta dễ dàng tìm ra những thông tin tầm thường, nhưng lại làm ta quên đi giá trị của quá trình điều tra, tìm hiểu chậm chạp nhưng chắc chắn.
Ian Milligan, trợ lý giáo sư môn lịch sử tại Đại học Waterloo, là tác giả cuốn sách “Lược sử Kỷ nguyên Dư dả: Mạng Internet đang thay đổi nghiên cứu lịch sử như thế nào”.
Hiển nhiên, Google không phải công cụ tìm kiếm đầu tiên. Từ hồi 1993, ta có Wandex (World Wide Web Wanderer) có khả năng tính toán và dẫn nguồn về những chỉ mục dễ tìm; rồi đến Lycos và Infoseek của năm 1994 rồi tới những thư mục như Yahoo! Của năm 1995.
Đa số những công cụ tìm kiếm và thư mục sơ khai này rất khó dùng. Nếu bạn là một người làm web, nhiều lúc bạn sẽ phải điền tay biểu mẫu để thêm nội dung vào thư mục, hay sẽ phải điền tag thủ công vào bản HTML. Đến giữa thập niên 90, ngày một nhiều người tạo ra thêm các website và đặt máy chủ ở nền tảng của các bên thứ ba, không phải lúc nào họ cũng đăng ký quyền sở hữu cho các website mình tạo. Một phần là do những website thuở sơ khai dựa nhiều vào hyperlink, hơn hẳn ngày nay, để lôi kéo thêm người truy cập.
Có thể lấy WebRing là ví dụ điển hình. WebRing được phát triển năm 1995 bởi bàn tay một nhà phát triển phần mềm có tên Sage Weil. WebRing là một nhóm các trang web được thống nhất lại theo từng chủ đề. Vậy nên, người hứng thú với xe cổ sẽ tìm tới một WebRing gồm những người đam mê xe cộ, người yêu mèo sẽ tìm tới WebRing dành riêng cho họ, … Cuối mỗi trang là những nút bấm khuyến khích người dùng tới trang tiếp theo hay lùi về trang trước đó.
Logo WebRing.
Một WebRing dành cho những người yêu thích nội dung giả tưởng.
Đây là phương thức dễ tiếp cận để người dùng tìm kiếm thêm những trang web mới. Bất cứ ai cũng có thể tự tạo web ring, ai cũng có thể tham gia một web ring nếu quản trị viên thấy thành viên này phù hợp với cộng đồng. Quan trọng nhất, đây là cách thức kết nối người với người hoàn toàn mới. Những ngày huy hoàng của WebRing kéo dài tới khoảng năm 2000, khi công nghệ rơi vào tay Yahoo! để rồi những thay đổi trong cách quản lý lại khiến người dùng xa cách nền tảng này.
Tôi không muốn hoài niệm quá mức: tôi không muốn quay về cái thời phải tìm kiếm nội dung qua các hyperlink đâu, và tôi cũng dùng Google nhiều như bao người khác. Nhưng cái cách Google hoạt động, nhờ có PageRank, thì một website mà có càng nhiều đường link tới từ những nguồn có tầm ảnh hưởng rộng, kết quả sẽ càng dễ hiện ở những trang đầu tiên. Điều này khiến lưu lượng người truy cập sẽ đổ dồn về một số trang web lớn.
Nếu tôi tìm từ “mèo”, tôi sẽ chỉ tìm kiếm trong tầm chục đường link đầu trong tổng số 4 tỷ kết quả. Đâu đó trong con số hàng tỷ kia, chắc hẳn sẽ có những trang web rất ngầu tạo nên bởi những người hết mực yêu quý con mèo mình nuôi. Hồi năm 1998, mỗi khi bấm vào một web ring, sẽ có cơ hội tìm ra được những nội dung thú vị, hoặc tìm được một cộng đồng có sở thích, tư duy giống mình. Với Google, khó có được những điều ấy lắm.