Để bảo vệ người dùng khi tìm kiếm nội dung và cải thiện chất lượng kết quả tìm kiếm, Google vẫn luôn không ngừng cải thiện các thuật toán xác định spam. Hãy cùng chúng tôi khám phá cách Google xác nhận nội dung spam thông qua bài viết sau đây.
1. Thuật toán Google xác định nội dung spam thủ công và tự động của Google cải thiện chất lượng kết quả tìm kiếm
Chính sách xác định nội dung spam của Google nhằm mục đích cải thiện chất lượng kết quả tìm kiếm. Cụ thể, nội dung cần không vi phạm các chính sách chung của Google Search cũng như chính sách spam để đủ điều kiện xuất hiện trong kết quả tìm kiếm. Google phát hiện hành vi và nội dung vi phạm thông qua hệ thống tự động lẫn nhân viên đánh giá thủ công. Những trang web vi phạm chính sách sẽ bị xếp hạng thấp hoặc không được xuất hiện trong trang kết quả tìm kiếm.
Người dùng có thể tự báo cáo về nội dung spam cho Google ở mục Report spam. Ngoài phát triển thuật toán tự động để giải quyết vấn đề thì những báo cáo như vậy cũng sẽ giúp giải quyết và cải thiện hệ thống nội dung spam.
2. Một số hành vi bị thuật toán Google đánh giá là nội dung spam
2.1. Che giấu nội dung để đánh lừa người dùng
Kỹ thuật che giấu sẽ cho người dùng xem nội dung khác với nội dung mà công cụ tìm kiếm thấy. Chẳng hạn như trang web cho công cụ tìm kiếm thấy về điểm đến du lịch trong khi nội dung người dùng thấy là bán hàng giảm giá. Nếu bạn dùng paywall hoặc một cơ chế giới hạn nội dung được xem, Google sẽ không đánh giá đây là kỹ thuật che giấu nếu thuật toán có thể xem toàn bộ nội dung sau paywall.
2.2. Lợi dụng các trang ngõ
Trang ngõ là các site hoặc page được tạo ra để đạt top cho một số cụm từ tìm kiếm cụ thể, tương tự nhau. Các trang này sẽ đưa người dùng đến những trang trung gian không hữu ích như trang đích cuối cùng. Một số loại trang ngõ thường gặp như: Có nhiều trang chủ và phiên bản trang web với URL được thay đổi rất nhỏ để tối đa phạm vi tiếp cận với cụm từ tìm kiếm cụ thể; hoặc có nhiều tên miền/trang nhắm tới một khu vực cụ thể nhưng lại dẫn về cùng một trang.
2.3. Lợi dụng tên miền đã hết hạn để lưu trữ nội dung không có giá trị
Đây là hành vi mua lại và sử dụng tên miền đã hết hạn để thao túng thứ hạng Google Search, bằng cách lưu trữ nội dung ít hoặc không có giá trị với người đọc. Chẳng hạn như một web bán sản phẩm y tế vốn từng được tổ chức y tế phi lợi nhuận sử dụng.
2.4. Nội dung bị hack do lỗ hổng bảo mật trên web
Nội dung bị hack là nội dung được đưa vào trang web khi chưa được cho phép do lỗ hổng bảo mật. Nội dung này vừa kém chất lượng, vừa có nguy cơ cài đặt nội dung độc hại lên máy người dùng. Một số ví dụ phổ biến là chèn mã độc hại vào trang web, chèn trang có chứa nội dung vi phạm vào web, thêm đường liên kết ẩn hoặc văn bản ẩn...
2.5. Chèn văn bản và đường liên kết ẩn mà người dùng không dễ xem nội dung
Nội dung được chèn bằng hình thức này chỉ để thao túng công cụ tìm kiếm, trong khi người dùng rất khó để xem được nội dung. Chẳng hạn như web để văn bản trắng trên nền trắng, ẩn văn bản sau hình ảnh, đặt văn bản ngoài màn hình bằng CSS, ẩn liên kết bằng cách chỉ liên kết một ký tự nhỏ như đường gạch nối -....
2.6. Nhồi nhét các từ khóa một cách bừa bãi
Đây là hành vi tận dụng vô số các từ khóa hoặc con số để đạt được thứ hạng cao trên Google Search. Thường các từ khóa không được trình bày một cách tự nhiên hay phù hợp với ngữ cảnh. Chẳng hạn như nội dung liệt kê một loạt các số điện thoại trong danh sách, hay đề cập nhiều thành phố và khu vực mà trang web muốn tăng thứ hạng, lặp từ khóa nhiều lần rất bất thường...
2.7. Link spam với mục đích thao túng thứ hạng
Link nào có mục đích thao túng thứ hạng trong Google Search sẽ bị đánh giá là link spam, bao gồm những hành vi thao túng các link đến trang web của bạn hoặc link từ trang web của bạn. Link spam có thể bắt nguồn từ việc trao đổi liên kết quá nhiều, sử dụng ứng dụng tự động tạo liên kết tới trang web của bạn...
2.8. Lưu lượng truy cập tự động do máy tạo
Lưu lượng truy cập được máy tạo tiêu tốn tài nguyên và cản trở khả năng hỗ trợ người dùng của Google. Những hành vi được xem xét như gửi truy vấn tự động đến Google hoặc truy cập tự động Google Search...
2.9. Malware và hành vi độc hại cho người dùng
Thuật toán Google sẽ kiểm tra xem có malware (phần mềm độc hại) hay phần mềm không mong muốn nào trên web làm ảnh hưởng đến người dùng không. Các malware là những phần mềm hoặc ứng dụng với chủ đích gây hại cho thiết bị di động/máy tính, chẳng hạn như tự cài đặt phần mềm khi người dùng chưa đồng ý. Phần mềm không mong muốn là những tệp EXE hoặc ứng dụng di động có hành vi lừa đảo, ảnh hưởng tiêu cực đến trải nghiệm người dùng.
2.10. Web có nội dung gây hiểu lầm
Một số chủ trang web cố ý tạo các trang chứa thông tin sai lệch nhằm đánh lừa người dùng. Chẳng hạn như trang web giả mạo cung cấp các tính năng như ghép file PDF, từ điển trực tuyến… nhưng lại dẫn người dùng đến trang quảng cáo lừa đảo, thay vì dịch vụ như đã xác nhận.
2.11. Lạm dụng nội dung trên phạm vi lớn
Hành vi này thường tập trung tạo nên nhiều nội dung không nguyên bản, ít hoặc thậm chí không có giá trị. Chẳng hạn như chủ website sử dụng AI để tạo thêm nhiều trang, kết hợp nội dung từ nhiều trang web khác nhau… tất cả đều không tăng thêm giá trị cho người dùng.
2.12 Nội dung góp nhặt không có giá trị
Một số chủ trang web xây dựng trang dựa trên nội dung góp nhặt từ các nguồn khác mà không mang lại thêm giá trị gì cho người dùng, hơn nữa đây cũng có thể xét là hành vi vi phạm bản quyền. Trang web của bạn có thể bị hạ hạng nếu nhận được nhiều yêu cầu xóa hợp lệ theo luật. Các trang web sẽ bị thuật toán Google đánh giá xấu là: trang sao chép và xuất bản nội dung y hệt từ trang gốc, trang web chỉ sửa đổi nội dung một chút bằng cách thay từ đồng nghĩa…
2.13. Lén lút chuyển hướng người dùng đến trang khác
Đây là hành động chuyển người dùng đến một URL khác với URL được yêu cầu ban đầu, không có giá trị tham khảo. Tuy nhiên nếu trang của bạn chuyển URL đến địa chỉ mới hoặc hợp nhất nhiều trang thành một thì không bị Google xem là chuyển hướng lén lút.
2.14. Lạm dụng danh tiếng của trang web để thu lợi cho trang bên thứ ba
Trang của bên thứ ba lợi dụng danh tiếng của bên thứ nhất, xuất bản nội dung mà có ít hoặc không có sự tham gia của bên thứ nhất. Đây thường là những trang tài trợ, quảng cáo, đối tác… Ví dụ về tình trạng spam này là trang web giáo dục lưu trữ một trang về các bài đánh giá khoản vay ngắn hạn của bên thứ ba, hay trang web y tế lưu trữ trang về sòng bạc…
2.15 Trang tiếp thị liên kết nội dung yếu
Đây là những trang có liên kết đến sản phẩm mà mô tả và đánh giá sản phẩm được sao chép hệt như nội dung gốc, không mang lại thêm giá trị nào. Thường những trang như vậy sẽ được tạo hàng loạt hoặc dùng chung một mẫu nội dung giống nhau.
2.16. Nội dung spam do người dùng tạo ảnh hưởng trang web
Nội dung spam do người dùng tạo trên web hay được thêm vào trên kênh riêng, chủ trang web thường sẽ không biết về nội dung này. Một số nội dung spam của người dùng mà bạn có thể tham khảo là: bài đăng spam trong các thảo thuận trên diễn đàn, tệp chứa nội dung spam được tải lên nền tảng… Bạn cũng có thể ngăn ngừa và loại bỏ hành vi này bằng chính sách rõ ràng, có trình chặn tạo tài khoản tự động… trên trang web của mình.
Đây đều là những thông tin chi tiết bạn cần nắm về chính sách đánh giá nội dung spam của thuật toán Google. Hy vọng các chủ trang web sẽ lưu ý và mang lại những nội dung có giá trị hơn cho người dùng.