Điều này có thể gây ra những vấn đề đặc biệt mà trước đây đã từng gặp phải, là trang web mới hơn ( nó hiếm khi được Google bot ghé thăm và index ) bị một trang uy tín hay một trang được Google bot thường xuyên ghé thăm copy bài. Nghiễm nhiên kẻ copy lại được lên thứ hạng cao, trong khi nội dung gốc lại tụt dần và biến mất. Để khắc phục điều mới nêu trên thì, sau khi viết bài xong hãy truy cập Search console của mình và submit URL của bài viết mới của mọi người ngay lập tức.
Nội dung trùng lặp nội bộ là nội dung giống hệt hoặc tương tự nằm trong một website có 1 domain chung. Những nội dung trùng lặp này được tạo ra bởi quá trình xây dựng website chưa có khảo sát tính toán cụ thể. Dưới đây là các trường hợp thường gặp phải lỗi nội dung trùng lặp nội bộ :
Nội dung trùng lặp ( duplicate content ) đơn giản chúng ta được hiểu là một nội dung mới giống như một bản sao với nội dung Gốc. Những điển hình của nội dung trùng lặp :
Các loại Google không cho là trùng lặp
Nội dung trùng lặp bên ngoài nói một cách dễ hiểu tương tự với nội dung trùng lặp nội bộ, đều là các nội dung giống hệt hoặc tương tự được sinh ra, nhưng điều khác ở đây là chúng không cùng nằm trong một domain. Loại nội dung trùng lặp này thì thường sẽ là một lỗi khá nặng đối với bộ lọc của Google, sau đây em sẽ gợi ý vài trường hợp điển hình có thể gặp :
Kĩ thuật lọc và xác định nội dung của Google nằm ở 3 điểm khi Google lập chỉ mục nội dung :
Google đang nỗ lực để lập chỉ mục và hiển thị các trang với thông tin riêng biệt, họ muốn đưa tới người dùng một kết quả tìm kiếm liên quan đến truy vấn của người dùng nhất. Tuy nhiên thì vẫn có một vài lí do khác mà Google chưa nói đến : Google phải tiết kiệm thời gian Có vẻ không khó hiểu với mọi người, nhưng em cũng xin nói qua một chút, Google có hàng chục triệu website mới cần index mỗi ngày, với một khoảng thời gian giới hạn hệ thống cần phải thu thập hết dữ liệu về. Quá nhiều nội dung trả về mỗi ngày nên nếu nội dung trùng lặp không được loại bỏ Google sẽ không còn đủ thời gian để crawl và nó sẽ kết thúc sớm.
Tất nhiên điều này dẫn tới các URL quan trọng không được lập chỉ mục. Google phải tiết kiệm khả năng lưu trữ Lý do này đương nhiên thuyết phục, bởi bộ nhớ Google mặc dù là khổng lồ, nhưng tốc độ tăng trưởng sinh ra các website thực sự quá nhanh, Google cần phải lo lắng cho hệ thống lưu trữ của mình.
Đối với trùng lặp nội dung nội bộ được nêu ở trên gần như Google không áp dụng hình phạt với chúng, tuy nhiên với trùng lặp nội dung bên ngoài Google rất gay gắt với chúng. Và có các hình phạt như
Đây là một vấn đề mà gần đây cũng khá nhiều anh em có inbox facebook cá nhân và hỏi: " làm thế nào Google phát hiện được tác giả bài viết gốc hay làm sao Google biết đó là một bản sao ". Xin trả lời như sau, Google xác định tác gỉa bài viết gốc khi mà chỉ khi website chứa bài viết được lập chỉ mục ( index ) đầu tiên.
Điều này có thể gây ra những vấn đề đặc biệt mà trước đây đã từng gặp phải, là trang web mới hơn ( nó hiếm khi được Google bot ghé thăm và index ) bị một trang uy tín hay một trang được Google bot thường xuyên ghé thăm copy bài. Nghiễm nhiên kẻ copy lại được lên thứ hạng cao, trong khi nội dung gốc lại tụt dần và biến mất. Để khắc phục điều mới nêu trên thì, sau khi viết bài xong hãy truy cập Search console của mình và submit URL của bài viết mới của mọi người ngay lập tức.
Dựa trên gợi ý của Google dưới đây, mọi người có thể dễ dàng giải quyết vấn đề về nội dung trùng lặp theo một số bước và đảm bảo rằng khách truy cập sẽ xem được nội dung mà mọi người muốn họ xem.