重複コンテンツが起こる要因は
1.同一サイト内で同じ内容ページが存在する。
2.外部サイトからコピーを引用した場合。
等があげられます。
もし外部サイトに文章をコピーされた重複コンテンツであってもそのままで問題はありません。 なぜならGoogleは世界に存在するすべてのテキストデータをストックしているので、どちらがオリジナルの文章であるかを判別します。
ではこのように他人のコンテンツをコピーして掲載する行為をGoogleはどのように思っているのでしょうか?
GoogleのMatt Cutts(マット・カッツ)氏が重複コンテンツの扱いについてあらためて説明しています。
ウェブ上のコンテンツを見ると、25〜30%くらいは重複コンテンツだと認識しておくことが重要だ。Linuxのmanコマンドについてのページなど、そういうのすべてだ。つまり、重複コンテンツというのは確実に存在するものなんだ。ブログ記事の一部を引用してそのブログへリンクを張ることとかも当てはまる。したがって重複コンテンツが起こるとどんな時でもスパムになるというのは事実じゃない。もし重複コンテンツがすべてスパムだと決めつけてしまったら、検索品質を上げるというよりも損なってしまう結果になってしまうだろう。
実際には次のようになる。
Googleは重複コンテンツを探す。重複コンテンツを見つけると、それら全部をまとめて1つであるかのように処理しようとすることが頻繁にある。実質的に同一の2つのページを我々が検索結果に返したと想定してほしい。どうすると思う? 「同じ2つのページを見せるよりも、どちらか1つを見せるようにてもう片方を締め出そう。」と大抵の場合は我々は考えるんだ。完全な検索結果を見たければ、検索結果ページの下まで行ってフィルタを変更すれば1つ残らずページを見ることができる。だけど、ほとんどの場合には、重複コンテンツが本当にスパムとして扱われることはない。適切にまとめる必要があり正しく順位づけする必要があるものとして扱われているに過ぎない。しかし重複コンテンツは確かに起こるものだ。ただしそうは言っても、重複コンテンツしかなかったり、乱用・悪用したり騙したりするようなやり方で重複コンテンツを作っているのであれば、スパムとして対策する権利を僕たちは持っている。
「RSSを取得して自動投稿するブログをスパムとしてみなされないようにするにはどうしたらいいか?」という質問をツイッターで尋ねられたことがある。RSSフィードで得たものだけを自動生成しているというのがここでは問題になる。独自の価値というものをたいして与えていない。だからスパムとしてみなされる可能性がなくもない。
だけど普通のウェブサイトを作っていて、.comドメインと.co.ukドメインがあるとか新旧2つの規約があるとか、そういうことについて心配するんだったら、そういう重複コンテンツはウェブには当たり前に発生するし、重複コンテンツがあるといって僕が本当にストレスを感じることはないだろう。米国中のすべての都市とすべての州に対して大量にコピーして、一部だけを変えただけのほとんど同じページを見せたりしない限りは大丈夫だ。
と説明しています。