Googlebotを装ってペイウォールの背後にある記事を読む

インターネットは転換点にあります。 広告ブロックの継続的な増加により、ウェブサイトやビジネスを運営するために広告ドルのみに依存している収益モデルに終止符が打たれました。

特にニュースサイトは収入源を多様化する方法を試し始めており、The Wall Street Journal、Financial Times、The New York Times、The Washington Postなどのサイトがすべて実装している1つの顕著なオプションはペイウォールシステムです。

ペイウォールにはさまざまなタイプがありますが、それらはすべて、直接または特定の数の記事がサイトで読まれた後にコンテンツへのアクセスをブロックするという共通点を持っています。

その後、訪問者はサイトの記事を読み続けるためにサイトにサブスクライブするように求められます。

ビジネスの観点からは理にかなっているかもしれませんし、アドブロッカーを実行するユーザーと戦うよりもluかるかもしれませんが、ペイウォールサイトとブロックされたユーザーの両方にマイナス面があります。

ペイウォールシステムを実装すると、サイトの訪問者の割合が高くなります。 割合が実際にどれだけ高いかは不明であり、おそらくサイトごとに異なりますが、希望する記事を読むためにサブスクライブする選択肢が提示された後にサイトをサブスクライブする訪問者の割合よりもかなり高い可能性があります。

ブラウザをマスカレードする

ニュースサイトがニュースアグリゲーターと検索エンジンへのアクセスを許可していることは周知の事実です。 たとえば、Googleニュースや検索をチェックすると、ペイウォールがリストされているサイトの記事が見つかります。

過去には、ニュースサイトはReddit、Digg、Slashdotなどの主要なニュースアグリゲーターからの訪問者へのアクセスを許可していましたが、最近ではその方法は死んでいるように思えます。

記事のタイトルを検索エンジンに貼り付けてキャッシュされたストーリーを直接読み取る別のトリックは、正しく機能しないように思われます。また、ペイウォールのあるサイトの記事は通常キャッシュされません。

更新 :Wall Street Journalは、以下に説明する穴を塞ぐことを発表しました。 ただし、次の方法を使用しても、サイトのペイウォールの背後にある記事を読むことができます。

  1. 記事のページが表示されているときにF12キーを押します。記事の全文を読むには、サブスクライブのリクエストがあります。
  2. コンソールタブを開きます。
  3. javascript:window.location = "// m.facebook.com/l.php?u="+encodeURIComponent(window.location.href);を貼り付けます。
  4. Enterキーを押します。

ページがリロードされ、記事が完全にロードされるはずです。 Facebookに記事リンクを投稿することもできます。たとえば、自分だけが見ることができる新しい投稿に投稿することもできます。 投稿されたリンクをクリックすると、The Wall Street JournalのWebサイトに記事が完全に読み込まれます。

ユーザーエージェントとリファラー

サイトがサイトのコンテンツへのアクセスをどのようにブロックまたは許可するのか疑問に思われるでしょう。 メソッドは長年にわたって改善されており、ブラウザーのリファラーを//www.google.com/に変更してサイトのコンテンツに完全にアクセスするだけでは不十分です。

代わりに、サイトは、ユーザーエージェント、リファラー、Cookieを含むさまざまなチェックを使用し、場合によってはそれ以上のチェックを使用して、アクセスの正当性を判断します。

一般情報

おそらく、ブラウザをマスカレードする最良の方法は、ブラウザをGooglebotのように見せることです。

  • リファラー://www.google.com/
  • ユーザーエージェント:Mozilla / 5.0(互換性; Googlebot / 2.1; + // www.google.com/bot.html

Firefox

Firefoxユーザーには、2つのブラウザーアドオンが必要です。1つ目はニュースサイトにアクセスするときにリファラー値を変更するRefControl、2つ目はブラウザーのユーザーエージェントを変更するユーザーエージェントスイッチャーです。

  1. Firefox Webブラウザーで両方の拡張機能をダウンロードしてインストールします。
  2. Altキーをタップし、[ツール]> [RefControlオプション]を選択します。
  3. [サイトの追加]をクリックし、サイトの下にドメイン名を入力し、カスタムアクションを選択して、リファラーとして//www.google.com/を入力します。
  4. アクセスしたいすべてのニュースサイトでこれを繰り返します(変更を加えても機能しないものもありますので、注意してください)。
  5. 完了したら、構成ウィンドウを閉じます。
  6. Altキーをもう一度タップし、メニューから[ツール]> [デフォルトユーザーエージェント]> [ユーザーエージェントの編集]を選択します。
  7. [新規]> [ユーザーエージェント]を選択し、[ユーザーエージェント]フィールドの文字列をMozilla / 5.0(互換性; Googlebot / 2.1; + // www.google.com/bot.html)に置き換えます。 Googlebotという名前を付けます。
  8. メニューを終了します。
  9. これらのサイトにアクセスする前に、[Alt]をタップし、[デフォルトのユーザーエージェント]> [Googlebot]を選択します。

これですべてです。 Firefoxには、アクセスしたサイトに基づいてユーザーエージェントを自動的に変更する拡張機能がないのは少し残念です。

グーグルクローム

Google Chromeユーザーは、ブラウザで同じことができるUser Agent SwitcherやReferer Controlなどの拡張機能をインストールできます。

ただし、別の可能性があります。それは、ブラウザのプロセスを自動化するカスタム拡張機能を作成することです。

指示はElaineouで提供されます。 基本的に、ローカルコンピューターに新しいディレクトリを作成し、その中に2つのファイルbackground.jsとmanifest.jsonを作成し、サイトにあるコードをコピーしてファイルに貼り付けるだけです。

chrome:// extensions /で「開発者モード」を有効にする必要があります。その後、「展開された拡張機能をロード」を選択して、2つのファイルを作成したフォルダーを選択して拡張機能をChromeにロードします。

サポートするサイトのリストを変更して、新しいサイトを追加できます。