伪装成Googlebot,阅读付费专页背后的文章
- 类别: 互联网
互联网正处于转折点。广告屏蔽的持续兴起终结了仅依靠广告收入来运营网站和企业的收入模型。
尤其是新闻网站已经开始尝试各种途径来实现收入来源的多样化,其中一个突出的选择是《华尔街日报》,《金融时报》,《纽约时报》 时代 ,或者《华盛顿邮报》已经实施或测试的是收费专区系统。
付费墙的类型不同,但它们的共同点是它们阻止对内容的访问。当打开第一篇文章,在现场阅读了一定数量的文章后,或者作为摘录系统向读者显示第一段并在注册信息下方读取其余内容时,这可能直接发生。
付费墙可能并不总是要求用户为访问付费。有些网站可能要求用户注册才能使用该网站,但一旦注册后就不会向用户收费。
从业务的角度来看,这可能是有意义的,并且可能比与运行adblocker的用户进行竞争更为有利可图,但是对于付费站点和被阻止的用户来说,都有不利的一面。
如果网站实施了付费专区系统,则会损失大量访问者。目前尚不清楚该百分比到底有多高,并且可能因站点而异,但它可能比在被赋予选择阅读所需文章的选择后订阅该站点的访问者的百分比高得多。
对于用户而言,链接到有趣的听起来不错的文章真的很令人沮丧,因为一旦资源加载后就被阻止阅读。这对许多人来说都是浪费时间,特别是如果在注册或订阅之前未提供任何内容。
伪装您的浏览器
新闻站点允许访问新闻聚合器和搜索引擎已经不是什么秘密了。例如,如果您选中Google新闻或搜索,则会从列出了付费专区的网站上找到文章。
过去,新闻网站允许访问来自Reddit,Digg或Slashdot等主要新闻聚合商的访问者,但如今这种做法似乎已不复存在。有些可能仍然允许它,但是它是反复试验的,并且变通办法可以随时关闭。
将文章标题粘贴到搜索引擎中以直接读取其上已缓存的故事的另一种技巧似乎不再正常工作,并且通常不会再缓存带有付费专栏的网站上的文章。
提示:请查看以下可用于绕过付费墙的附加组件:
用户代理和引荐来源
您可能想知道网站如何阻止或允许访问网站内容。这些年来,方法已得到改进,仅将浏览器的引荐来源网址更改为https://www.google.com/以获得对网站内容的完全访问权限已不再足够。
相反,站点使用各种检查来确定访问的合法性,这些检查包括用户代理,引荐来源和cookie,有时甚至更多。
一般信息
伪装浏览器的最佳方法可能是使它看起来像是Googlebot。
- 推荐人:https://www.google.com/
- 用户代理:Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html
请注意,该选项在可能的站点上不再起作用。假装来自Twitter或其他社交媒体网站的伪装可能更好。
火狐浏览器
Firefox用户需要两个浏览器插件:第一个是RefControl,用于在访问新闻网站时更改引荐来源网址的值;第二个是 用户代理切换器 ,以更改浏览器的用户代理。
更新资料 :RefControl不再可用。你可以 试试这个 替代。 结束
- 在Firefox Web浏览器中下载并安装两个扩展。
- 点击Alt键,然后选择“工具”>“ RefControl选项”。
- 点击“添加网站”,在网站下输入域名,选择自定义操作,然后输入https://www.google.com/作为引荐来源网址。
- 对您要访问的所有新闻站点重复此操作(即使进行更改,某些新闻站点也可能无法工作,因此请记住这一点)。
- 完成后,关闭配置窗口。
- 再次点击Alt键,然后从菜单中选择“工具”>“默认用户代理”>“编辑用户代理”。
- 选择新建>用户代理,然后将用户代理字段中的字符串替换为Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)。将其命名为Googlebot。
- 退出菜单。
- 在访问这些网站之前,请点击Alt,然后选择默认用户代理> Googlebot。
这就是全部。不幸的是,Firefox没有扩展可以根据您访问的站点自动更改用户代理。
谷歌浏览器
Google Chrome浏览器用户可以安装扩展程序,例如 用户代理切换器 和 推荐人控制 可供浏览器执行的操作。
但是,还有另一种可能性,那就是创建一个自定义扩展名,以使浏览器中的过程自动化。
提供说明 埃莱尼乌 。基本上,所需要做的就是在本地计算机上创建一个新目录,在其中创建两个文件background.js和manifest.json,然后将在站点上找到的代码复制并粘贴到这些文件中。
您需要在chrome:// extensions /上启用“开发人员模式”,然后可以选择“加载解压缩的扩展程序”以选择您在其中创建了两个文件的文件夹,以将扩展程序加载到Chrome中。
您可以修改它支持添加新站点的站点列表。