ScrapeBox使用教程 — 实用案例
- 独立站
- 2024-04-22
- 26热度
- 0评论
SB是一个非常有用的SEO工具,适用于各种各样的外贸业务,和不同的跨境推广目标。 小型外贸企业可以使用它来获取竞争对手数据,及其主要关键字的数据。 大型外贸工厂也可以使用它来抓取hot selling产品细节,收集研究、汇总数据,例如从Twitter等平台收集受众的数据,或者互动指标数等等。
然而,SB也是一个危险的工具。 Scrapebox不懂人类规则,你需要告诉它做什么。 如果你指令它做的动作,违反了你正在抓取的网站的条款和条件,很快就悲剧了,发现你的IP被屏蔽或你的帐户已被封号。因为对于被你爬取数据的站点,Scrapebox的行为看起来非常像DDoS攻击。所以,你应该使用哪些设置来确保工具的安全使用呢,
1. Scrapebox的SEO工作机制
SB号称是SEO界的“瑞士军刀”,也挺形象,可以把它描述成一把刮刀,用于指向一个网页,并从该页面中用scrape刮取你需要的数据。由于Scrapebox是一种自动化工具,因此它在很大程度上依赖于Web代理(web proxies)。代理通过大量IP地址汇集流量,对于避免IP bans和rate limits非常有用。例如,如果您想在前10个Google搜索结果中刮取1,000个关键字的列表,Scrapebox可以非常快速地完成此操作。但是,经过一定数量的快速点击(fast hits)后,Google的机器会记录这个IP地址对其服务器的过多的快速调用(rapid calls),于是会要求输入验证码,将其吊用延时。
通过使用1,000个不同的IP地址 - 或者只有200个轮换(IP rotation),Scrapebox装扮成单机点击,忽悠过谷歌的机器,谷歌不再认为是一个人在十分钟内提出了一千个不同的请求,他们的服务器会认为在10分钟的时间内,每200人提交5个请求。怎么说呢?对于股沟,这是一个非常合理的流量,于是谷歌甚至连眼都不用眨一下。
2. Scrapebox绕过API获取数据能力
这就是Scrapebox的牛逼之处 -允许你访问大量数据,而你按照常规手段,通常无法快速访问它们,Scrapebox则是这么干的:
请参考下面举例:
许多站点都提供了可用于提取数据的数据API。
举例,Facebook以他们的Graph API为数据Interface。
如果你有一个具有API访问权限的Facebook应用程序,则可以提取有限类型的数据。
如果没有FB官方的API访问权限,或者您想要Facebook API无法提供的数据,则只能使用Scrapebox来获取FB的数据...
Scrapebox成功地规避了API限制,可以获取API限制提供的数据,同时可以绕过速率限制,并且可以执行自动化的多步骤任务,以获取可能需要使用标准API进行多次重复调用,和数据过滤的数据。
![image-20220324195814860](/Users/yanghaixiong/Library/Application Support/typora-user-images/image-20220324195814860.png)
3. Scrapebox功能亮点
Scrapebox有许多不同的潜在功能,可用于在不同场景中搜索不同类型的数据。
✓ 针对指定关键词搜索
向SB自行feed关键字列表,然后SB机器访问不同的搜索引擎,以“收割(harvest)”这些关键字的搜索结果。
✓ 关键词衍生能力
可以为SB机器指定1个关键字或1个关键字列表,并使用搜索引擎自动填充功能,或者spinoff更多的衍生关键字列表。
![image-20220324195912010](/Users/yanghaixiong/Library/Application Support/typora-user-images/image-20220324195912010.png)
✓ IP Live状态检查
可以向SB机器提供一个代理IP地址列表,SB将遍历(go through)所有的代理IP地址,以检查是什么类型的代理,它使用什么协议(protocol),以及它是否仍在使用中(in service)。
✓ 批量博客评论
可以为SB机器其提供一个URL列表,SB可以在所有这些URL上留下博客评论,可以根据需要添加大量或少量的评论外链。
✓ Backlin Profile Validity检查
可以给SB机器提供一个链接列表,SB将扫描以查看HTTP status codes, originating pages, anchor text等等的有效性。
✓ 批量检查Alexa排名
可以给SB机器提供一个URL列表,「David锅微信:32661099」,SB将批量检查提供这些URL的Alexa实时排名。
✓ 批量scrape article data
为SB机器提供一个URL列表,SB将从这些URL中提取文章数据。
✓ Broken Links检测
可以feed批量URL给SB机器,SB将检测该站点上的链接,并识别任何损坏的链接,或者死链(broken links)。
![image-20220324195938201](/Users/yanghaixiong/Library/Application Support/typora-user-images/image-20220324195938201.png)
✓ 批量Page Authority检测
可以给SB机器提供一个URL列表,SB将批量拉出这些Pages的page authority。
✓ and more...
Scrapebox的功能数不胜数,还有大量的基于Scrapebox应用程序的插件add-ons可供调用,