欢迎光临企业型网站建设公司网站,为您提供专业的一站式建设服务。

企业型网站建设公司

品牌网站建设开发,专业营销网站设计价格

外贸怎么收集竞争对手信息?

作者:jcmp      发布时间:2021-04-30      浏览量:0
怎么监控同行? 思路如下:这是我分享的箱

怎么监控同行? 思路如下:

这是我分享的箱二篇文章, 更多精彩还在后边哦~

先看结果

先看看采集到的结果, 2000多的网址, 表头分别是公司名, 官网, 阿里站网址.

开头: 哪有同行网址?

找到同行的网址, 再去找到他们的邮箱, 给他们群发套价格或是分析他们的网站.... 想想都美滋滋.

那么问题来了, 哪里有同行? 阿里, alibaba.com. 哪里有同行的网址? 阿里主站 Contact 联系页. http:// xxx.en.alibaba.com/cont actinfo.html , 联系页都会有公司名, 地址, 网址.

哪里有同行的邮箱? 按照开发客户的经验, 官网一般都会有 info, sale 和 admin 前缀邮箱的, 而且一般都是经理在管理的. 阿里有大把的同行, 所以有只要阿里去搜产品-找公司-收集网址-挖掘邮箱-发询价, 就可以了.

下图是采集出来的来结果.

采集过程

详细思路是:

Contact 页面提取信息: xxx.en.alibaba.omc/contactinfo.html, 这个就是 contact 页面, 会有如下信息:

1. 阿里公司列表

1.1. 阿里找公司

说干就干, 到阿里巴到官网, 搜索栏切换到 Suppliers, 搜关键词LED, 找出公司来. 我是用这个关键词来演示的, 实际上关键词要跟据实际情况下设定的.

1.2. 网址分析

下拉到最后面, 跳转到第二页, 先分析下这个网址.

可以看到, 第二页的网址里面有个 page=2, 试下第三页, 就是 page=3, 由此可以看到, 改变这个数字, 就可以到不同的页面. 有了这个变化规律, 就可以在采集器里批量添加网址了.

https://www. alibaba.com/trade/searc h?spm=a2700.supplier-normal.16.1.60923103urE0j7&n=38&indexArea=company_en&keyword=led&page=2&f1=y&viewType=L。

先把这个网址保存下来.

2. 公司网址提取

2.1. 新建采集任务

这里用到的是火车头采集器. 打开火车头采集器, 新建任务.

2.2. 添加网址

这里添加网址, 向导添加.

选择批量网址, 把刚刚的第二页的网址粘贴上去, 然后把 Page=后面的2替换成地址参数, 下面的地址参数从1开始, 每次递增1, 共25页, 这样的话, 就一次性添加了25页的阿里巴巴的产品页. 每页有36-38家公司, 一下子也有几百了. 这样软件就会一页一面地提取所有25页里面的网址. 阿里默认显示搜索结显示100页, 如果你原意, 也可以设置为100页.

2.3 网址列表处理

现在网址添加完了. 软件会这个页面所有的网址都提取出来, 其中有公司主页的网址, 如下所示, 这就是我们想要的.

仔细看下, 这些网址都会有 http:// en.alibaba.com/com_prof ile.html 这样的字段. 所以软件里添加过滤条件, 网址必需包含刚刚的字段. 把这个字段填进链接过滤里面去.

过滤条件弄好了, 等下采集的网址就都是同行阿里主页的网址了. 因为我们要去阿里 contactinfo 页面, 所以网址还要处理下.

先进入高级模式, 选择列表处理, 添加处理方式, 把 /company_profile.html 替换成 /contactinfo.html, 这样提取出来的阿里 http:// xxx.en.alibaba.com/comp any_profile.html 网址, 经过过滤处理后, 都是变成了 http:// xxx.en.alibaba.com/cont actinfo.html 联系信息页面的网址了, 上面有就我们心心念念的网址了.

高级模式下, 有个列表处理, 把里面网址改掉.

3. 内容采集

3.1 添加三个标签

现在到了内容采集了. 先找到一个要采集的 contact 页面, 分析页面, 并 Ctrl U 查看源代码.

标签列表, 新建三个标签, name 是采集的公司名, web1 是采集公司的官网, web2 是采集的阿里网址.

3.2 标签设定前后前后截取

分析源代码后, 确定我们要的内容开头字符串, 结尾字符串. 这里需要去查看网页源代码 , 分析我们需要的数据的位置, 前面是什么字符串, 后面是什么字符串.

三个标签数据前后截取设置分别如下图所示. 如果是不同的任务, 或是不同的内容, 是要跟实际情况来更改的.

3.3. 数据处理

测试了下, 发现, 采集的数据, 有其它乱入的东西, 不是很干净, 得处理下.

在数据处理那, 下面有处理方式, 添加几个, 把不要的东西替换掉, 这样最后的结果就干净了.

回到name标签里, 添加数据处理方式, 把 Contact Information for 替换为空.

点击web1标签, 添加数据处理方式, 把 http://, https://, ww. 全部替换为空的.

点击web2标签, 添加数据处理方式, 把 // 替换为空.

3.4 测试

再测试下看看, 哈哈, 结果干净多了.

4. 开车

保存任务, 再启动任务, 小火车呜呜呜开起来, 开始收集.

已经很不错了, 里有些字符再处理下, 就可以让它去运行了.

有了网址, 接下来就怎么去找这些同行的邮箱了.

小结

因为篇副的原因, 有很多的细节没有出写出来. 在操作的过程中, 碰到的问题, 可以留言.