分类目录归档:国内seo

爱站的词库是如何如此快速的调出来的?

最近在写SEO 关键词查询的脚本比较多,写着写着,发现怎么感觉和爱站的逻辑越来越像…只是爱站是通过他的词库,而我是自建的词库..

这里说下我对爱站的技术实现想法…,因为本人技术比较差,所有如果有错误之处可以勘误一下…,这里仅说下爱站是如何如此快的调出网站的排名数据的…..

首先, 先建立关键词库,这点不用说,比如我们的体检网,我现在以建立一些长尾库为说明,大约有600 多个吧,大致如图:

那么爱站,可能会全网采集关键词 ( 比如百度 top 什么之类的 ),至于怎么建立词库,在这里 就不说了,但是我觉得比较可能的是直接用凤巢的 api,因为我之前做过,里面连搜索量都有,很省事….我这里建立的词库是 600 个,爱站可能会建立 1000 万关键词库
顺便说下,就关键词词库而言,我觉得5118 的词库会比较全,但是也比较杂…

当然这些词也会有所过滤,根据我的观察,爱站会过滤掉没指数的词…. ( 也就是说 你优化没指数的词,权重上不去… ) 所以表面看好像一个行业的词库随便一抓一大把,但是实际有指数的词可能也没几个….


然后,开始抓取这些关键词排名搜索结果,前 5 页.…这里很关键,是前 5 页,因为前 5 页可以直接用一条 url 请求

难道你没发现,爱站排名在 5 页以后的关键词没显示了吗?采集的这些搜索结果,其实可以做个过滤,只留下一些关键数据,比如关键词,和 url… ( 这里的 url 需要获取百度的真实的 url,具体怎么获取我这里也不说,总之很简单…),抓取完的结果是这样的:

不要感觉抓取 1000 万关键词词库的搜索结果量很大…,,服务器够强劲,ip 适当的多一点,做成分布式的话,更新 1000 万词库不需要多少时间的…主要你有钱!

这里我做了一些过滤,因为只要竞争对手的,顺便说下,中康的怎么都是移动端排名比较好?难道他的情况和我们一样…

这里,每个关键词对应前 100 名的 url ( 不过爱站是 前 60名 ) 就有了..而且可以保存到数据库 ( 我这里直接保存到 Excel 比较省事 )


最后,通过类似elasticsearch ( 搜索引擎框架 ) 直接调取数据….

不过我相信爱站这方面的技术要更好,不要告诉我你直接用sql更省事…我不谈技术,你自己体会一下,1000 万数据你用 sql 查询需要多久…然后你用一下这些框架需要多久….

这个怎么理解?比如我输入 tijian8.com, 他就直接把所有 url 包含这个字段的数据筛选出来,然后做一个计算 就可以了….

这里说下,爱站应该是这样的:

  1. 词库抓取更新,专门一个程序,居我所知,这个程序的更新频率不是很高
  2. 词库搜索结果页抓取,专门一个程序 ( 你可以理解为排名更新 )
  3. 页面清洗一个程序…
  4. 计算得分一个程序..
  5. 搜索查询一个程序…

当然这些都是我想出来的…因为我现在就是这么做的….

  1. 词库抓取,我目前是人工录入 ( 这样我们可以更精准,毕竟权重太低,要有所侧重 )
  2. 搜索结果抓取,我有一个专门的程序…
  3. 页面清洗 这个是我整 到 一起了….因为我暂时还没想过留下这些 html 能有什么用…
  4. 计算得分 , 这个很快….
  5. 搜索查询 , 合并在一起了…

然后我随便写个公式,计算一下分数, ( 只是我的公式只参考排名,爱站的只参考排名指数,差距在这里 ) 因为我们很多词都没指数的…

具体的分析和计算思路在这里了….

以前一开始感觉爱站这种真的不可思议…后来写着写着,发现好像还好….当然这中间涉及到爬虫能力还是很强的….处理几个词很简单,但是处理几千万词就有点难度….

当然基于上面的理论,你要搞这个 360 权重 搜狗权重 什么的我觉得也是比较容易的 ,唯一的难点是, 蜂巢有 api ( 当然懂技术的,可以直接写爬虫去爬,以前 Zero 大神就写过,随随便便爬个 十几万 )