七月 2019

杂谈

目前市面上的制定目标的方法都是错的!

By
on
2019年7月21日

最近定了很多目标,然后懂频繁实现了感受非常深的一点,以前市面上说的那种关于 SMAT 的目标制定的方法都是扯蛋的感觉…

为什么这么说?

比如以一个非常典型的 SMAT 目标来说: 我要在1 个月读 3 本书,够具体了吧,够量化了吧.

但是这种目标能实现吗? 我相信大部分人会觉得 呵呵…

先不讨论目标的合理性,就这样的目标,我就觉得非常反人类.

因为 : 你看到这个目标的时候,不会心动,而且还有一种蛋疼的感觉,就是无名的压力…

我理想的目标应该是什么?

我觉得,理想中的目标,一定是一个场景,而且是非常具体的场景!冷冰冰的数字不会让你心动,但是场景会!

比如,我为什么一个月读三本书?背后的意义是什么?

比如我是要掌握 python,并且可以写出一个自动化爬虫,所以我需要吸收 3 本书…而我写的这个爬虫,是我自动 seo 优化系统中的一部分!

我把整个场景,与我的大场景,就关联了起来…

那么我的目标就会这样定 : 写一个 python 爬虫,采集百度的文章,并且能让一个新站的实现秒收.. ( 当天发当天收 ),通过这个爬虫,我可以走上 seo…

未分类

基于 dede 用 python 写的一个站群管理程序

By
on
2019年7月18日

最近手上的站比较多,用 python 写了一个站群管理程序,其实我一直就想写这个东西,写了两年没写出来…

这次借助 OKR 思维,把这个站群程序好好给迭代一下

目前的版本,感觉比较简单,目前实现的功能大概如下:

每天定时自动发布 ( 基础功能 )3天查一次收录,并且把未收录的 url 主动提交给百度 ( 这个其实可以做成每天 )文本分段 ( 2-3 句话 分成一段,主要针对格式比较混乱的 Html )百度原创度检测,对文章库进行批量的原创度检测 ( 根据飘红面积 )

现在的版本比较简单,但是基本够用,因为目前第一批 测试站只有 30 个左右,后期主要是针对文本处理的模块进行迭代,目前的逻辑还是比较简单…

未分类

百度实时推送 python 版本 ( 单条 url )

By
on
2019年7月18日

传入 doman,(www.zhangte.org,token,和需要提交的 url )

就可以返回提交的结果,就是一个 json…

现在好像很多站都是50万了…

不知道这个有没用…

接下去的计划,每天把未收录的重点页面提交一次,看看这个收录率怎么样

www.tijian8.com优化日志

这段时间最大的收获就是不断的复盘!

By
on
2019年7月14日

我觉得今年应该是我最努力的一年,也可以说最有成就的一年.

以前我做事情,从来都是有始无终的

什么是有始无终?就是做一个事情,只是为了做一个事情而已,而没有把他优化到完美的地步

但是这三个月的时间里,我真正的把一件事,通过不断的总结,不断的优化,不断的尝试..最终做出了效果….

其实很欣慰,虽然这个最终的效果,和最终版还是有一定的距离,但是已经初见 成效了…比如,体检网这个词,这段时间已经优化到首页了…. ( 虽然有的地区还是不一样的排名 )

为什么要优化这样一个没用的词?

其实懂 seo 的人应该知道,这个词产生不了很大的价值,但是这个词,对于我们的研究成果,其实有着很大的帮助!

因为这个词具有代表性,比如

这是一个有那么一点的指数的词,如果这个词可以搞上去 ( 实际花了快 20 天的时间)

那么其他的词理论上来讲问题不大…

每天的复盘很有帮助

这段时间,不断的复盘,不断的总结,我发现,确实帮助非常大…有的时候,甚至会把 2 个月前的东西和经验翻出来看…多会有很不错的收获

孔子说,温故而知新可以为师矣…..,现在觉得非常受益…

下一个阶段,善检网的 SEO 主要阵地是佛山….而且,主要的词就是 ( 佛山体检和佛山美年 )

对了,顺便说下,现在研究的站群程序已经有了初步的效果…

这个站群程序出来的话,管理 500 个站应该问题不大…

我很有信心,按照现在的工作方法,可以起到很好的效果

未分类

用python 计算文章原创度

By
on
2019年7月13日

目前市面上,基本上的原创度算法,都很简单粗暴,比如爱站的思路是这样的:

把文章按照符号或是长度分割成数个段落把每个段落扔到百度去搜索如果有完整匹配,就是非原创如果没有完整批量,就是原创

其实爱站这个算法与很大的问题,如果是做了同义词匹配呢?

那不是很尴尬的认为是原创的?

一句话只要替换了一个词,就会认为是原创的,这种做法是及其不合理的!

那么正确的做法是什么?

其实就是验证摘要的飘红面积!!

什么是飘红面积?假如一句话有 10 个字,你替换了一个词,还有 8 个字是一样的,那么飘红面积就是 80%,那么就是不原创!

飘红面积越小,效果越好…

用Python 撸了一个代码,马上测试一下,看下效果:

比如我博客的文章的计算结果:

原创度 88 分,算是很原创了

然后在去选一篇A5 的结果..

71分,因为这个算法的原因,所以导致,面就不可能是 100% ,因为必须有一些其他的词会匹配出来,但是我们认为,

大于 80%的文章是好文章大于 85%的文章非常不错小于 80 分的,就是 不好的文章小于 75 分的,就是非常垃圾的文章

为了验证效果,再来看一篇文章

比如某体检网的,计算结果是 83%,勉强可以通过

再看看我们的编辑:

好像有点打脸….77 分…

再看一下百度新闻的一篇文章

74 分,已经是属于严重垃圾的文章,看下百度的搜索结果:

看下标题的这个飘红面积….

厦门体检