数据采集–有想哭的冲动

接到一个任务,采集视频的,星期六连续两门考试让我累得不行了,然后就是学校的网络问题,一会能上,一会不能,我也搞不明白到底是网络问题,还是我自身的设置问题(新加装了netpas加速器和lns,比较复杂),ping网关和dns服务器,换ip,停防火墙,关闭netpas加速器,折腾了半天才能确认是学校网络问题。

要命的是时间大多花在找目标站上了。原来方向提供的目标站几乎都不能用,分类难划分是一个方面,再有就是这些视频站都用js方式调用视频播放器,而且不提供引用链接,提供的链接形式是图片+url,没有任何意义。

我本身也有很多不好的习惯导致了效率低下:
查看不认真,急于求成。在看目标站的时候不仔细,直接导致了重复和无用的工作。国外的网站习惯和国内的大不一样,对版权和网站保护和重视。所以有些视频网站干脆只提供图片引用(真小气)。而我一看到有引用框,就直接采集,到最后采集成功了才发现是图片链接……

粗枝大叶,无耐心,不仔细。好不容易写好一个规则,竟然没点保存,直接点了关闭,那种感觉真是……引用一句我说过的话:“真想把自己的手给剁下来!”

剩下的客观因素也总结一下:
国外网站保护意识强。js调用,不允许外部调用,唉,国人的版权保护意识什么时候才能到这样的程度。

页面设计追求简洁合理。接触国外的网站多了,也自然会对比一下差异。国外的网站设计都是追求简洁。不花哨,代码非常规范,能用简单的办法就不用复杂的,思路非常清晰,结构严谨,页面注释也做得非常好(这倒让我非常不适应了,汗死!不得不再次感叹我们身处的环境)

国外的网站力求特色,针对性强,使用的理念比较先进。很多网站都是针对某个群体制作的,定位非常精确,而且内容求精不求量(和版权保护有一定关系,不能随便复制引用),这就使得我在找目标站的时候非常难找,不好分类。补充:不过也有看到垃圾站的(肯定老外也有在做垃圾站,不过一些网站有中文出现,模板看起来很像国人的风格,使得我不得不怀疑是国人做的)。

学校网络。学校网络的断断续续,采集器在采集缩略图的时候是按照时间生成文件名,一旦断网,再次开始的时候就有重复的了,所以掉线的时候我哭的冲动都有了……

发表评论

电子邮件地址不会被公开。 必填项已用*标注