浏览器访问一个链接时并不是直接将请求到网页对应的服务器上,而是先要做域名解析——将域名解析到网页对应的服务器 ip 地址,然后浏览器才能和服务器之间建立起通信交互,其过程大致如下图所示:
安装虚拟机旺旺占据不少磁盘空间,尤其是我的 Mac Air 上只有 128G 空间,更显得捉襟见肘。所以用 CentOS 的最小安装是个不错的选择。最小安装减少了很多不必要的软件安装(连 ifconfig 都没有,不过可以用 ip addr ),但也省了不少配置。要安装其他软件要走 yum,首先要把网络搞通。
Robots.txt 协议文件是对搜索引擎蜘蛛的控制。主流搜索引擎都遵守。本文主要极少它的用法以及相关工具。
网站的 sitemap(站点地图)文件对于 SEO 来说非常重要,可以用来引导爬虫的抓取,提高网站的抓取效率。本文详细介绍了制作 sitemap 的方法和工具。
curl 是常用的 web 调试工具。在 7.43.0 版本(包括 libcurl)以后就开始支持 HTTP/2.0 协议。目前多数平台的 curl 版本比较低,还不支持 HTTP/2.0协议,文本讲解如何对 curl 进行升级。
httrack 是个非常强大网站镜像工具,可以用来备份你的网站,在 Windows、Linux、MacOSX 上都能使用。本文以命令行方式举例,如果你觉得命令行方式不方便,官方还提供了 GUI 工具(WinHTTrack/WebHTTrack)。
tsocks 主要是为哪些本身不支持 socks 代理的程提供代理通道,比如 wget。但他本身不是代理服务,如要嫁接到其他代码服务上,本例中假设已有一个搭建好额 socks5 代理服务,地址是 127.0.0.1:8989。
经常听到身边的程序员抱怨每天都在“套页面”,感觉技术没有提高,感觉会逐渐失去竞争力。其实这是程序员们普遍都有焦虑心态,很多人都会有这种经历,尤其是刚毕业工作2、3年的程序员,可能这种感觉更强烈。业务型程序员如何成长?作为一名7年BAT工作经验的程序员分享一下我的一些感悟。
可能很多程序员喜欢用Viso(window下)或OmniGraffle(Mac 下)绘制UML图。但你用过 PlantUtml 之后,你可能会觉得其他工具简直“弱爆了”!。Viso或OmniGraffle 这类工具的确更灵活,绘制系统结构图的时候更有优势,但在绘制UML方面(不太关心样式的情况下),他们和 PlantUML比起来效率就低很多。PlantUML 完全使用代码方式绘图,更符合程序员的习惯,让逻辑表述更清晰,更易于修改。