获取RSS来源

  在PHP中,可以使用fsockopen打开一个WEB页面,并且由于它具有超时参数,可以确保php脚本在运行的时候不至于僵死;另外,如果在 php.ini中进行适当设置,还能够利用fopen函数直接打开WEB页面。但对于一个抓取大量网上数据进行聚合的系统来说,上述两种读取方式存在着不稳定性和不可控性,系统管理员也无法实时捕获各种状态。
  于是我考虑使用wget定时抓取xml数据,将xml列表写入一个文件,然后调用unix下的wget软件依次下载到服务器的某个目录里。有时候xml 文件会比较大,如几百KB,受网络因素、各个站点自身稳定性、链接变更等的影响,我们可能得不到最新的xml文件,这时我们可以编写一个外挂程序,检测服务器上的数据时间是否抓取数据时间间隔之内,如果不是,则将对应的xml文件错误计数加一,加到一定数值,就可以考虑踢出博客圈了。

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 登出 /  更改 )

Google photo

您正在使用您的 Google 账号评论。 登出 /  更改 )

Twitter picture

您正在使用您的 Twitter 账号评论。 登出 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 登出 /  更改 )

Connecting to %s