科学网的博客平台(https://blog.sciencenet.cn)是国内少有的能存活到现在的博客平台(2007~)。
「科学网」由「中国科学报社」运营。「中国科学报社」是「中国科学院」所属唯一经国家新闻出版署批准的新闻媒体单位。(一句话:背景很大。)
其博客平台粗略目测没有任何广告,建站之初(2007)的老文章的存活率很高,而现今这个博客平台仍然有大量的活跃用户和新文章发布(估计每5分钟就会有一篇新文章,且多为长篇)。(一句话:存档价值很高!)
因此我们发起「科学网博客平台存档计划」,这是个长期项目,完成第一阶段的存档行动后,会定期 跟踪并存档 平台上新发布的文章。
目前用于该项目的存档脚本程序已经写好并运行。会将所有文章的 URL 推送到 IA 存档,待第一阶段存档完成后,我们会将详细存档结果(Archive.log)公开。
估计需要存档的文章数量在一百万左右,仅存档可公开访问的文章。
2022-10-21,已完成 100,000 的 id 进度。
2022-12-24,已完成 400,000 的 id 进度。
2023-02-13,已完成 1,000,000 的 id 进度。(追赶到 2021-8-16)