为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。
第 14 周项目摘要。
- @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend
- saveweb/review-2022 收录 +1
- 播客存档项目开工,写存档工具:https://github.com/saveweb/preserve-those-podcasts
- 播客存档工具GA了,试着存档了 30 个播客,占用 140GiB。(之后会扩大存档规模)
- 把某国内应用市场的存档计划对应的存档服务器的数据库拉回本地,做分库。
- 抓包,探索了国内知名播客应用「小宇宙」的API。
- wikiapiary.com 上的 wikiteam bot 机器人已经宕机 8 年了。这 8 年 wikiapiary、IA、pywikibot、MediaWiki、WikiTeam 等软件或服务的 API 都有变化, wikiteam/wikiteam repo 里原来的那个bot脚本已经用不了了。 于是写了个新 bot ,尝试复活它。 https://github.com/saveweb/wikiapiary-wikiteam-bot 正在尝试联系原 wikiteam bot 的账号持有人,如果联系不到,咱们就联系 wikiapiary 申请个机器人账号自己跑。🌚
近日讨论摘要:
- https://github.com/saveweb/see-agreement/ 这个项目一直搁置……
- 日经讨论:吐槽网络、哀嚎缺存储空间、吐槽SSD寿命。
- https://www.podcastrepublic.net/ 可以作为博客存档项目的爬取源。
- Mac 软件:Little Snitch Network Monitor 的流量可视化有点酷。
- xuite.net 「Xuite 隨意窩」 博客平台要关站了。
接下来的工作/待办事项:
- 需要继续维护 rss-list ,缺人。
- 软盘存档项目,写具体的存档流程和方法(写手册,也可能录视频)。
- mediawiki 存档相关:
- 优化 wikiteam3 的 launcher.py ,只把 history.xml 打进一个压缩包。
- 弃用 wikiteam3 给每个媒体文件下载 .desc 文件的“特性”。
- 流式解析 wikiteam3 生成的 wikidump xml,做 xml 校验器。
- 写个保存 fandom wiki 的 comments 的小脚本。(wikiteam#456)
- 做 DokuWiki 存档。小目标:完成 100 个 DokuWiki 的存档(目前存了20多个)。最好能吸引“国际友人”参与(目前只有一个)。
- @jsun969 写博客搜索引擎的前端。
- 将 FreshRSS 的 MariaDB 与 MeiliSearch 对接,使博客搜索引擎全文索引能实时更新。(目前是手动全库导入)
- @oveRidea_China 开发 BiliBili 每日 Top 100 视频存档。
- 继续探索:播客存档的方法。
咕咕咕(停摆)的项目:
- see-agreement (收集各网站/软件的用户协议,隐私协议等)
- 互联网公墓 wiki (记录关站的网站和服务)
- 天涯论坛存档(元数据爬取都还没做好,元数据通过 web 爬取行不通,得走API)
- Git 博客仓库存档(需要人维护,停摆)
- 语雀公开知识库存档(语雀现在能开公开知识库的都是付费用户,给付费用户做存档,感觉有点……提不起兴趣)