Press "Enter" to skip to content

STWP 2023 第 14 周周报

为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。


第 14 周项目摘要。

  • @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend
  • saveweb/review-2022 收录 +1
  • 播客存档项目开工,写存档工具:https://github.com/saveweb/preserve-those-podcasts
  • 播客存档工具GA了,试着存档了 30 个播客,占用 140GiB。(之后会扩大存档规模)
  • 把某国内应用市场的存档计划对应的存档服务器的数据库拉回本地,做分库。
  • 抓包,探索了国内知名播客应用「小宇宙」的API。
  • wikiapiary.com 上的 wikiteam bot 机器人已经宕机 8 年了。这 8 年 wikiapiary、IA、pywikibot、MediaWiki、WikiTeam 等软件或服务的 API 都有变化, wikiteam/wikiteam repo 里原来的那个bot脚本已经用不了了。 于是写了个新 bot ,尝试复活它。 https://github.com/saveweb/wikiapiary-wikiteam-bot 正在尝试联系原 wikiteam bot 的账号持有人,如果联系不到,咱们就联系 wikiapiary 申请个机器人账号自己跑。🌚

近日讨论摘要:

  1. https://github.com/saveweb/see-agreement/ 这个项目一直搁置……
  2. 日经讨论:吐槽网络、哀嚎缺存储空间、吐槽SSD寿命。
  3. https://www.podcastrepublic.net/ 可以作为博客存档项目的爬取源。
  4. Mac 软件:Little Snitch Network Monitor 的流量可视化有点酷。
  5. xuite.net 「Xuite 隨意窩」 博客平台要关站了。

接下来的工作/待办事项:

  1. 需要继续维护 rss-list ,缺人。
  2. 软盘存档项目,写具体的存档流程和方法(写手册,也可能录视频)。
  3. mediawiki 存档相关:
    1. 优化 wikiteam3 的 launcher.py ,只把 history.xml 打进一个压缩包。
    2. 弃用 wikiteam3 给每个媒体文件下载 .desc 文件的“特性”。
    3. 流式解析 wikiteam3 生成的 wikidump xml,做 xml 校验器。
    4. 写个保存 fandom wiki 的 comments 的小脚本。(wikiteam#456)
  4. 做 DokuWiki 存档。小目标:完成 100 个 DokuWiki 的存档(目前存了20多个)。最好能吸引“国际友人”参与(目前只有一个)。
  5. @jsun969 写博客搜索引擎的前端。
  6. 将 FreshRSS 的 MariaDB 与 MeiliSearch 对接,使博客搜索引擎全文索引能实时更新。(目前是手动全库导入)
  7. @oveRidea_China 开发 BiliBili 每日 Top 100 视频存档。
  8. 继续探索:播客存档的方法。

咕咕咕(停摆)的项目:

  1. see-agreement (收集各网站/软件的用户协议,隐私协议等)
  2. 互联网公墓 wiki (记录关站的网站和服务)
  3. 天涯论坛存档(元数据爬取都还没做好,元数据通过 web 爬取行不通,得走API)
  4. Git 博客仓库存档(需要人维护,停摆)
  5. 语雀公开知识库存档(语雀现在能开公开知识库的都是付费用户,给付费用户做存档,感觉有点……提不起兴趣)
发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注