过去一个月是期末,没时间。现在好久没发周报了,快速过一下最近5周做了啥。主要做的事是 Zeno,没有开其它存档项目。
week 20-21
- https://github.com/internetarchive/Zeno/pull/281 稍微重构 Zeno 处理对象存储的代码,添加解析 Azure Blob 的能力。
- https://github.com/internetarchive/Zeno/pull/295 让 Zeno 终端输出的日志变彩色。
week 23
- https://github.com/internetarchive/Zeno/pull/324 小小地引入标准 css 解析器,替换掉原本简陋的容易产生误报的正则提取方式。 (CSS 1/3)
week 24
无
week 25
- https://github.com/Crossbell-Box/xLog/pull/2230 前几周惊人地发现 xLog 上的一半的新文章是 spam,于是打标然后跑了个简单的 TF-IDF 分类器来识别 spam 账号。这周把识别结果人工检查了一下,把 spam 账号列表发给 xLog。
- https://github.com/internetarchive/Zeno/pull/339 支持提取 CSS 的 @import 链接。(CSS 2/3)
- https://github.com/internetarchive/Zeno/pull/345 完整支持解析 html 嵌入和引用的 css 资源。同时,发现上游的 css parser 不支持 CSS Nesting 和未适配“现代” css 语法。由于没有精力给上游修bug,因此写了个更鲁棒的正则来作为 parser 失败时的 fallback parser 当作 workaround。 (CSS 3/3)
- https://github.com/microsoft/vscode-css/pull/43 在 debug CSS 的过程中发现 VSC 自带的 CSS 高亮也没适配11年前的“新”语法标准。@overflowcat 得知后刷了一个 PR 。
- https://github.com/internetarchive/Zeno/pull/353 改善了对 GitHub Issue 页面的存档效果。
- 向 Zeno 添加 Headless/Headfull 存档功能(进行中)
这几周看 w3c 和 whatwg 都要看吐了,之后会发点关于 CSS、浏览器、URL、HTML、编码 之类的小故事。