拾遗记 - Kasen's Blog

使用 PyTorch 实现 Transformer 结构（二）：编解码器

发表于 2025-02-13 分类于 AI ， Transformer 本文字数： 1.7k 阅读时长 ≈ 6 分钟

在上一篇文章中已经实现了 Transformer 中核心的缩放点积注意力、多头注意力以及前馈神经网络，那么这篇文章中我们先将这几部分封装成编码器层和解码器层，然后再去实现完整的编码器和解码器。

使用 PyTorch 实现 Transformer 结构（一）：多头注意力机制

发表于 2025-02-12 分类于 AI ， Transformer 本文字数： 1.2k 阅读时长 ≈ 4 分钟

我计划通过几篇文章来整理一下如何使用 PyTorch 实现 2017 年《Attention is all your need》论文中的 Transformer 模型结构。关于 Transformer 的理论部分网络上已经有非常多的文章或视频讲解，如果你想要了解这部分的内容，我个人比较推荐的是来自图灵出版社公众号的一篇文章：《一文读懂 Transformer，工作原理与实现全解析》。

阅读全文 »

自定义 VS Code 主题

发表于 2024-10-13 分类于程序猿的日常本文字数： 892 阅读时长 ≈ 3 分钟

之前在网上看到浅色主题会比深色主题更护眼，所以我在 VSCode 上安装了一些浅色主题，可惜都不太符合我的个人喜好。那么，干脆就来尝试自定义一款浅色 VSCode 主题吧。

阅读全文 »

tracert 命令与基于 Go 的简单实现

发表于 2024-08-25 分类于计算机网络， Go 本文字数： 726 阅读时长 ≈ 3 分钟

在网络诊断中，我们常常需要了解数据包从源主机到目标主机所经过的路径，以便定位网络问题。Windows 下的 tracert 就是一种常用的工具，它通过发送一系列带有特殊 TTL（Time To Live）值的 ICMP 数据包，并分析返回的 ICMP 报文，逐步揭示数据包途径的每一个路由器或网关，以及每个节点的响应时间和丢包情况，帮助我们诊断网络延迟和连接问题。

阅读全文 »

ping 命令与基于 Go 的简单实现

发表于 2024-08-18 分类于计算机网络， Go 本文字数： 739 阅读时长 ≈ 3 分钟

在日常工作中，我们经常需要确认与远程主机的连接状态，而 ping 就是一种常用的网络工具，用于测试与目标主机之间的网络连接。它通过发送 ICMP 回显请求报文，并等待目标主机返回 ICMP 回显应答报文来判断连接是否正常，以及网络延迟和丢包情况。

阅读全文 »