103BERTology —— 基于 BERT 进行的相关研究

BERTology —— 基于 BERT 进行的相关研究¶

有一个新兴的研究领域专注于研究像 BERT 这样的大规模转换器模型的内部工作原理（有些人称之为“BERTology”）。以下是一些这个领域的优秀例子：

Ian Tenney、Dipanjan Das 和 Ellie Pavlick 的《BERT 重新发现经典 NLP 流水线》：链接
Paul Michel、Omer Levy 和 Graham Neubig 的《十六个注意力头真的比一个好吗？》：链接
Kevin Clark、Urvashi Khandelwal、Omer Levy 和 Christopher D. Manning 的《BERT 关注什么？对 BERT 注意力的分析》：链接
《CAT 探针：一种基于指标的方法来解释预训练编程语言模型如何关注代码结构》：链接

为了帮助这一新领域的发展，我们在 BERT/GPT/GPT-2 模型中添加了一些额外的功能，主要是从 Paul Michel 的卓越工作中改编而来（论文链接）：

为了帮助您理解和使用这些功能，我们添加了一个特定的示例脚本：bertology.py，这个脚本可以从预训练的 GLUE 模型中提取信息并进行剪枝。

注释：

这些功能和方法为研究 BERT 等模型的内部工作原理提供了有力的支持。