英国大学：新型声学攻击从按键中窃取数据的准确率高达95%

一个来自英国大学的研究团队训练出了一个深度学习模型，它可以从使用麦克风记录的键盘击键中窃取数据，准确率高达 95%。当使用 Zoom 训练声音分类算法时，预测准确率下降到了 93%，这仍然是一个危险的高水平，创下了该媒介的最高纪录。

这种攻击会严重影响目标的数据安全，因为它可能将人们的密码、讨论、信息或其他敏感信息泄露给恶意第三方。

此外，与其他需要特殊条件并受数据传输速率和距离限制的侧信道攻击不同，由于大量麦克风设备可以实现高质量音频捕获，声学攻击变得简单得多。

这一点再加上机器学习的快速发展，使得基于声音的侧信道攻击变得可行，而且比以前预想的要危险得多。

监听按键

攻击的第一步是记录目标键盘上的按键操作，因为这些数据是训练预测算法所必需的。这可以通过附近的麦克风或目标手机来实现，因为目标手机可能已经感染了可以访问其麦克风的恶意软件。

另外，还可以通过 Zoom 通话记录键盘输入，在 Zoom 通话中，一名不法会议参与者会将目标输入的信息与他们的录音进行关联。

研究人员通过按压现代 MacBook Pro 上的 36 个按键，每个按键按压 25 次并记录每次按压产生的声音来收集训练数据。

按键音频采样（arxiv.org）

然后，他们从录音中制作出波形图和频谱图，直观显示每个按键的可识别差异，并执行特定的数据处理步骤，以增强可用于识别按键的信号。

生成的频谱图（arxiv.org）

频谱图图像用于训练图像分类器”CoAtNet”，在此过程中需要对历时、学习率和数据分割参数进行一些试验，直到获得最佳预测准确性结果。

选择用于训练 CoAtNet 的参数（arxiv.org）

在实验中，研究人员使用了同一台笔记本电脑（过去两年所有苹果笔记本电脑都使用该键盘）、距离目标 17 厘米的 iPhone 13 mini 和 Zoom。

测试装置（arxiv.org）

CoANet 分类器对智能手机录音的准确率达到 95%，对通过 Zoom 捕捉到的录音的准确率达到 93%。Skype 的准确率较低，但也达到了 91.7%。

电话录音按键的混淆矩阵（arxiv.org）

可能的缓解措施

对于担心声学侧信道攻击的用户，论文建议他们可以尝试改变打字风格或使用随机密码。

其他潜在的防御措施包括使用软件重现按键声音、白噪声或基于软件的按键音频过滤器。

该攻击模型即使对非常安静的键盘也非常有效，因此在机械键盘上添加声音阻尼器或改用薄膜键盘可能无济于事。

最后，在可行的情况下采用生物识别身份验证和利用密码管理器来避免手动输入敏感信息，也是一种缓解因素。