Eles desenvolveram um método para determinar as teclas digitadas pelo som 

Detecção de teclas digitadas por som

A detecção de pressionamentos de tecla por som é obtida colocando um dispositivo de escuta próximo ao alvo

Cada vez fico bastante impressionado com os métodos que são descobertos e/ou desenvolvidos tanto para obter informações quanto para acessar a seção X, hackear o dispositivo X e é que até agora os que ainda me fascinam muito são aqueles que se baseiam no sons gerados pelo ventilador da CPU para obter informações, bem como o uso do para ver através de paredes, entre muitos outros.

Por isso, pessoalmente, gosto muito de compartilhar esse tipo de notícia aqui no blog e no caso de Hoje vou compartilhar as novidades sobre o desenvolvimento de um método que criou uma equipe de pesquisadores que Baseia-se na detecção das informações inseridas no teclado 95% de precisão ao analisar o som das teclas gravadas por um smartphone próximo ou captado por um microfone próximo.

Precisão de detecção de entrada comprovada supera todos os métodos de análise acústica caractere por símbolo previamente conhecido Eles não usam um modelo de linguagem. O método proposto pode ser usado, por exemplo, para determinar senhas inseridas ou mensagens digitadas, em uma situação em que o invasor colocou seu smartphone próximo à vítima ou recebeu uma gravação de som ao inserir informações confidenciais (por exemplo, quando durante a comunicação a vítima registra com uma senha para alguns sistemas de informação).

Com desenvolvimentos recentes em aprendizado profundo, a onipresença de microfones e o aumento de serviços online por meio de dispositivos pessoais, os ataques de canal lateral acústico representam uma ameaça maior do que nunca para os teclados.

A entrada é recriada usando um classificador baseado em um modelo de aprendizado de máquina que leva em consideração as características do som e o nível de volume quando diferentes teclas são pressionadas.

É mencionado que para realizar um ataque, é necessário um treinamento preliminar do modelo, que requer a correspondência do som de entrada com as informações sobre as teclas que estão sendo pressionadas. Em condições ideais, o modelo pode ser treinado usando um malware instalado no computador atacado, tornando possível gravar simultaneamente o som de um microfone e interceptar as teclas digitadas.

Em um cenário mais realista, os dados necessários para treinar o modelo poderiam ser coletados combinando as mensagens de texto de entrada com o áudio de um conjunto gravado como resultado de uma videoconferência. A precisão da detecção de entrada ao treinar um modelo baseado na análise de entrada de videoconferência do Zoom e do Skype diminui ligeiramente para 93% e 91,7%, respectivamente.

Em um experimento para treinar um modelo de aprendizado de máquina usando áudio de uma conferência Zoom, cada uma das 36 teclas (0-9, a-z) do teclado foi pressionada 25 vezes seguidas com dedos diferentes e com força diferente.

Os dados sobre o som de cada pressão foram transformados em uma imagem com um espectrograma refletindo a mudança na frequência e amplitude do som ao longo do tempo

espectrogramas transferido para treinamento para um classificador baseado no modelo CoAtNet, utilizado para a classificação de imagens em sistemas de visão artificial. Ou seja, durante o treinamento a imagem é comparada com o espectrograma de cada tecla com o nome da tecla. Para determinar as teclas pressionadas pelo som, o modelo CoAtNet retorna a tecla mais provável com base no espectrograma transmitido, semelhante ao retorno do rótulo mais provável ao reconhecer objetos por sua imagem.

No futuro, os pesquisadores pretendem explorar a possibilidade de recriar a entrada do teclado gravando o som de alto-falantes inteligentes e, para melhorar a precisão da determinação do texto de entrada, usar um modelo de linguagem que classifique a entrada no contexto de palavras inteiras.

Finalmente se você estiver interessado em saber mais sobre isso, você pode verificar os detalhes no link a seguir