No artigo (de Machine Learning) de Sébastien Bubeck e Mark Sellke A Universal Law of Robustnesss via Isoperimetry é utilizada a desigualdade de Hoeffding, [Hoeffding, Wassily (1963)] na demonstração do teorema principal. Esta desigualdade probabilística apresenta o seguinte enunciado, em tradução do original
Desigualdade de Hoeffding [Hoeffding, Wassily (1963) Theorem 2]: Se forem variáveis aleatórias independentes e , , então, para :
Notação: e , em que a soma e é a esperança matemática de .
Embora a demonstração deste teorema não faça referência explícita à desigualdade de Markov, no caso particular do exercício que apresento a seguir, vou usá-la para facilitar a sua demonstração, à semelhança do que é feito neste vídeo de MIT RES.6-012 Introduction to Probability. No exercício, à excepção da utilização da desigualdade de Markov, sigo, para mais fácil generalização, os passos da demonstração do teorema original adaptada ao caso apresentado.
Desigualdade de Markov: se for uma variável aleatória positiva ou nula cuja esperança matemática se designa por e uma constante positiva, então
Exercício (caso particular da desigualdade de Hoeffding): Sejam , , , variáveis aleatórias independentes que tomam, com igual probabilidade, os valores e
Designando a média das variáveis aleatórias por , em que é a sua soma, e fazendo uso da desigualdade de Markov, determine o seguinte majorante da probabilidade da média ser pelo menos
Resolução: Se substituirmos em , obtemos a probabilidade equivalente
Seja, agora, uma constante positiva arbitrária. Como a condição é equivalente a , podemos escrever
Para majorar esta última probabilidade usamos a desigualdade de Markov,
que aplicada a este caso se traduz em
Substituindo o valor de , tem-se
Dado que a função exponencial é convexa, o seu gráfico é limitado superiormente, no intervalo , pela recta que une os pontos e , cuja equação é dada por
Assim,
pelo que satisfaz a condição
atendendo a que , pois a distribuição de cada é simétrica.
De e resulta então
Para facilitar o resto do cálculo, vamos agora reescrever :
em que o expoente . As duas primeiras derivadas de são
A segunda derivada admite a seguinte factorização
isto é, em que , uma vez que . Ora, o máximo de ocorre quando , donde . Pelo desenvolvimento em série de Taylor, dado que , vem
No gráfico anterior mostram-se os andamentos de , e . De e , resulta que , e de ,
Designe-se o expoente de por . Visto que e , o segundo membro de tem o mínimo em . Finalmente, inserindo este valor em , obtemos o majorante de indicado em , o que demonstra a desigualdade de Hoeffding, neste caso específico.
Apresentam-se dois exemplos gráficos para os casos e .
[Hoeffding, Wassily (1963)] Probability inequalities for sums of bounded random variables (PDF). Journal of the American Statistical Association. 58 (301): 13–30. Acessível via Wikipedia