Normalização e normalização existem duas formas de redimensionar os dados.

Normalização redimensiona um conjunto de dados para ter uma média de 0 e um desvio padrão de 1. Utiliza a seguinte fórmula para o fazer:

x novo = (x i - x ) / s

onde:

  • x i : O i-ésimo valor no conjunto de dados
  • x A média da amostra
  • s O desvio padrão da amostra

Normalização redimensiona um conjunto de dados para que cada valor fique entre 0 e 1. Para tal, utiliza a seguinte fórmula:

x novo = (x i - x min ) / (x máximo - x min )

onde:

  • x i : O i-ésimo valor no conjunto de dados
  • x min Valor mínimo no conjunto de dados
  • x máximo O valor máximo no conjunto de dados

Os exemplos seguintes mostram como padronizar e normalizar um conjunto de dados na prática.

Exemplo: Como normalizar os dados

Suponhamos que temos o seguinte conjunto de dados:

O valor médio no conjunto de dados é 43,15 e o desvio padrão é 22,13.

Para normalizar o primeiro valor de 13 aplicaríamos a fórmula partilhada anteriormente:

  • x novo = (x i - x ) / s = (13 - 43.15) / 22.13 = -1.36

Para normalizar o segundo valor de 16 utilizaríamos a mesma fórmula:

  • x novo = (x i - x ) / s = (16 - 43.15) / 22.13 = -1.23

Para normalizar o terceiro valor de 19 utilizaríamos a mesma fórmula:

  • x novo = (x i - x ) / s = (19 - 43.15) / 22.13 = -1.09

Podemos utilizar exatamente esta mesma fórmula para normalizar cada valor no conjunto de dados original:

Exemplo: Como normalizar dados

Mais uma vez, suponhamos que temos o seguinte conjunto de dados:

O valor mínimo no conjunto de dados é 13 e o valor máximo é 71.

Para normalizar o primeiro valor de 13 aplicaríamos a fórmula partilhada anteriormente:

  • x novo = (x i - x min ) / (x máximo - x min ) = (13 - 13) / (71 - 13) = 0

Para normalizar o segundo valor de 16 utilizaríamos a mesma fórmula:

  • x novo = (x i - x min ) / (x máximo - x min ) = (16 - 13) / (71 - 13) = .0517

Para normalizar o terceiro valor de 19 utilizaríamos a mesma fórmula:

  • x novo = (x i - x min ) / (x máximo - x min ) = (19 - 13) / (71 - 13) = .1034

Podemos utilizar exatamente esta mesma fórmula para normalizar cada valor no conjunto de dados original para que fique entre 0 e 1:

Padronização vs. Normalização: Quando usar cada uma

Normalmente, nós normalizar quando realizamos algum tipo de análise em que temos múltiplas variáveis que são medidas em escalas diferentes e queremos que cada uma das variáveis tenha o mesmo intervalo.

Isto evita que uma variável seja demasiado influente, especialmente se for medida em unidades diferentes (ou seja, se uma variável for medida em polegadas e outra em jardas).

Por outro lado, normalmente normalizar quando queremos saber a quantos desvios-padrão cada valor num conjunto de dados se encontra da média.

Por exemplo, podemos ter uma lista de notas de exames de 500 alunos de uma determinada escola e gostaríamos de saber a quantos desvios-padrão cada nota de exame se encontra da nota média.

Neste caso, podemos normalizar os dados em bruto para obter esta informação. Assim, uma classificação normalizada de 1,26 dir-nos-ia que a classificação do exame desse aluno em particular está 1,26 desvios-padrão acima da classificação média do exame.

Quer decida normalizar ou padronizar os seus dados, tenha em mente o seguinte:

  • A conjunto de dados normalizado terão sempre valores que variam entre 0 e 1.
  • A conjunto de dados normalizado terá uma média de 0 e um desvio padrão de 1, mas não existe um limite superior ou inferior específico para os valores máximo e mínimo.

Dependendo do seu cenário particular, pode fazer mais sentido normalizar ou padronizar os dados.