1

подскажите, пожалуйста, что значат эти значения: шум выборки (sample noise) и смещение выборки (sampling bias)? Вот полный абзац из книги:

Крайне важно применять обучающий набор, репрезентативный для примеров, на которые вы хотите обобщить. Достичь такой цели часто труднее, чем может показаться: если образец слишком мал, то вы получите шум выборки (sampling noise), т.е. нерепрезентативные данные как исход шанса, но даже очень крупные образцы могут быть нерепрезентативными в случае дефектного метода выборки. Это называется смещением выборки (sampling bias).

После прочтения возникают вопросы: что значит "если образец слишком мал" / "крупные образцы" (какой образец, к примеру, и в каком плане слишком мал или крупен; что значит под "в случае дефектного метода выборки";

hyper-cookie
  • 1,166

2 Answers2

3

Да, тут проблемы перевода. Sample - это одновременно и образец и выборка. В данном случае нужно было переводить как выборка, конечно. Т.е. имелась в виду слишком маленькая выборка и достаточно большая выборка.

Дефектный метод выборки - тут явно имеется в виду метод выборки, не обеспечивающий её репрезентативность. Например, данные были предварительно отсортированы каким-то образом, а в качестве выборки брались образцы с начала выборки подряд. В результате, выборка не является репрезентативной. Как тот же пример с женщинами и мужчинами, например было 50 женских анкет и 50 мужских именно в этом порядке, в качестве выборки взяли 30 анкет подряд, начиная с первой. В выборке получились только женские анкеты. Ну, это простейший пример, но вариантов такого бывает много. Это смещение выборки (размер выборки достаточен, но выборка предвзятая, не репрезентативная).

А шум выборки - это пусть будут опять же женщины и мужчины, разных возрастов. Берём выборку из 10 анкет. Случайно так получается, что женщины и мужчины в выборке представлены, а вот с возрастами проблема - в выборке есть только маленькие девочки и пожилые мужчины. При том, что в генеральной совокупности есть все возраста. Вот и получается, что у нас шумная выборка - она не совсем однобокая, как в случае только одного пола в выборке, но и не совсем репрезентативная. Если взять выборку побольше и обеспечить её достаточную случайность (перемешать анкеты), то выборка уже будет вполне репрезентативная.

CrazyElf
  • 71,194
  • Вау, @CrazyElf, спасибо за развернутый ответ! И Ваш ответ и ответ Сергея помогли! – hyper-cookie Apr 13 '22 at 12:46
2

Это плохой преревод. Обучающая выборка должна быть репрезентативна Д..б. образцы разных классов. "образец слишком мал"="образцов слишком мало". "крупные образцы" = "большое число образцов (примеров)".Что такое " дефектного метода выборки" - нужно знать первоисточник - даже близко такого термина не найти. Но большое число примеров в чаще всего нерепрезентативно в случае плохо сделанной выборки (например, включили только мужчин в выборку, а приходили и женщины).

Сергей
  • 4,935
  • 6
  • 12
  • 29
  • 1
    Кстати, Sampling bias и есть "включили только мужчин в выборку, а приходили и женщины" – Сергей Apr 13 '22 at 12:26