почему (технически) возрастает глубина матриц/тензоров в сверточных нейронных сетях?
Число фильтров в Conv2D слое задаёт число слоёв в выходном тензоре данного слоя. Например если использовать 64 фильтра, то на выходе получим матрицу глубиной в 64 слоя. Логически, число фильтров задаёт число признаков, которые сеть должна научиться распознавать.
зачем (с какой целью) увеличивать число фильтров в более глубоких слоях в сверточных сетях?
На начальных слоях СНС (Сверточная Нейронная Сеть) учится распознавать простые признаки, например: горизонтальные, вертикальные, дианональные линиии; дуги и т.д.
На более глубоких слоях СНС учиться комбинировать признаки, выявленные на более ранних слоях для распознавания чуть более сложных признаков, например простых геометрических фигур, созданных из линий/дуг (признаков), полученных на предыдущих слоях. Чем глубже слой, тем более абстрактные/обобщенные признаки он пытается выявить. Чем абстрактнее признак тем сложнее его описать опираясь на комбинацию более простых признаков, поэтому число таких признаков растет от начальных к более глубоким слоям СНС.
Математическая аналогия - для того, чтобы описать прямую в двухмерном пространстве достаточно двух чисел, задающих угол наклона и смещение, для описания более сложных фигур понадобится больше чисел (коэффициентов, переменных) и чем сложнее объект, тем больше информации нам надо, чтобы точно и однозначно его описать.