eco网络架构是:
采用与TSN(Temporal Segment Networks: Towards Good Practices for Deep Action Recognition)相似的采样策略。将整个视频均分成N段,在每段内随机抽取一帧,保证了采样的随机性和网络的鲁棒性。
采用3D卷积网络作为共识函数。TSN网络中仅仅简单的将每一帧输出的特征通过均值的方式叠加,这样的共识函数过于简单,不能很好的各帧在时间域上的相关性。