Основы глубокого обучения [заметки]
1
Kuhn D. et al. Handbook of Child Psychology. Vol. 2. Cognition, Perception, and Language. Wiley, 1998.
2
LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-Based Learning Applied to Document Recognition // Proceedings of the IEEE. 1998. November. Vol. 86 (11). Pp. 2278–2324.
3
Rosenblatt F. The perceptron: A probabilistic model for information storage and organization in the brain // Psychological Review. 1958. Vol. 65. No. 6. P. 386.
4
Bubeck S. Convex optimization: Algorithms and complexity // Foundations and Trends® in Machine Learning. 2015. Vol. 8. No. 3–4. Pp. 231–357.
5
Restak R. M., Grubin D. The Secret Life of the Brain. Joseph Henry Press, 2001.
6
McCulloch W. S., Pitts W. A logical calculus of the ideas immanent in nervous activity // The Bulletin of Mathematical Biophysics. 1943. Vol. 5. No. 4. Pp. 115–133.
7
Mountcastle V. B. Modality and topographic properties of single neurons of cat’s somatic sensory cortex // Journal of Neurophysiology. 1957. Vol. 20. No. 4. Pp. 408–434.
8
Nair V., Hinton G. E. Rectified Linear Units Improve Restricted Boltzmann Machines // Proceedings of the 27th International Conference on Machine Learning (ICML-10), 2010.
9
Мы можем рассчитать значения неизвестных весов, решив систему линейных уравнений, и получим точное решение. Но такой подход возможен только для линейного нейрона. Для нелинейных составить систему уравнений и получить точное решение невозможно, поэтому необходимо обучение. Прим. науч. ред.
10
Rosenbloom P. The method of steepest descent // Proceedings of Symposia in Applied Mathematics. 1956. Vol. 6.
11
Rumelhart D. E., Hinton G. E., Williams R. J. Learning representations by backpropagating errors // Cognitive Modeling. 1988. Vol. 5. No. 3. P. 1.
13
Nelder J. A., Mead R. A simplex method for function minimization // The Computer Journal. 1965. Vol. 7. No. 4. Pp. 308–313.
14
Tikhonov A. N., Glasko V. B. Use of the regularization method in nonlinear problems // USSR Computational Mathematics and Mathematical Physics. 1965. Vol. 5. No. 3. Pp. 93–107.
15
Srebro N., Rennie J. D. M., Jaakkola T. S. Maximum-Margin Matrix Factorization // NIPS. 2004. Vol. 17.
16
Srivastava N. et al. Dropout: A Simple Way to Prevent Neural Networks from Overfitting // Journal of Machine Learning Research. 2014. Vol. 15. No. 1. Pp. 1929–1958.
18
http://deeplearning.net/software/theano/ (http://bit.ly/2jtjGea); http://torch.ch/; http://caffe.berkeleyvision.org/; https://www.nervanasys.com/technology/neon/ (http://bit.ly/2r9XugB); https://keras.io/.
19
В сентябре 2017 года объявлено, что разработка Theano будет прекращена после выпуска версии 1.0 (см. https://groups.google.com/forum/#!msg/theano-users/7Poq8BZutbY/rNCIfvAEAwAJ). Для Torch создали реализацию на Python, названную PyTorch. Эта новая библиотека стремительно набирает популярность. Прим. науч. ред.
26
Abadi M. et al. TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems // arXiv preprint arXiv: 1603.04467 (2016).
33
Cox D. R. The Regression Analysis of Binary Sequences // Journal of the Royal Statistical Society. Series B (Methodological). 1958. Pp. 215–242.
34
Для каждого экземпляра данных в мини-пакете нейронная сеть выдает вероятность принадлежности данных к каждому классу (то есть вероятность того, что на исходном изображении 0, 1, 2 и так далее до 9). Прим. науч. ред.
38
Аккуратность — одна из мер оценки качества работы нейронной сети (и других алгоритмов машинного обучения), показывающая, какая доля экземпляров данных была правильно классифицирована. Прим. науч. ред.
40
He K. et al. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification // Proceedings of the IEEE International Conference on Computer Vision. 2015.
41
Bengio Y. et al. Greedy Layer-Wise Training of Deep Networks // Advances in Neural Information Processing Systems. 2007. Vol. 19. P. 153.
42
Goodfellow I. J., Vinyals O., Saxe A. M. Qualitatively characterizing neural network optimization problems // arXiv preprint arXiv: 1412.6544 (2014).
43
Dauphin Y. N. et al. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization // Advances in Neural Information Processing Systems. 2014.
44
Более строго, мы движемся в направлении, противоположном градиенту, так как градиент указывает направления наиболее быстрого возрастания функции, а нам нужно направление убывания. Прим. науч. ред.
45
Sutskever I. et al. On the importance of initialization and momentum in deep learning // ICML (3). 2013. Vol. 28. Pp. 1139–1147.
46
Сейчас импульсный метод Нестерова уже реализован в TensorFlow: https://www.tensorflow.org/api_docs/python/tf/train/MomentumOptimizer. Прим. науч. ред.
47
Møller M. F. A Scaled Conjugate Gradient Algorithm for Fast Supervised Learning // Neural Networks. 1993. Vol. 6. No. 4. Pp. 525–533.
48
Broyden C. G. A new method of solving nonlinear simultaneous equations // The Computer Journal. 1969. Vol. 12. No. 1. Pp. 94–99.
49
Bonnans J.-F. et al. Numerical Optimization: Theoretical and Practical Aspects. Springer Science & Business Media, 2006.
50
Duchi J., Hazan E., Singer Y. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization // Journal of Machine Learning Research. 2011. Vol. 12 (Jul.). Pp. 2121–2159.
51
Tieleman T., Hinton G. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude // COURSERA: Neural Networks for Machine Learning. 2012. Vol. 4. No. 2.
52
Kingma D., Ba J. Adam: A Method for Stochastic Optimization // arXiv preprint arXiv: 1412.6980 (2014).
53
Воксель (voxel) — элемент трехмерного изображения. Название образовано по аналогии с «пиксел» (picture element, элемент изображения), от англ. volume element — объемный элемент. Прим. науч. ред.
54
Hubel D. H., Wiesel T. N. Receptive fields and functional architecture of monkey striate cortex // The Journal of Physiology. 1968. Vol. 195. No. 1. Pp. 215–243.
55
Cohen A. I. Rods and Cones // Physiology of Photoreceptor Organs. Springer Berlin Heidelberg, 1972. Pp. 63–110.
56
Viola P., Jones M. Rapid Object Detection using a Boosted Cascade of Simple Features // Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on. Vol. 1. IEEE, 2001.
57
Deng J. et al. ImageNet: A Large-Scale Hierarchical Image Database // Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference. IEEE, 2009.
58
Perronnin F., Sénchez J., Xerox Y. L. Large-scale image categorization with explicit data embedding // Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference. IEEE, 2010.
59
Krizhevsky A., Sutskever I., Hinton G. E. ImageNet Classification with Deep Convolutional Neural Networks // Advances in Neural Information Processing Systems. 2012.
60
LeCun Y. et al. Handwritten Digit Recognition with a Back-Propagation Network // Advances in Neural Information Processing Systems. 1990.
61
Hubel D. H., Wiesel T. N. Receptive fields of single neurones in the cat’s striate cortex // The Journal of Physiology. 1959. Vol. 148. No. 3. Pp. 574–591.
64
Graham B. Fractional Max-Pooling // arXiv Preprint arXiv: 1412.6071 (2014).
65
Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition // arXiv Preprint arXiv: 1409.1556 (2014).
66
Ioffe S., Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift // arXiv Preprint arXiv: 1502.03167. 2015.
67
Krizhevsky A., Hinton G. Learning Multiple Layers of Features from Tiny Images. 2009.
68
Maaten L. van der, Hinton G. Visualizing Data using t-SNE // Journal of Machine Learning Research. 2008. Vol. 9 (Nov.). Pp. 2579–2605.
70
Gatys L. A., Ecker A. S., Bethge M. A Neural Algorithm of Artistic Style // arXiv Preprint arXiv: 1508.06576 (2015).
71
Karpathy A. et al. Large-scale Video Classification with Convolutional Neural Networks // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014.
72
Abdel-Hamid O. et al. Applying Convolutional Neural Networks concepts to hybrid NN-HMM model for speech recognition // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Kyoto, 2012. Pp. 4277–4280.
73
Hinton G. E., Salakhutdinov R. R. Reducing the Dimensionality of Data with Neural Networks // Science. 2006. Vol. 313. No. 5786. Pp. 504–507.
74
Vincent P. et al. Extracting and Composing Robust Features with Denoising Autoencoders // Proceedings of the 25th International Conference on Machine Learning. ACM, 2008.
75
Bengio Y. et al. Generalized Denoising Auto-Encoders as Generative Models // Advances in Neural Information Processing Systems. 2013.
76
Ranzato M. et al. Efficient Learning of Sparse Representations with an Energy-Based Model // Proceedings of the 19th International Conference on Neural Information Processing Systems. MIT Press, 2006; Ranzato M., Szummer M. Semi-supervised Learning of Compact Document Representations with Deep Networks // Proceedings of the 25th International Conference on Machine Learning. ACM, 2008.
77
Makhzani A., Frey B. k-Sparse Autoencoders // arXiv preprint arXiv: 1312.5663 (2013).
78
Mikolov T. et al. Distributed Representations of Words and Phrases and their Compositionality // Advances in Neural Information Processing Systems. 2013.
79
Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // ICLR Workshop, 2013.
84
Nivre J. Incrementality in Deterministic Dependency Parsing // Proceedings of the Workshop on Incremental Parsing: Bringing Engineering and Cognition Together. Association for Computational Linguistics, 2004.
85
Chen D., Manning C. D. A Fast and Accurate Dependency Parser Using Neural Networks // EMNLP. 2014.
87
Andor D. et al. Globally Normalized Transition-Based Neural Networks // arXiv preprint arXiv: 1603.06042 (2016).
88
Andor D. et al. Globally Normalized Transition-Based Neural Networks // arXiv preprint arXiv: 1603.06042 (2016).
89
Kilian J., Siegelmann H. T. The dynamic universality of sigmoidal neural networks // Information and computation. 1996. Vol. 128. No. 1. Pp. 48–56.
90
Если длина рецензии меньше 500 слов, то она дополняется символами-заполнителями, как делалось для сетей с прямым распространением сигнала. Прим. науч. ред.
91
Kiros R. et al. Skip-Thought Vectors // Advances in neural information processing systems. 2015.
92
она взяла меня за руку
"давай…"
она потрясла спиной в воздухе
"я думаю, мы у тебя… я не могу тебя заставить…"
он снова закрылся
"нет, она будет…"
кириан покачал головой
93
Bahdanau D., Cho K., Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate // arXiv preprint arXiv:1409.0473 (2014).
94
Этот код можно найти здесь: https://github.com/tensorflow/tensorflow/tree/r0.7/tensorflow/models/rnn/translate.
95
Одна из популярных мер оценки качества языковой модели. Перплексия языковой модели на наборе данных — обратная вероятность этого набора, нормализованная по числу слов. Ее можно понимать как коэффициент «ветвления»: сколько в среднем разных токенов может быть после каждого токена в последовательности. Прим. науч. ред.
97
Машина Тьюринга — абстрактная вычислительная машина, предложенная Аланом Тьюрингом в 1936 году. Включает неограниченную в обе стороны ленту, разделенную на ячейки, и управляющее устройство с головками чтения и записи данных на нее. Устройство может находиться в одном из множества состояний, заданных заранее. Прим. науч. ред.
98
Graves A., Wayne G., Denihelka I. Neural Turing Machines // Cornell University, 2014 // https://arxiv.org/abs/1410.5401.
99
Graves A., Wayne G., Denihelka I. Neural Turing Machines // Cornell University, 2014 // https://arxiv.org/abs/1410.5401.
100
Graves A., Wayne G., Reynolds M. et al. Hybrid computing using a neural network with dynamic external memory // Nature, 2016 // http://go.nature.com/2peM8m2.
103
Mnih V. et al. Human-level control through deep reinforcement learning // Nature. 2015. Vol. 518. No. 7540. Pp. 529–533.
104
Brockman G. et al. OpenAI Gym // arXiv preprint arXiv:1606.01540 (2016) // https://gym.openai.com//
105
Sutton R. S. et al. Policy Gradient Methods for Reinforcement Learning with Function Approximation // NIPS. 1999. Vol. 99.
106
Sorokin I. et al. Deep Attention Recurrent Q-Network // arXiv preprint arXiv:1512.01693 (2015).
109
Mnih V. et al. Asynchronous methods for deep reinforcement learning // International Conference on Machine Learning. 2016.
110
Konda V. R., Tsitsiklis J. N. Actor-Critic Algorithms // NIPS. 1999. Vol. 13.
111
Jaderberg M. et al. Reinforcement Learning with Unsupervised Auxiliary Tasks // arXiv preprint arXiv: 1611.05397 (2016).
“Была Прибалтика – стала Прое#алтика”, – такой крепкой поговоркой спустя четверть века после распада СССР описывают положение дел в своих странах жители независимых Литвы, Латвии и Эстонии. Регион, который считался самым продвинутым и успешным в Советском Союзе, теперь превратился в двойную периферию. России до Прибалтики больше нет дела – это не мост, который мог бы соединить пространство между Владивостоком и Лиссабоном, а геополитический буфер. В свою очередь и в «большой» Европе от «бедных родственников» не в восторге – к прибалтийским странам относятся как к глухой малонаселенной окраине на восточной границе Евросоюза с сильно запущенными внутренними проблемами и фобиями.
В книге дается представление авторов об экономике Северного Кавказа, существенно отличающееся от общепризнанного. Под вопрос ставятся многие сложившиеся мифы и стереотипы – тотальная депрессивность; масштабы безработицы и бедности; наличие барьеров, полностью исключающих модернизацию; дефицит финансовых средств как основная причина недостаточного экономического развития. Формулируются базовые принципы регионального развития, альтернативные традиционно принятым в северокавказской политике, предлагаются меры по их реализации.
На день сегодняшний перед вами самая необычная и еретическая книга по экономике в России и в мире. Два дерзких профессора из Стокгольма создали в 1999 г. книгу-предтечу «Бизнес в стиле фанк», но не посмели выйти «за околицу», к океану новых знаний. А мы рискнули! Беремся это доказать, ибо предлагаем за 15–20 лет уйти от денежного обращения и золотого стандарта. В работе – варианты конкретных проектов и концепций. Дана корректная оценка земле Русской и «брошен якорь в будущее». Дана концепция матрицы нового социального уклада.
Вопреки дифирамбам французских энциклопедистов, а также мнению многих деятелей науки и культуры, живших в разные времена и считающих человека венцом творения, homo sapiens сам по себе не является идеальным и, к сожалению, все больше отдаляется от библейских стандартов. В наше время охваченные страстью потребительства люди далеко не всегда сознают, что творят. Ведь и современный кризис, как известно, стал следствием циничного прагматизма, а точнее, превысившей все пределы элементарной человеческой жадности руководителей банковских корпораций, которые в погоне за прибылью безответственно предоставили кредиты неспособным к их оплате потребителям.
Данную книгу можно назвать практической энциклопедией. В ней дан максимальный охват проблематики обеспечения информационной безопасности, начиная с современных подходов, обзора нормативного обеспечения в мире и в России и заканчивая рассмотрением конкретных направлений обеспечения информационной безопасности (обеспечение ИБ периметра, противодействие атакам, мониторинг ИБ, виртуальные частные сети и многие другие), конкретных аппаратно-программных решений в данной области. Книга будет полезна бизнес-руководителям компаний и тем, в чью компетенцию входит решение технических вопросов обеспечения информационной безопасности.Все права защищены.
В этой книге авторы пытаются показать, как возник и развивается кризис и как реагируют на него государство, предприниматели и простые люди. Кому-то это поможет разобраться в происходящем, кому-то – понять, почему привычный мир оказался таким неустойчивым.Ожидание ужаса сильнее самого ужаса. И есть основания полагать, что если нефтяные цены и уровень зарплаты к осени не восстановятся (похоже, что так), к сентябрю-октябрю 2009 года новые правила не только оформятся, но станут понятны всем. А это означает, что в нашей жизни вновь появится определенность и предсказуемость, и мы – в очередной раз – прорвемся.Эта книга – хроника развертывания кризиса в российской экономике с сентября по ноябрь 2008 года, написанная на основе публикаций в газете «Коммерсантъ» и журналах «Деньги», «Власть» и «Секрет фирмы».
Скотт Янг, изучив результаты последних исследований и опыт выдающихся личностей, нашел те методы обучения, которые дают максимальный эффект: позволяют лучше понять и запомнить информацию, а также раскрыть новые таланты. Он сформулировал девять принципов быстрого самообразования, позволяющие осваивать сложные навыки, получать необходимые знания, максимизировать конкурентные преимущества и выстраивать карьеру. Эти принципы пригодятся всем, кто хочет научиться чему-либо самостоятельно: овладеть языком (или несколькими языками), получить новую профессию или освоить несколько инструментов для создания продукта или бизнеса с нуля. На русском языке публикуется впервые.
Иван Чаплыгин рассказывает о сложных отношениях внутри пары автор – переводчик. Он позволит заглянуть на переводческую кухню и буквально на пальцах покажет, чем хороший перевод отличается от посредственного и откровенно плохого. Иван расскажет о чувстве слова, неоправданной русификации и переводческих головоломках. О заслуженной критике и необоснованных придирках. А еще о конкуренции среди переводчиков, о поиске заказчиков и об удовольствии от работы. Эта книга поможет вам понять, как находить суть в мутной воде авторского высказывания и как передавать смысл, не искажая оригинал и не привнося в него собственное звучание.
Книга о корпоративной культуре Netflix, которая построена вокруг свободы и ответственности. Именно культура позволила компании вырасти из небольшой фирмы по прокату DVD в гиганта развлекательной индустрии.
Рэй Далио, успешный инвестор и один из самых влиятельных людей планеты, основатель компании Bridgewater, исследует империи прошлого, выявляет закономерности взлетов и падений ведущих мировых экономик и делает выводы относительно настоящего и будущего в сфере макроэкономики и геополитики.