Название: Расширенная аналитика с PySpark: Практические примеры анализа больших наборов данных с использованием Python и Spark Автор: Акаш Тандон, Сэнди Райза, Ури Ласерсон Издательство: БХВ-Петербург Год: 2023 Страниц: 226 Язык: русский Формат: pdf, djvu Размер: 36.3 MB
Книга посвящена практическим методам анализа больших объемов данных с использованием языка Python и фреймворка Spark, она знакомит с моделью программирования Spark и основами системы с открытым исходным кодом PySpark. Каждая глава описывает отдельный аспект анализа данных, показаны основы обработки данных в PySpark и Python на примере очистки данных, подробно освещается машинное обучение с помощью Spark. Книга поможет читателю понять, как устроен и работает весь конвейер PySpark для комплексной аналитики больших наборов данных: от создания и оценки моделей до очистки, предварительной обработки и исследования данных с особым акцентом на производственные приложения. Отдельные главы посвящены обработке изображений и библиотеке Spark NLP.
Как устроена эта книга: В главе 1 мы рассмотрим Spark и PySpark в более широком контексте науки о данных и анализа больших данных. Далее в каждой главе будет описан отдельный аспект анализа данных с использованием PySpark. Глава 2 познакомит с основами обработки данных в PySpark и Python на примере очистки данных. Следующие несколько глав посвящены машинному обучению с помощью Spark и демонстрируют применение некоторых наиболее распространенных алгоритмов в канонических приложениях. Остальные главы представляют собой скорее набор разрозненных тем и рассказывают о применении Spark для решения несколько более экзотических задач — например, для запросов к Википедии через скрытые семантические связи в тексте, анализа данных геномики и выявления похожих изображений.
Эта книга не рассказывает о достоинствах и недостатках PySpark. Книга знакомит с моделью программирования Spark и основами PySpark — API Python для Spark. Тем не менее она не претендует на то, чтобы служить справочником по Spark или быть исчерпывающим путеводителем по всем закоулкам Spark. Она также не претендует на роль справочника по машинному обучению, статистике или линейной алгебре, хотя во многих главах содержится небольшой вводный материал перед их использованием.
Эта книга поможет читателю понять, как устроен и работает весь конвейер PySpark для комплексной аналитики больших наборов данных, а это не только создание и оценка моделей, но также очистка, предварительная обработка и исследование данных с особым акцентом на производственные приложения. Мы верим, что лучший способ научить этому — личный пример и опыт.
Внимание
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.