Это короткий фрагмент для ознакомления с книгой.
Бизнес-аналитика. Извлечение, преобразование и загрузка данных
Учебное пособие
Валентин Юльевич Арьков
© Валентин Юльевич Арьков, 2020
ISBN 978-5-4498-4086-8 Создано в интеллектуальной издательской системе Ridero
Введение
Системы бизнес-аналитики работают с различными источниками данных с помощью функций ETL (Extract-Transform-Load). Название ETL можно перевести как «извлечение, преобразование и загрузка данных». Имеется в виду загрузка в хранилище данных для дальнейшей обработки в системе бизнес-аналитики [1—5]. В простейшем случае это загрузка данных в виде одной, объединённой таблицы Excel. Задание. Прочитайте в Википедии статью «ETL» и выясните, какие действия над данными производят на каждом из трёх этапов.Отчёт оформляем в виде рабочей книги Excel — как и в предыдущих работах. Процедура оформления отчёта подробно описана в работе [6]. Не забывайте записывать в отчёт ответы на задания типа «выясните…». Когда вы что-то узнали, зафиксируйте это в своём произведении. Упражнения на изучение — это часть данной лабораторной работы. При использовании данных из внешних источников нужно указывать, откуда были получены данные, каким образом и когда. Задание. Создайте файл отчёта. Оформите титульный лист и оглавление. Сохраните файл под коротким информативным названием.
В качестве исходных данных мы будем использовать сведения об акциях. Это так называемые ЦЕННЫЕ БУМАГИ. Акцию конкретной компании иногда называют просто «бумага». Акции приобретают с разными целями. Торговля акциями, в основном, происходит на бирже. Задание. Прочитайте в Википедии статью «Акция (финансы)» и выясните, какие права она даёт владельцу, а также какие два вида акций существуют.
В оформлении обложки использованы изображения, разработанные компанией OnlineWebFonts.
1. Инструменты ETL в Microsoft Excel
В пакете Microsoft Excel версий 2010 и 2013 функции ETL реализованы с помощью надстройки Power Query. Power Query позволяет решать следующие задачи: — извлечение — импорт данных из различных источников; — преобразование — приведение данных к единому формату; — загрузка — консолидация / объединение данных из нескольких источников в виде одной таблицы Excel. Название Power Query можно расшифровать как «Средство из комплекта PowerBI для выполнения запросов к источникам данных». В свою очередь, PowerBI — это программный комплекс (или платформа) бизнес-аналитики (BI — Business Intelligence), включающий целый ряд отдельных компонентов. Задание. Прочитайте в Википедии статью «Power BI» и выясните, какие компоненты входят в настольную (локальную) версию Power BI Desktop и какова стоимость этой версии.Платформа Power BI доступна в разных вариантах. Есть версии программы, которые можно скачать и установить бесплатно. Естественно, с рядом ограничений. Но это уже позволяет познакомиться с ключевыми возможностями продукта. Задание. Перейдите на следующий сайт: https://powerbi.microsoft.com. Выясните, какие версии PowerBI доступны для скачивания.
Для установки Power Query потребуется сказать эту надстройку. Заходим на страницу Центра загрузки Microsoft: https://download.microsoft.com Вызываем поиск: Power Query Excel. Получаем ссылки для скачивания (рис. 1.1).
Рис. 1.1. Power Query в Центре загрузки
Задание. Найдите страницу Power Query в Центре загрузки и выясните год выпуска этой надстройки и поддерживаемые версии Excel.
Кроме ссылок для скачивания файлов, здесь имеются пояснения по поводу инструментов загрузки данных. Переходим по следующей ссылке: Get & Transform Data. Выясняем, как всё это связано с надстройкой Power Query и пакетом PowerBI (рис. 1.2).
Рис. 1.2. Инструменты загрузки данных
Задание. Выясните, как связан инструментарий Get & Transform с Power BI и Power Query.
В пакете Excel версий 2016, 2019 и 365 функции ETL доступны в группе инструментов Get & Transform (рис. 1.3).
Рис. 1.3. Группа инструментов ETL
Задание. Найдите группу Get & Transform в разделе Data и изучите названия основных кнопок на ленте, а также всплывающую подсказку для кнопки Get Data.
В группе Get & Transform скрывается кнопка запуска редактора запросов Power Query Editor: Data — Get & Transform — Get Data — Launch Power Query Editor. Всплывающая подсказка поясняет, что Power Query позволяет нам создавать новые запросы и редактировать существующие (рис. 1.4). Значит, Power Query по-прежнему жив и здоров.
Рис. 1.4. Запуск редактора запросов
Задание. Прочитайте статью Get & Transform and Power Pivot in Excel (Получение и преобразование и Power Pivot в Excel) в Центре справки и поддержки Microsoft Office: https://support.office.com Обратите внимание на следующие разделы: — What is Get & Transform? — What is Power Pivot? — What is Power BI? Кратко запишите в отчёт, что удалось выяснить про три варианта инструмента ETL.
2. Загрузка таблицы из Википедии
Один из стандартных источников данных —это интернет. Из интернет-страницы можно извлечь и загрузить выбранную таблицу. Перейдём на сайт Википедии в браузере и найдём статью «Power BI» (рис. 2.1). В тексте статьи есть таблица с описанием лицензий. Попробуем загрузить эту таблицу в Excel. Скопируем адрес выбранной страницы в буфер обмена.Рис. 2.1. Страница сайта в интернете
Задание. Найдите таблицу по лицензиям в статье «Power BI».
Возвращаемся в Excel. Выбираем в верхнем меню загрузку данных из интернета (рис. 2.2): Data — Get & Transform Data — From Web.
Рис.2.2. Получение данных из интернета
В диалоговом окне From Web вставляем адрес интернет-страницы из буфера обмена (рис. 2.3). По умолчанию выбран вариант загрузки Basic. Нажимаем кнопку OK.
Рис. 2.3. Ввод адреса страницы
Задание. Вызовите загрузку данных со страницы статьи «Power BI» в Википедии.
В диалоговом окне Navigator можно увидеть список из нескольких таблиц, которые были найдены на указанной странице сайта. Выбираем таблицу по лицензированию. Рассматриваем нашу таблицу в окне предварительного просмотра Table View. Убеждаемся, что выбрали нужную таблицу (рис. 2.4). Нажимаем кнопку Load.
Рис. 2.4. Выбор таблицы для загрузки
Задание. Выберите для загрузки таблицу по лицензиям.
Таблица загружается в Excel (рис. 2.5). Сравниваем с источником (рис. 2.1). Заголовки столбцов и содержимое ячеек распознаны и загружены без ошибок. Таблица оформлена как таблица Excel. Переходим в группу Table Tools в верхнем меню ленты. Выбираем раздел Design. Проверяем название таблицы: Table Name — Лицензирование… Значит мы загрузили не только саму таблицу, но и её заголовок (название).
Рис. 2.5. Загруженная таблица
Задание. Загрузите в Excel таблицу «Лицензирование» из статьи «Power BI» на сайте Википедии и ознакомьтесь с результатами.
Рассмотрим поподробнее название таблицы и сравним его с заголовком раздела в источнике данных (рис. 2.1). На исходной странице были ссылки на инструменты для редактирования статьи. Напомним, что Википедию создают сами пользователи. Поэтому каждый может предложить свои исправления и дополнения. В результате название таблицы содержит все эти лишние для нас слова. Кроме сведений о таблице можно увидеть запрос на загрузку данных: Queries & Connections — Лицензирование… Пока в этом разделе у нас есть один запрос (рис. 2.6). Название запроса тоже соответствует заголовку раздела в источнике данных (рис. 2.1).
Рис. 2.6. Запрос для загрузки
Задание. Сравните название запроса и заголовок раздела статьи.
Исправим название таблицы. Вызываем инструмент Диспетчер имён: Formulas — Defined Names — Name Manager (рис. 2.7).
Рис. 2.7. Запуск Диспетчера имён объектов
Задание. Запустите Диспетчер имён.
Появляется диалоговое окно Диспетчера имён: Name Manager (рис. 2.8). Рассмотрим сведения о нашем объекте. В графе Name (Название) указано: Лицензирование_править___править_код. ...
Все права на текст принадлежат автору: Валентин Юльевич Арьков.
Это короткий фрагмент для ознакомления с книгой.