Posts Tagged ‘data analysis’

Из вышкинской рассылки:

21.11.2016

Скоро, 4 декабря на факультете компьютерных наук пройдет День информатики для школьников 9-11 классов. Если у Вас есть дети, которые учатся в 9-11 классе и любят математику и программирование, мы приглашаем Вас, Ваших детей и детей Ваших знакомых принять участие в Празднике ФКН.

В программе лекции разработчиков ведущих ИТ-компаний (Яндекс, КРОК, Лаборатория Касперского, Сбербанк, JetBrains и другие), мастер-классы, конкурсы по математике и программированию, подарки за правильные решения задач. На Дне информатики Ваши дети узнают как Яндекс научил компьютеры распознавать машины по фотографии, как создаются новые языки программирования и как Сбербанк по затратам клиента узнает его возраст.

Обязательна регистрация на мероприятие: https://cs.hse.ru/compscienceday/

Питон в анализе данных

05.11.2016

Если Вы еще не можете понять,  зачем нам целых два языка в анализе данных: R и Python, советую почитать об их сравнительных плюсах и минусах.

Для задач анализа данных в Питоне часто используется платформа Анаконда). Она позволяет быстро и без труда установить большую часть необходимых пакетов, в том числе и веб-приложение для разработки Jupyter Notebook, а также приятный пакет для графиков Seaborn. Если же Вас интересует что-то крутое в data analysis, например, участие в соревнованиях Kaggle, то тут пакетами «по умолчанию» не обойтись и придется отдельно загрузить, например, пакет XGBoost.

Для конвертации notebook в tex, markdown, html форматы удобно использовать pandoc, также представленный в Anaconda. Если появляются проблемы с подписями графиков на русском языке как в самой тетрадке, так и в случае конвертации в pdf, не беда!! В тетрадке проблема решается подключением пакета seaborn, а при конвертации лучше сохранять файл в формате .tex и добавлять в преамбулу: \usepackage[russian]{babel}.

Дерзайте анализ данных, ведь он может даже увеличить качество ранее сделанной фотографии!

neural-network-image

 

 

Сборник вебинаров от RStudio

17.10.2016

Ребята из RStudio (их контора так и называется, в честь своего главного детища) сделали множество вебинаров, которые направлены на быстрое обучение тому, как использовать rstudio (не сам R), shiny, markdown, а также много чего другого не менее интересного. Как для новичков, так и для бывалых.
К примеру, следующий вебинар пройдет в среду 26 октября, в 18:00. На нём будут рассказывать, как использовать shiny и markdown в том случае, если ваш R в связке со Spark используется для big data.
Все прошедшие вебинары доступны для просмотра в свободном доступе.

Webinars

Интересный способ изучить анализ данных

16.10.2016

Санкт-Петербургский Академический Университет РАН предлагает онлайн-программу, которая научит разбираться в статистике, анализе данных, программировать в R и Python, машинному обучению и многому другому. При успешном окончании: официальный диплом о переподготовке от СПБАУ РАН. Предлагается пройти все курсы за год, но скорость изучения каждый слушатель выбирает сам. Очень интересная программа, и цена у неё пролетарская!
http://data.stepik.org/

R-новости

09.10.2016

Теперь R-новости будут выходить каждую неделю. Итак..

Если вы ещё не начали изучать R, то вот множество причин, чтобы начать. А если вы ещё и фанат Толкиена, то у вас на одну причину больше – есть пакет с картой Средиземья (с ней можно поиграться). Вот здесь попробовать, а здесь поучиться.

Для начала работы в R можно использовать пакет tidyverse, в нём содержатся основные пакеты для обработки данных: визуализации, импортирования, чистки, работы с панелями и временными рядами и так далее…

Крутой пример, как человек, занимающийся визуализацией данных, из Financial Times начал использовать R для построения графиков.

Интересный пакет, который со снимков спутника определяет наиболее часто встречающийся цвет, ниже представлен пример для корпуса ВШЭ на Шаболовке.

rplot02

Kaggle Datasets

14.09.2016

На сайте Kaggle есть открытые данные, на которых можно попрактиваться 🙂

ЦМФ

01.09.2016

Центр Математических Финансов проводит по субботам вкусные занятия по разным программам: Анализ данных, Инвестиционная аналитика, Количественная аналитика, Количественная финансовая аналитика, Стартап 101, Подготовка к CFA.

Ещё осталась возможность поступить по результатам экзаменов! Подробности про программы и регистрацию на экзамены смотрите в группе ЦМФ вконтакте. Здесь короткая выдержка:

Презентация программ в вышке пройдёт в воскресенье 4 сентября с 12:00 до 14:00 на Факультете экономических наук НИУ ВШЭ в аудитории К9 (Шаболовка, 26).

Регистрация на презентацию: http://goo.gl/AmWdWO
(регистрация на презентацию открыта до 12:00 четверга 01.09.2016).

Экзамены на все программы пройдут по субботам 3, 10 и 17 сентября.
Вопросы к экзаменам: http://www.slideshare.net/CMF_Moscow/cmf-exams

Регистрация на экзамены: https://goo.gl/FOHwhN

Расписания программ (в скобках — указано место проведения):
Анализ данных (Мехмат МГУ): https://vk.com/cmf_msu?z=photo-42556983_428659161/alb..
Инвестиционная аналитика (ФЭН НИУ ВШЭ): https://vk.com/cmf_msu?z=photo-42556983_428668616/alb..
Количественная аналитика (Мехмат МГУ): https://vk.com/cmf_msu?z=photo-42556983_428646860/alb..
Количественная финансовая аналитика (на английском, ФЭН НИУ ВШЭ): https://vk.com/cmf_msu?z=photo-42556983_428654989/alb..
Стартап 101 (Научный парк МГУ): https://vk.com/cmf_msu?z=photo-42556983_428671844/alb..

Презентация ЦМФ: http://www.slideshare.net/CMF_Moscow/cmf-20162017

 

Специализация анализа данных на stepic

04.08.2016

С октября 2016 на stepic появится специализация анализа данных. Немного платно, но интересно 🙂

Презентация проектов. День 1.

02.06.2016

Сегодня, 1 июня, прошёл первый день презентации проектов. По итогам мы составили список тринадцати презентационных грехов. Работы презентуемые во второй и третий день данных ошибок содержать не должны 🙂

  1. Бессмысленное название файла с работой. Например, файл «Нужное2.pdf».
  2. Непронумерованные слайды.
  3. Спецэффекты при переходе между слайдами.
  4. Ось OY начинающаяся не от нуля.
  5. Больше двух-трех значащих цифр. Например, 4 534 782.5 тыс. руб.
  6. Обилие нулей. Например, 400000 млн. руб.
  7. Неподписанные единицы измерения. Например, 60.
  8. Использование круговых диаграмм. Человеческий мозг гораздо быстрее и точнее улавливает разницу между линейными размерами, а не между угловыми. Вместо круговой диаграммы можно использовать, например, обычную гистограмму.
  9. Использование псевдо-3D графиков. Например, тени столбиков гистограммы, трёхмерные столбики.
  10. Ось времени направленная по вертикали.
  11. Отсутствие подписей осей или названия графика.
  12. Излишние выделение цветом столбцов или точек на графике. Плохо: столбики разных лет имеют разный цвет на графике, где по горизонтали отложен год, а по вертикали размер инвестиций. Хорошо: столбики разных источников финансирования имеют разный цвет, по горизонтали отложен год, по вертикали размер инвестиций.
  13. Фразы неподкрепленные графиками или цифрами. Плохо: слайд с надписью «ВРП на душу населения падает». Хорошо: график с ВРП на душу населения и устный комментарий, что показатель падает.

     

    Тройка примеров от DarkHorse: раз, два, три.

Хороших выходных :)

04.03.2016

Новости по метрике, статистике и не только 🙂

  1. На курсере и openedu стартует повтор курса по эконометрике:

На курсере он начнётся 1 апреля и будет длиться 10 недель, на опен-еду начнется 7 марта и будет длиться 15 недель. Лекции одни и те же, а вопросы в тестах и экзаменах разные.

2. На ближайшие выходные все он-лайн курсы по программированию на codeschool бесплатны! Если кто не в курсе, то это они сделали tryR.

3. Вебинары от Rstudio. Скоро, 9 марта, будет вебинар о том, как используя add-ins пользователь может расширить Rstudio.

4. Новый он-лайн курс «Основы программирования в R»  на stepic.

5. Магистратура Института Минина и Пожарского от Лёши Савватеева.

6. Видеоархив Байкальских чтений 🙂

7. Магистратура Института биоинформатики в Питере принимает заявления до 15 марта

Всем добра!