hardcode-dev · dischglv · Jun 3, 2024 · Jun 5, 2024 · Jun 6, 2024 · Jun 9, 2024
diff --git a/.DS_Store b/.DS_Store
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1,7 @@
+data*
+!data.txt
+result.json
+.*/
+stackprof_reports/
+ruby_prof_reports/
+docker-valgrind/
diff --git a/case-study-template.md b/case-study-template.md
diff --git a/case-study.md b/case-study.md
@@ -0,0 +1,70 @@
+# Case-study оптимизации
+
+## Актуальная проблема
+В нашем проекте возникла серьёзная проблема.
+
+Необходимо было обработать файл с данными, чуть больше ста мегабайт.
+
+У нас уже была программа на `ruby`, которая умела делать нужную обработку.
+
+Она успешно работала на файлах размером пару мегабайт, но для большого файла она работала слишком долго, и не было понятно, закончит ли она вообще работу за какое-то разумное время.
+
+Я решила исправить эту проблему, оптимизировав эту программу.
+
+## Формирование метрики
+Для того, чтобы понимать, дают ли мои изменения положительный эффект на быстродействие программы я придумала использовать такую метрику: количество потребляемой программой памяти, бюджет на метрику - 70Мб.
+
+## Гарантия корректности работы оптимизированной программы
+Программа поставлялась с тестом. Выполнение этого теста в фидбек-лупе позволяет не допустить изменения логики программы при оптимизации.
+
+## Feedback-Loop
+Для того, чтобы иметь возможность быстро проверять гипотезы я выстроила эффективный `feedback-loop`, который позволил мне получать обратную связь по эффективности сделанных изменений менее чем за минуту.
+
+Вот как я построил `feedback_loop`:
+- Запускаю профилировщик при выполнении программы
+- Анализирую и выделяю главную точку роста
+- Вношу изменения в программу
+- Прогоняю тест, чтобы убедиться, что все по прежнему работает как задумано
+- Вычисляю новое значение метрики, смотрю, изменилось ли количество потребляемой памяти в меньшую сторону
+- Если да, запускаю еще раз профилировщик, проверяю, что главная точка роста изменилась
+- Сохраняю изменения и делаю коммит
+
+## Вникаем в детали системы, чтобы найти главные точки роста
+Для того, чтобы найти "точки роста" для оптимизации я воспользовалась профилировщиками `ruby-prof`, `stackprof`, гемом `memory-profiler`, инструментом `valgrind massif visualizer`.
+
+Так как программа изначально считывала в память и записывала в переменные большой объем данных, первым шагом я переписала ее в потоковом стиле. Я начала считывать входной файл по строкам, а писать JSON при помощи гема `Oj`. Для подсчета уникальных юзеров и сессий я ввела две отдельные переменные, которые инкрементировала по ходу обработки входного файла, а для вывода уникальных браузеров добавила структуру `Set`. Сессии обрабатываемого в данный момент юзера я добавляла в переменную `current_sessions`, которую передавала далее в метод `write_stats_for` для вычисления и тут же записи статистики по юзеру. После того, как я переписала программу в потоковом стиле, я начала искать точки роста при помощи профилировщиков.
+
+Вот какие проблемы удалось найти и решить
+
+### Date.parse()
+- `memory-profiler` показывает строку
+  ```ruby
+  writer.push_value(sessions.map{|s| s['date']}.map {|d| Date.parse(d)}.sort.reverse.map { |d| d.iso8601 })
+  ```
+- Выделила `sessions.map{|s| s['date']}` в отдельную переменную, к которой применяла bang-методы, переписала парсинг даты:
+  ```ruby
+  dates = sessions.map{|s| s['date']}
+  writer.push_key('dates')
+  writer.push_value(dates
+                    .sort!
+                    .reverse!
+                    .map! do |d|
+                      ary = d.split('-')
+                      Date.new(ary[0].to_i, ary[1].to_i, ary[2].to_i).iso8601
+                    end)
+  ```
+- Потребление памяти снизилось с 22Мб до 20Мб
+- `memory-profiler` перестал показывать эту строку, как аллоцирующую максимальный объем памяти
+
+### Array.map()
+- Отчеты `ruby-prof` в режимах `callgrind` и `graph`
+- Вызовы метода `map` внутри `write_stats_for` занимали много памяти. Вынесла общие вызовы для `sessions.map` в переменные, использовала bang-методы
+- Метрика снизилась до 20Мб
+- В `callgrind` отчете строчка с `map` методом занимала примерно 8% памяти, стала занимать 2%
+
+## Результаты
+В результате проделанной оптимизации наконец удалось обработать файл с данными.
+Удалось улучшить метрику системы с и уложиться в заданный бюджет.
+
+## Защита от регрессии производительности
+Для защиты от потери достигнутого прогресса при дальнейших изменениях программы я добавила `RSpec` тест, проверяющий количество аллоцированных байт по разным типам данных при работе программы на тестовом файле (тест `spec/task-2_spec.rb`)
diff --git a/data_large.txt.gz b/data_large.txt.gz
diff --git a/memory-profiler-work.rb b/memory-profiler-work.rb
@@ -0,0 +1,7 @@
+require_relative 'task-2.rb'
+require 'memory_profiler'
+
+report = MemoryProfiler.report do
+  work('data.txt', disable_gc: false)
+end
+report.pretty_print(scale_bytes: true)
diff --git a/ruby-prof-allocations-work.rb b/ruby-prof-allocations-work.rb
@@ -0,0 +1,24 @@
+require 'ruby-prof'
+require_relative 'task-2.rb'
+
+RubyProf.measure_mode = RubyProf::ALLOCATIONS
+
+profile = RubyProf::Profile.new
+result = profile.profile do
+  work('data_small.txt', disable_gc: true)
+end
+
+printer = RubyProf::FlatPrinter.new(result)
+printer.print(File.open('ruby_prof_reports/flat.txt', 'w+'))
+
+printer = RubyProf::DotPrinter.new(result)
+printer.print(File.open('ruby_prof_reports/graphviz.dot', 'w+'))
+
+printer = RubyProf::GraphHtmlPrinter.new(result)
+printer.print(File.open('ruby_prof_reports/graph.html', 'w+'))
+
+printer = RubyProf::CallStackPrinter.new(result)
+printer.print(File.open('ruby_prof_reports/callstack.html', 'w+'))
+
+printer = RubyProf::CallTreePrinter.new(result)
+printer.print(path: 'ruby_prof_reports', profile: 'profile')
diff --git a/ruby-prof-memory-work.rb b/ruby-prof-memory-work.rb
@@ -0,0 +1,24 @@
+require 'ruby-prof'
+require_relative 'task-2.rb'
+
+RubyProf.measure_mode = RubyProf::MEMORY
+
+profile = RubyProf::Profile.new
+result = profile.profile do
+  work('data_small.txt', disable_gc: true)
+end
+
+printer = RubyProf::FlatPrinter.new(result)
+printer.print(File.open('ruby_prof_reports/flat_memory.txt', 'w+'))
+
+printer = RubyProf::DotPrinter.new(result)
+printer.print(File.open('ruby_prof_reports/graphviz_memory.dot', 'w+'))
+
+printer = RubyProf::GraphHtmlPrinter.new(result)
+printer.print(File.open('ruby_prof_reports/graph_memory.html', 'w+'))
+
+printer = RubyProf::CallStackPrinter.new(result)
+printer.print(File.open('ruby_prof_reports/callstack_memory.html', 'w+'))
+
+printer = RubyProf::CallTreePrinter.new(result)
+printer.print(path: 'ruby_prof_reports', profile: 'profile')
diff --git a/spec/task-2_spec.rb b/spec/task-2_spec.rb
@@ -0,0 +1,40 @@
+require 'rspec-benchmark'
+require_relative '../task-2'
+
+RSpec.configure do |config|
+  config.include RSpec::Benchmark::Matchers
+end
+
+describe 'Perfomance' do
+  before do
+    File.write('result.json', '')
+    File.write('data.txt',
+'user,0,Leida,Cira,0
+session,0,0,Safari 29,87,2016-10-23
+session,0,1,Firefox 12,118,2017-02-27
+session,0,2,Internet Explorer 28,31,2017-03-28
+session,0,3,Internet Explorer 28,109,2016-09-15
+session,0,4,Safari 39,104,2017-09-27
+session,0,5,Internet Explorer 35,6,2016-09-01
+user,1,Palmer,Katrina,65
+session,1,0,Safari 17,12,2016-10-21
+session,1,1,Firefox 32,3,2016-12-20
+session,1,2,Chrome 6,59,2016-11-11
+session,1,3,Internet Explorer 10,28,2017-04-29
+session,1,4,Chrome 13,116,2016-12-28
+user,2,Gregory,Santos,86
+session,2,0,Chrome 35,6,2018-09-21
+session,2,1,Safari 49,85,2017-05-22
+session,2,2,Firefox 47,17,2018-02-02
+session,2,3,Chrome 20,84,2016-11-25
+')
+  end
+
+  describe 'task 2' do
+    it 'permorms allocations' do
+      expect {
+        work('data.txt')
+      }.to perform_allocation({String => 20000, Array => 8000, Date => 1400, Hash => 6000}).bytes
+    end
+  end
+end
diff --git a/stackprof-work.rb b/stackprof-work.rb
@@ -0,0 +1,6 @@
+require 'stackprof'
+require_relative 'task-2'
+
+StackProf.run(mode: :object, out: 'stackprof_reports/stackprof.dump', raw: true) do
+  work('data_small.txt', disable_gc: false)
+end