-
Notifications
You must be signed in to change notification settings - Fork 139
Memory optimization #111
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
base: master
Are you sure you want to change the base?
Memory optimization #111
Changes from all commits
File filter
Filter by extension
Conversations
Jump to
Diff view
Diff view
There are no files selected for viewing
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,7 @@ | ||
| data* | ||
| !data.txt | ||
| result.json | ||
| .*/ | ||
| stackprof_reports/ | ||
| ruby_prof_reports/ | ||
| docker-valgrind/ |
This file was deleted.
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,70 @@ | ||
| # Case-study оптимизации | ||
|
|
||
| ## Актуальная проблема | ||
| В нашем проекте возникла серьёзная проблема. | ||
|
|
||
| Необходимо было обработать файл с данными, чуть больше ста мегабайт. | ||
|
|
||
| У нас уже была программа на `ruby`, которая умела делать нужную обработку. | ||
|
|
||
| Она успешно работала на файлах размером пару мегабайт, но для большого файла она работала слишком долго, и не было понятно, закончит ли она вообще работу за какое-то разумное время. | ||
|
|
||
| Я решила исправить эту проблему, оптимизировав эту программу. | ||
|
|
||
| ## Формирование метрики | ||
| Для того, чтобы понимать, дают ли мои изменения положительный эффект на быстродействие программы я придумала использовать такую метрику: количество потребляемой программой памяти, бюджет на метрику - 70Мб. | ||
|
|
||
| ## Гарантия корректности работы оптимизированной программы | ||
| Программа поставлялась с тестом. Выполнение этого теста в фидбек-лупе позволяет не допустить изменения логики программы при оптимизации. | ||
|
|
||
| ## Feedback-Loop | ||
| Для того, чтобы иметь возможность быстро проверять гипотезы я выстроила эффективный `feedback-loop`, который позволил мне получать обратную связь по эффективности сделанных изменений менее чем за минуту. | ||
|
|
||
| Вот как я построил `feedback_loop`: | ||
| - Запускаю профилировщик при выполнении программы | ||
| - Анализирую и выделяю главную точку роста | ||
| - Вношу изменения в программу | ||
| - Прогоняю тест, чтобы убедиться, что все по прежнему работает как задумано | ||
| - Вычисляю новое значение метрики, смотрю, изменилось ли количество потребляемой памяти в меньшую сторону | ||
| - Если да, запускаю еще раз профилировщик, проверяю, что главная точка роста изменилась | ||
| - Сохраняю изменения и делаю коммит | ||
|
|
||
| ## Вникаем в детали системы, чтобы найти главные точки роста | ||
| Для того, чтобы найти "точки роста" для оптимизации я воспользовалась профилировщиками `ruby-prof`, `stackprof`, гемом `memory-profiler`, инструментом `valgrind massif visualizer`. | ||
|
|
||
| Так как программа изначально считывала в память и записывала в переменные большой объем данных, первым шагом я переписала ее в потоковом стиле. Я начала считывать входной файл по строкам, а писать JSON при помощи гема `Oj`. Для подсчета уникальных юзеров и сессий я ввела две отдельные переменные, которые инкрементировала по ходу обработки входного файла, а для вывода уникальных браузеров добавила структуру `Set`. Сессии обрабатываемого в данный момент юзера я добавляла в переменную `current_sessions`, которую передавала далее в метод `write_stats_for` для вычисления и тут же записи статистики по юзеру. После того, как я переписала программу в потоковом стиле, я начала искать точки роста при помощи профилировщиков. | ||
|
|
||
| Вот какие проблемы удалось найти и решить | ||
|
|
||
| ### Date.parse() | ||
| - `memory-profiler` показывает строку | ||
| ```ruby | ||
| writer.push_value(sessions.map{|s| s['date']}.map {|d| Date.parse(d)}.sort.reverse.map { |d| d.iso8601 }) | ||
| ``` | ||
| - Выделила `sessions.map{|s| s['date']}` в отдельную переменную, к которой применяла bang-методы, переписала парсинг даты: | ||
| ```ruby | ||
| dates = sessions.map{|s| s['date']} | ||
| writer.push_key('dates') | ||
| writer.push_value(dates | ||
| .sort! | ||
| .reverse! | ||
| .map! do |d| | ||
| ary = d.split('-') | ||
| Date.new(ary[0].to_i, ary[1].to_i, ary[2].to_i).iso8601 | ||
| end) | ||
| ``` | ||
| - Потребление памяти снизилось с 22Мб до 20Мб | ||
| - `memory-profiler` перестал показывать эту строку, как аллоцирующую максимальный объем памяти | ||
|
|
||
| ### Array.map() | ||
| - Отчеты `ruby-prof` в режимах `callgrind` и `graph` | ||
| - Вызовы метода `map` внутри `write_stats_for` занимали много памяти. Вынесла общие вызовы для `sessions.map` в переменные, использовала bang-методы | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. "Занимали много памяти" лучше уточнить что имеется в виду. У нас же по сути константное и минимальное потребление RSS на всём протяжении работы программы. То что там есть лишние аллокации это конечно неплохо убрать, так будет ещё чуть побыстрее, тк не придётся тратить время на копирование объектов и потом GC на их удаление. |
||
| - Метрика снизилась до 20Мб | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. там по сути памяти мы почти не потребляем, 20мб это близко к пустой программе на ruby, которая ничего не делает. и главное что мы почти не потребляя памяти можем перелопатить почти любой объём входящих данных |
||
| - В `callgrind` отчете строчка с `map` методом занимала примерно 8% памяти, стала занимать 2% | ||
|
|
||
| ## Результаты | ||
| В результате проделанной оптимизации наконец удалось обработать файл с данными. | ||
| Удалось улучшить метрику системы с и уложиться в заданный бюджет. | ||
|
|
||
| ## Защита от регрессии производительности | ||
| Для защиты от потери достигнутого прогресса при дальнейших изменениях программы я добавила `RSpec` тест, проверяющий количество аллоцированных байт по разным типам данных при работе программы на тестовом файле (тест `spec/task-2_spec.rb`) | ||
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,7 @@ | ||
| require_relative 'task-2.rb' | ||
| require 'memory_profiler' | ||
|
|
||
| report = MemoryProfiler.report do | ||
| work('data.txt', disable_gc: false) | ||
| end | ||
| report.pretty_print(scale_bytes: true) |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,24 @@ | ||
| require 'ruby-prof' | ||
| require_relative 'task-2.rb' | ||
|
|
||
| RubyProf.measure_mode = RubyProf::ALLOCATIONS | ||
|
|
||
| profile = RubyProf::Profile.new | ||
| result = profile.profile do | ||
| work('data_small.txt', disable_gc: true) | ||
| end | ||
|
|
||
| printer = RubyProf::FlatPrinter.new(result) | ||
| printer.print(File.open('ruby_prof_reports/flat.txt', 'w+')) | ||
|
|
||
| printer = RubyProf::DotPrinter.new(result) | ||
| printer.print(File.open('ruby_prof_reports/graphviz.dot', 'w+')) | ||
|
|
||
| printer = RubyProf::GraphHtmlPrinter.new(result) | ||
| printer.print(File.open('ruby_prof_reports/graph.html', 'w+')) | ||
|
|
||
| printer = RubyProf::CallStackPrinter.new(result) | ||
| printer.print(File.open('ruby_prof_reports/callstack.html', 'w+')) | ||
|
|
||
| printer = RubyProf::CallTreePrinter.new(result) | ||
| printer.print(path: 'ruby_prof_reports', profile: 'profile') |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,24 @@ | ||
| require 'ruby-prof' | ||
| require_relative 'task-2.rb' | ||
|
|
||
| RubyProf.measure_mode = RubyProf::MEMORY | ||
|
|
||
| profile = RubyProf::Profile.new | ||
| result = profile.profile do | ||
| work('data_small.txt', disable_gc: true) | ||
| end | ||
|
|
||
| printer = RubyProf::FlatPrinter.new(result) | ||
| printer.print(File.open('ruby_prof_reports/flat_memory.txt', 'w+')) | ||
|
|
||
| printer = RubyProf::DotPrinter.new(result) | ||
| printer.print(File.open('ruby_prof_reports/graphviz_memory.dot', 'w+')) | ||
|
|
||
| printer = RubyProf::GraphHtmlPrinter.new(result) | ||
| printer.print(File.open('ruby_prof_reports/graph_memory.html', 'w+')) | ||
|
|
||
| printer = RubyProf::CallStackPrinter.new(result) | ||
| printer.print(File.open('ruby_prof_reports/callstack_memory.html', 'w+')) | ||
|
|
||
| printer = RubyProf::CallTreePrinter.new(result) | ||
| printer.print(path: 'ruby_prof_reports', profile: 'profile') |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,40 @@ | ||
| require 'rspec-benchmark' | ||
| require_relative '../task-2' | ||
|
|
||
| RSpec.configure do |config| | ||
| config.include RSpec::Benchmark::Matchers | ||
| end | ||
|
|
||
| describe 'Perfomance' do | ||
| before do | ||
| File.write('result.json', '') | ||
| File.write('data.txt', | ||
| 'user,0,Leida,Cira,0 | ||
| session,0,0,Safari 29,87,2016-10-23 | ||
| session,0,1,Firefox 12,118,2017-02-27 | ||
| session,0,2,Internet Explorer 28,31,2017-03-28 | ||
| session,0,3,Internet Explorer 28,109,2016-09-15 | ||
| session,0,4,Safari 39,104,2017-09-27 | ||
| session,0,5,Internet Explorer 35,6,2016-09-01 | ||
| user,1,Palmer,Katrina,65 | ||
| session,1,0,Safari 17,12,2016-10-21 | ||
| session,1,1,Firefox 32,3,2016-12-20 | ||
| session,1,2,Chrome 6,59,2016-11-11 | ||
| session,1,3,Internet Explorer 10,28,2017-04-29 | ||
| session,1,4,Chrome 13,116,2016-12-28 | ||
| user,2,Gregory,Santos,86 | ||
| session,2,0,Chrome 35,6,2018-09-21 | ||
| session,2,1,Safari 49,85,2017-05-22 | ||
| session,2,2,Firefox 47,17,2018-02-02 | ||
| session,2,3,Chrome 20,84,2016-11-25 | ||
| ') | ||
| end | ||
|
|
||
| describe 'task 2' do | ||
| it 'permorms allocations' do | ||
| expect { | ||
| work('data.txt') | ||
| }.to perform_allocation({String => 20000, Array => 8000, Date => 1400, Hash => 6000}).bytes | ||
| end | ||
| end | ||
| end |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,6 @@ | ||
| require 'stackprof' | ||
| require_relative 'task-2' | ||
|
|
||
| StackProf.run(mode: :object, out: 'stackprof_reports/stackprof.dump', raw: true) do | ||
| work('data_small.txt', disable_gc: false) | ||
| end |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
bang-методы - лайк
парсинг даты тут не нужен вообще, это пасхалочка