-
Notifications
You must be signed in to change notification settings - Fork 139
Homework solution #122
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
base: master
Are you sure you want to change the base?
Homework solution #122
Changes from all commits
File filter
Filter by extension
Conversations
Jump to
Diff view
Diff view
There are no files selected for viewing
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,7 @@ | ||
| .DS_Store | ||
| data_large.txt | ||
| data_prof.txt | ||
| result.json | ||
| tmp/ | ||
| memory_profiler/ | ||
| stackprof_reports/ |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,71 @@ | ||
| # Case-study оптимизации | ||
|
|
||
| ## Актуальная проблема | ||
| В нашем проекте возникла серьёзная проблема. | ||
|
|
||
| Необходимо было обработать файл с данными, чуть больше ста мегабайт. | ||
|
|
||
| У нас уже была программа на `ruby`, которая умела делать нужную обработку. | ||
|
|
||
| Она успешно работала на файлах размером пару мегабайт, но для большого файла она работала слишком долго, и не было понятно, закончит ли она вообще работу за какое-то разумное время. | ||
|
|
||
| Я решил исправить эту проблему, оптимизировав эту программу. | ||
|
|
||
| ## Формирование метрики | ||
| Для того, чтобы понимать, дают ли мои изменения положительный эффект на быстродействие программы я придумал использовать такую метрику: Потребление памяти. | ||
|
|
||
| ## Гарантия корректности работы оптимизированной программы | ||
| Программа поставлялась с тестом. Выполнение этого теста в фидбек-лупе позволяет не допустить изменения логики программы при оптимизации. | ||
|
|
||
| ## Feedback-Loop | ||
| Для того, чтобы иметь возможность быстро проверять гипотезы я выстроил эффективный `feedback-loop`, который позволил мне получать обратную связь по эффективности сделанных изменений за за 10-20 секунд. | ||
|
|
||
| Вот как я построил `feedback_loop`: Создавал файл с N строк, чтобы программа могла выполнятся 10-20 секунд. | ||
|
|
||
| ## Вникаем в детали системы, чтобы найти главные точки роста | ||
| Для того, чтобы найти "точки роста" для оптимизации я воспользовался memory_profiler, в котором смотрел какой код создает больше всего объектов, stackprof для большей детальности. Так же дополнительно был написан скрипт запускающий код в 2 потока, один из которых раз в секунду печатал потребление памяти. | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. 👍 |
||
|
|
||
| Вот какие проблемы удалось найти и решить | ||
|
|
||
| ### Ваша находка №1 | ||
| Для первого профилирования я сделал файл из 10000 строк, получил потребление памяти 460 МВ, для 30000 - 405 МВ, для 50000 - 492 МВ, на этом количестве остановился. | ||
| Попробовал использовать memory_profiler, который показал 560712 созданных объектов в строке | ||
| ``` | ||
| { 'dates' => user.sessions.map{|s| s['date']}.map {|d| Date.parse(d)}.sort.reverse.map { |d| d.iso8601 } } | ||
| ``` | ||
| Использовал stackprof, он показал `734611 (31.3%) String#split` и `380763 (16.2%) Date.parse`. | ||
| Посмотрел детальнее метод String#split, большая часть создается в методе `296135 (40.3%) Object#parse_session` | ||
| Делаю вывод что Главная точка роста - Date.parse | ||
|
|
||
| https://github.com/fastruby/fast-ruby?tab=readme-ov-file#date рекомендуют использовать Date.iso8601. | ||
| Потребление памяти не сильно изменилось, осталось 504 MB, `211530 (9.7%) Date.iso8601` | ||
| Попробовал Date.strftime, потребление памяти снизилось до `MEMORY USAGE: 356 MB`, `126921 (6.3%) Date.strptime`, оставил это решение. | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. с датой вообще ничего не надо делать, она сразу в нужном формате |
||
|
|
||
| ### Ваша находка №2 | ||
| Теперь результат memory_profiler стал показывать что в строке | ||
| ``` | ||
| cols = line.split(',') | ||
| ``` | ||
| создается 392305 объектов. StackProf так же показывает что split создает много объектов, не только в этом месте | ||
| ``` | ||
| String#split (<cfunc>:1) | ||
| samples: 734611 self (36.6%) / 734611 total (36.6%) | ||
| callers: | ||
| 392306 ( 53.4%) Object#work | ||
| 296135 ( 40.3%) Object#parse_session | ||
| 46170 ( 6.3%) Object#parse_user | ||
| ``` | ||
| Изучив код, принял решение отказаться от использования в данном месте метода split, а определять принадлежность к сущности user/session по началу строки. | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. по первой букве кстати даже можно |
||
| Общее количество объектов String#split сократилось до 392306 (24.3%), текущее место перестало был точкой роста. | ||
|
|
||
| ### Ваша находка №3 | ||
| Для понимания когда программа начинает потреблять больше памяти я написал скрипт который использует два потока, в одном выполняется программа, а другой выводит на экран каждую секунду потребляемую память. Скрипт показал что после чтения файла потребление памяти резко увеличивается. Для того чтобы всё содержимое файла не помещать в память, было решено переписать программу с использованием чтения строк. | ||
| После изменения кода, программа на больших данных стала тратить 22 МБ. | ||
|
|
||
| ## Результаты | ||
| В результате проделанной оптимизации наконец удалось обработать файл с данными. | ||
| Удалось улучшить метрику системы с более 700 Мб до менее 70 Мб и уложиться в заданный бюджет. | ||
|
|
||
| ## Защита от регрессии производительности | ||
| Для защиты от потери достигнутого прогресса при дальнейших изменениях программы был создан performance тест. | ||
|
|
||
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,19 @@ | ||
| # rspec task-2-assert-performance.rb | ||
|
|
||
| require 'rspec-benchmark' | ||
| require_relative 'task-2' | ||
|
|
||
| RSpec.configure do |config| | ||
| config.include RSpec::Benchmark::Matchers | ||
| end | ||
|
|
||
| describe 'Performance' do | ||
| describe 'task-2#work' do | ||
| let(:file_name) { 'data_large.txt' } | ||
|
|
||
| it 'works with large allocating less than 70 Mb' do | ||
| expect(File.size(file_name)).to eq(134424508) # байт | ||
| expect(work(file_name:)).to be < 70 | ||
| end | ||
| end | ||
| end |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,10 @@ | ||
| # head -n <N lines> data_large.txt > data_prof.txt | ||
| # ruby task-2-memory-profiler.rb | ||
|
|
||
| require 'memory_profiler' | ||
| require_relative 'task-2' | ||
|
|
||
| report = MemoryProfiler.report do | ||
| work(file_name: 'data_prof.txt') | ||
| end | ||
| report.pretty_print(scale_bytes: true, to_file: 'memory_profiler/report_step3.txt') |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,11 @@ | ||
| # head -n <N lines> data_large.txt > data_prof.txt | ||
| # ruby task-2-stackprof.rb | ||
| # stackprof stackprof_reports/stackprof.dump | ||
|
|
||
| require 'stackprof' | ||
| require_relative 'task-2' | ||
|
|
||
| # Note mode: :object | ||
| StackProf.run(mode: :object, out: 'stackprof_reports/stackprof.dump', raw: true) do | ||
| work(file_name: 'data_prof.txt') | ||
| end |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,36 @@ | ||
| # ruby task-1-test.rb | ||
|
|
||
| require 'minitest/autorun' | ||
| require_relative 'task-2' | ||
|
|
||
| class TestMe < Minitest::Test | ||
| def setup | ||
| File.write('result.json', '') | ||
| File.write('data.txt', | ||
| 'user,0,Leida,Cira,0 | ||
| session,0,0,Safari 29,87,2016-10-23 | ||
| session,0,1,Firefox 12,118,2017-02-27 | ||
| session,0,2,Internet Explorer 28,31,2017-03-28 | ||
| session,0,3,Internet Explorer 28,109,2016-09-15 | ||
| session,0,4,Safari 39,104,2017-09-27 | ||
| session,0,5,Internet Explorer 35,6,2016-09-01 | ||
| user,1,Palmer,Katrina,65 | ||
| session,1,0,Safari 17,12,2016-10-21 | ||
| session,1,1,Firefox 32,3,2016-12-20 | ||
| session,1,2,Chrome 6,59,2016-11-11 | ||
| session,1,3,Internet Explorer 10,28,2017-04-29 | ||
| session,1,4,Chrome 13,116,2016-12-28 | ||
| user,2,Gregory,Santos,86 | ||
| session,2,0,Chrome 35,6,2018-09-21 | ||
| session,2,1,Safari 49,85,2017-05-22 | ||
| session,2,2,Firefox 47,17,2018-02-02 | ||
| session,2,3,Chrome 20,84,2016-11-25 | ||
| ') | ||
| end | ||
|
|
||
| def test_result | ||
| work | ||
| expected_result = JSON.parse('{"totalUsers":3,"uniqueBrowsersCount":14,"totalSessions":15,"allBrowsers":"CHROME 13,CHROME 20,CHROME 35,CHROME 6,FIREFOX 12,FIREFOX 32,FIREFOX 47,INTERNET EXPLORER 10,INTERNET EXPLORER 28,INTERNET EXPLORER 35,SAFARI 17,SAFARI 29,SAFARI 39,SAFARI 49","usersStats":{"Leida Cira":{"sessionsCount":6,"totalTime":"455 min.","longestSession":"118 min.","browsers":"FIREFOX 12, INTERNET EXPLORER 28, INTERNET EXPLORER 28, INTERNET EXPLORER 35, SAFARI 29, SAFARI 39","usedIE":true,"alwaysUsedChrome":false,"dates":["2017-09-27","2017-03-28","2017-02-27","2016-10-23","2016-09-15","2016-09-01"]},"Palmer Katrina":{"sessionsCount":5,"totalTime":"218 min.","longestSession":"116 min.","browsers":"CHROME 13, CHROME 6, FIREFOX 32, INTERNET EXPLORER 10, SAFARI 17","usedIE":true,"alwaysUsedChrome":false,"dates":["2017-04-29","2016-12-28","2016-12-20","2016-11-11","2016-10-21"]},"Gregory Santos":{"sessionsCount":4,"totalTime":"192 min.","longestSession":"85 min.","browsers":"CHROME 20, CHROME 35, FIREFOX 47, SAFARI 49","usedIE":false,"alwaysUsedChrome":false,"dates":["2018-09-21","2018-02-02","2017-05-22","2016-11-25"]}}}') | ||
| assert_equal expected_result, JSON.parse(File.read('result.json')) | ||
| end | ||
| end |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,30 @@ | ||
| require 'thread' | ||
| require_relative 'task-2' | ||
|
|
||
| pid = Process.pid # Получаем ID текущего процесса | ||
| memory_limit = 70_000 # Лимит памяти в KB (например, 15_000 = 15MB) | ||
|
|
||
| # Поток мониторинга памяти | ||
| memory_thread = Thread.new do | ||
| loop do | ||
| memory_usage = `ps -o rss= -p #{pid}`.strip.to_i # Получаем память в КБ | ||
|
|
||
| puts "Используемая память: #{memory_usage/1024} MB" | ||
|
|
||
| if memory_usage > memory_limit | ||
| puts "Превышен лимит памяти! Завершаем процесс..." | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. 👍 |
||
| Process.kill('TERM', pid) # Отправляем сигнал завершения процесса | ||
| end | ||
|
|
||
| sleep 1 # Ожидание 1 секунду перед следующим измерением | ||
| end | ||
| end | ||
|
|
||
| # Поток выполнения программы | ||
| work_thread = Thread.new do | ||
| work(file_name: 'data_large.txt') | ||
| end | ||
|
|
||
| # Ожидаем завершения выполнения программы | ||
| work_thread.join | ||
| memory_thread.kill # Завершаем поток мониторинга памяти после окончания работы | ||
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,10 @@ | ||
| require 'benchmark' | ||
| require_relative 'task-2' | ||
|
|
||
| puts "Start" | ||
|
|
||
| time = Benchmark.realtime do | ||
| work(file_name: 'data_large.txt') | ||
| end | ||
|
|
||
| puts "Finish in #{time.round(2)} seconds" |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
👍