We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
https://blog.philip-huang.tech/?page=fill-in-middle
論文連結: https://arxiv.org/abs/2207.14255.pdf
Autoregressive (AR) 語言模型可以通過簡單的方式學習填充文字;作者簡單的將文章中間的段落移動到結尾來讓模型學習文字填充。
作者提供了大量的證據,表明以這種方式轉換了大部分數據的模型不會損害原始的從左到右生成能力,這主要是通過衡量困惑度和抽樣評估確認的。
Fill-in-the-middle(FIM)訓練模型的實用性、簡單性和效率,作者建議未來的 AR 語言模型應搭配FIM進行訓練。
LM架構差異
依照模型架構不同,模型在生成任務能捕捉的資訊會不一樣,這點可能會讓模型在執行任務時有不同的性能表現:
Encoder-decoder model 可以同時捕捉 prefix 和 suffix 來進行任務。
Left-to right models 只能使用 prefix 資訊進行任務。
重點貢獻
The text was updated successfully, but these errors were encountered:
No branches or pull requests
https://blog.philip-huang.tech/?page=fill-in-middle
- tags: 論文筆記 FIM LM 預訓練 - date: 2023/12/13論文連結: https://arxiv.org/abs/2207.14255.pdf
Autoregressive (AR) 語言模型可以通過簡單的方式學習填充文字;作者簡單的將文章中間的段落移動到結尾來讓模型學習文字填充。
作者提供了大量的證據,表明以這種方式轉換了大部分數據的模型不會損害原始的從左到右生成能力,這主要是通過衡量困惑度和抽樣評估確認的。
Fill-in-the-middle(FIM)訓練模型的實用性、簡單性和效率,作者建議未來的 AR 語言模型應搭配FIM進行訓練。
依照模型架構不同,模型在生成任務能捕捉的資訊會不一樣,這點可能會讓模型在執行任務時有不同的性能表現:
Encoder-decoder model 可以同時捕捉 prefix 和 suffix 來進行任務。
Left-to right models 只能使用 prefix 資訊進行任務。
重點貢獻
The text was updated successfully, but these errors were encountered: