表示崩れを事前修正するMarkdown拡張を追加 #8

faithandbrave · 2024-12-05T04:25:20Z

markdown リストの入れ子が反映されないことがある site#1362

影響範囲が大きいので、一旦Pull Requestにします。
どなたかレビューしてもらえると助かりますが、とくにご意見なければ一週間ほどでマージします。

site_generator側は、この拡張を使うよう1行追加するだけです。

diff --git forkSrcPrefix/run.py forkDstPrefix/run.py
index 3a783c5504a7856e048800b357fa4698f0f7e9b4..25ac1f1118bf307dcd187a5435e66e76557f793f 100755
--- forkSrcPrefix/run.py
+++ forkDstPrefix/run.py
@@ -102,6 +102,7 @@ def md_to_html(md_data, path, hrefs=None, global_qualify_list=None, global_defin
         'markdown_to_html.mark',
         'markdown_to_html.sponsor',
         'markdown_to_html.commit',
+        'markdown_to_html.fix_display_error',
         ],
         extension_configs=extension_configs)
     md._html_attribute_hrefs = hrefs

cpprefjp/site#1362

faithandbrave · 2024-12-05T05:10:39Z

追加で、コードブロック後に箇条書き以外がきたら空行を挟もうとしてますが、Markdown拡張の適用順の問題かうまく効いてくれない状態です

faithandbrave · 2024-12-05T06:03:52Z

Registryにpriorityを設定できるみたいです。

いま3.2.1で使ってるadd関数はなくなるみたいなので、register関数に移行する必要がありそうです。

https://github.com/Python-Markdown/markdown/blob/3.2.1/markdown/util.py
https://github.com/Python-Markdown/markdown/blob/3.7/markdown/util.py

faithandbrave · 2024-12-05T07:15:19Z

コードブロック後に箇条書き以外がきたら空行を挟むよう修正し、Registry.addを使っていたコードをRegistry.registerに直しました

akinomyoga · 2024-12-09T11:01:31Z

コードブロック直後の文章消失の問題は

markdown_to_html/qualified_fenced_code.py

Line 44 in 78e8632

    
           QUALIFIED_FENCED_BLOCK_RE = re.compile(r'(?P<fence>`{3,})[ ]*(?P<lang>[a-zA-Z0-9_+-]*)(?P<lang_meta>.*?)\n(?P<code>.*?)(?<=\n)(?P<indent>[ \t]*)(?P=fence)[ ]*\n(?:(?=\n)|(?P<qualifies>.*?\n(?=\s*\n)))', re.MULTILINE | re.DOTALL)

の方を修正して根治できませんか。(?P<qualifies>.*?\n(?=\s*\n)) の .*? の部分が何にでも一致してしまうのがよくないのだと思います。それとは別の preprocessor で何か警告など発する仕組みはあって良いと思います。

追記: 単に (?=\n) を (?!\* ) [や (?!(?:[*+-]|[0-9]+\.)\s ) など?] にすれば良いだけかも。

faithandbrave · 2024-12-10T01:08:09Z

@akinomyoga さんの方で修正できますか？

そうしたらこのPRでは箇条書きの前に空行を入れる修正だけ入れます

akinomyoga · 2024-12-10T01:13:14Z

OK 後でやってみますね

Ref. [1] で発見された問題。コードブロック後に改行を挟まずに文章を続けるとその文章がコード修飾指定のセクションとして抽出されて消失する問題。対処法として改行を挿入する [2, 3] ことで回避できるが、改行がなくても正しく表示されるようにしたい[4]。ここでは、コード修飾の指定についてより厳密な形式で抽出を行い、誤って関係ない物を抽出することを防ぐ。この変更のテストの過程で、既存のコード修飾の誤りが発見されたが対処した [5]。また、他にも消失している記述 [6] が発見されたが、[6] はこの変更により自動的に修正されるので対処はしていない。 References: [1] cpprefjp/site#1362 (comment) [2] cpprefjp/site@c747f4a [3] cpprefjp/site@5259ff6 [4] cpprefjp#8 (comment) [5] cpprefjp/site@ebf8c8f [6] https://github.com/cpprefjp/site/blob/ebf8c8fd705a194adb7b3f83786dad9c843d143b/reference/generator/generator/iterator/op_increment.md?plain=1#L27

Ref. [1] で発見された問題。コードブロック後に改行を挟まずに文章を続けるとその文章がコード修飾指定のセクションとして抽出されて消失する問題。対処法として改行を挿入する [2, 3] ことで回避できるが、改行がなくても正しく表示されるようにしたい。ここでは、コード修飾の指定についてより厳密な形式で抽出を行い、誤って関係ない物を抽出することを防ぐ [4]。この変更のテストの過程で、既存のコード修飾の誤りが発見されたが対処した [5]。また、他にも消失している記述 [6] が発見されたが、[6] はこの変更により自動的に修正されるので対処はしていない。 References: [1] cpprefjp/site#1362 (comment) [2] cpprefjp/site@c747f4a [3] cpprefjp/site@5259ff6 [4] cpprefjp#8 (comment) [5] cpprefjp/site@ebf8c8f [6] https://github.com/cpprefjp/site/blob/ebf8c8fd705a194adb7b3f83786dad9c843d143b/reference/generator/generator/iterator/op_increment.md?plain=1#L27

faithandbrave · 2024-12-11T03:27:54Z

コード修飾を処理したあと (コードブロック後の*箇条書きが消えたあと) に、箇条書き前に空行を入れるようにしました。
これでよさそうなら、Squash Mergeしようかと思います

akinomyoga · 2024-12-11T04:15:28Z

fix_display_error.py

+            is_outer_code_block = line.strip().startswith("````")
+            if is_outer_code_block:
+                in_outer_code_block = not in_outer_code_block
+                prev_line = line
+                new_lines.append(line)
+                continue
+
+            if not in_outer_code_block:
+                is_code_block = line.strip().startswith("```")
+                if is_code_block:
+                    in_code_block = not in_code_block
+                    if not in_code_block:
+                        is_prev_code_block = True
+                        prev_line = line
+                        new_lines.append(line)
+                        continue
+
+            if in_code_block:
+                prev_line = line
+                new_lines.append(line)
+                continue


コードブロックは qualified_fenced_code 29 によって変換された後で既に存在しなくなっているのでこの部分は処理しなくて良いかなと思います。実際に手元でこの部分を全部コメントアウトして全変換して結果を比べてみましたが、変換結果に違いはありませんでした。

そうでした。直します

直しました。手元で確認しています

akinomyoga

後、手元で変換して気づいたのは、

- リスト項目1 複数行1行目
  リスト項目1 複数行2行目
- リスト項目2

の形になっていた時に

- リスト項目1 複数行1行目
  リスト項目1 複数行2行目

- リスト項目2

に変換されて、リスト項目1の内部に新しく段落が生成されるようになっています。直近のリスト項目のインデントレベルを記録して、is_item_line の判定でインデントされた行も項目の一部という判定を加えて良いのではないかと思います。

faithandbrave · 2024-12-11T04:24:15Z

なるほど、たしかにそれは考慮してなかったです

faithandbrave · 2024-12-11T07:35:57Z

先頭4スペース以上の行とタブ開始の行も、箇条書きの行とみなすよう修正しました

akinomyoga · 2024-12-11T09:33:58Z

変換結果を見てみたのですが先頭に空白2文字しかない場合もあります…というより先頭に何もない以下のような場合も結構あります。

- リスト項目1
リスト項目1の続き
- リスト項目2

先のコメントでインデントで判定するという様に提案しましたが、実際の Markdown の挙動を勘違いしていまして、すみません。"空白4文字" というのはリストの中に次の階層のリストを入れる場合の話であって、それが一般にリスト項目の中のインデントを規定する訳ではないみたいです。

これに関連して単に無駄に段落が生成されるだけでなくて構造が変わってしまっている箇所もあるみたいです。

これについてはどのように対処するのが良いでしょうか。Markdown ソースの方を空白4文字でインデントする様に修正するか、fix_display_error の方で Markdown の規則に合うように処理するか。

ソースの方を修正したら良いとも思ったのですが、既存の Markdown 実装にない cpprefjp 独自ルール ¹ を新しく増やす事になるのではということ、実際にリスト項目の継続行をインデントしなくても動く場合と動かない場合があって振る舞いが一定せず表面的に意味不明な振る舞いに見えること、などを考えるとやはり微妙かなという気がしてきました。

追記: でも fix_diplay_error の方で適切に空行を入れるにしても、Python-Markdown のリストの正確なルールが分からないと結局また穴が残るかもしれず、それはそれで微妙な気もしてきました。

ただし Markdown ではなくて wiki 文法ではインデントが必要 ↩

faithandbrave · 2024-12-11T12:39:18Z

明日以降、現状調査からやります！

faithandbrave · 2024-12-12T09:46:22Z

- リスト項目1
リスト項目1の続き
- リスト項目2

このケースを考慮するのであれば、箇条書きがはじまったら空行がくるまで箇条書きが続く、とみなすしかないような気がしますね

akinomyoga · 2024-12-12T10:45:28Z

このケースを考慮するのであれば、箇条書きがはじまったら空行がくるまで箇条書きが続く、とみなすしかないような気がしますね

上記の方法で良さそうです。リスト項目の中に空行が含まれる場合はどうなるのだろうと思って Python-Markdown の振る舞いを色々調べてみたのですが、何か不可解な挙動をしていて、却って "箇条書きがはじまったら空行がくるまで箇条書きが続く" という判定による修正が一番正しそうです。

先ず、リスト項目内部に空行がない場合は、次のリスト項目は、インデントやリスト階層がどうあってもちゃんとリスト項目になるみたいです。

- リスト項目一行目
    二行目
    三行目
- これはリスト項目になる

- リスト項目一行目
    二行目
    三行目
    - これもリスト項目になる

- リスト項目一行目
二行目
三行目
- これもリスト項目になる

- リスト項目一行目
二行目
三行目
    - これもリスト項目になる

ところが、リスト項目の内部に空行がある場合には、次に来るリスト項目はどうあっても空行直後でしかリスト項目にならないみたいです。


- リスト項目一行目
    二行目

    三行目
- これはリスト項目に**ならない**

- リスト項目一行目
    二行目

    三行目
    - これもリスト項目に**ならない**

- リスト項目一行目
二行目

三行目
- これもリスト項目に**ならない**

- リスト項目一行目
二行目

三行目
    - これもリスト項目に**ならない**

空白文字だけしかない行も空行と判定される
空行の他に見出し行 /^#+ / も箇条書き終了になる

faithandbrave · 2024-12-12T12:00:41Z

そのように直しました。
これで一通り確認してみます。

akinomyoga · 2024-12-12T13:18:22Z

こちらでも見てみましたところちゃんと綺麗に変換できています!

reference/thread/jthread/op_constructor.md が壊れているみたいですが、これはそもそも Markdown の時点で壊れている気がします。以下の部分で 68行目, 69行目の空行は間違って入っている気がします。67行目の文が尻切れトンボになっていますが、本当は70行目が文の続きですよね。

https://github.com/cpprefjp/site/blob/587d612b99f621e8cb0777e689ee0247d055d750/reference/thread/jthread/op_constructor.md?plain=1#L67-L71

あと、これは以前から壊れていてこの fix_display_error でも変わっていないものですが、以下の (3): のリストレベルが意図とは違ったもので生成されていますね。

https://github.com/cpprefjp/site/blob/587d612b99f621e8cb0777e689ee0247d055d750/reference/thread/jthread/op_constructor.md?plain=1#L43-L63

少なくとも Python-Markdown 3.2.1 は以下の記述に対して

- リスト項目1 段落1

    段落2

    - リスト項目1-1
- リスト項目2

リスト項目1 段落1

段落2
- リスト項目1-1
- リスト項目2

という具合のリストを生成するみたいです。Python-Markdown で正しく表示させるためにはリスト項目2 の前にも空行を入れて、

- リスト項目1 段落1

    段落2

    - リスト項目1-1

- リスト項目2

としなければならないみたいです。

空行を跨いだリスト項目の判定も加えたらこれに対処することも可能かもしれませんが、正直これは Python-Markdown の欠陥のように思われるし、そこまで fix_display_error 面倒を見る必要もないと思うので、こういうのは手動で直すというのでOKと思います。

他に同様の間違いが発生している場所がないか検出しようとコードを少し弄ったら、ちゃんと動きそうなコードができました… akinomyoga@96132c3 ちなみに上記 reference/thread/jthread/op_constructor.md 以外には問題になっている箇所は見つかりませんでした。

faithandbrave · 2024-12-13T00:14:37Z

確認ありがとうございます！
追加で問題が見つからなければ、週明けくらいにマージしようかと思います！

cpprefjp/markdown_to_html#8

表示崩れを事前修正するMarkdown拡張を追加

53e97b0

cpprefjp/site#1362

faithandbrave mentioned this pull request Dec 5, 2024

markdown リストの入れ子が反映されないことがある cpprefjp/site#1362

Closed

faithandbrave added 2 commits December 5, 2024 16:13

削除されるRegistry.add関数の代わりにRegistry.register関数を使用するよう修正

8a64f39

コードブロック後にコード修飾ではない場合に空行を挟むようにした

78e8632

akinomyoga mentioned this pull request Dec 10, 2024

コードブロック後の修飾の抽出を厳密化 #9

Merged

faithandbrave added 2 commits December 11, 2024 12:23

Merge branch 'master' into fix_display_error

79cd022

コード修飾を処理したあとに表示崩れの修正をするようにした

a50dbc6

akinomyoga reviewed Dec 11, 2024

View reviewed changes

コードブロック処理後なのでコードブロックは考慮しないことにした

db63374

akinomyoga reviewed Dec 11, 2024

View reviewed changes

インデントされた行も箇条書きとみなすよう修正

862a309

faithandbrave added 2 commits December 12, 2024 20:56

箇条書きは空行がくるまで箇条書きとして扱うようにした

bab3753

見出し行も箇条書きの終了とみなすようにした

6ae5a11

faithandbrave merged commit e2af656 into master Dec 16, 2024

faithandbrave deleted the fix_display_error branch December 16, 2024 01:42

faithandbrave added a commit to cpprefjp/site that referenced this pull request Dec 16, 2024

jthread::コンストラクタ : 表示崩れを修正

8cf3afd

cpprefjp/markdown_to_html#8

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

表示崩れを事前修正するMarkdown拡張を追加 #8

表示崩れを事前修正するMarkdown拡張を追加 #8

faithandbrave commented Dec 5, 2024

faithandbrave commented Dec 5, 2024

faithandbrave commented Dec 5, 2024

faithandbrave commented Dec 5, 2024

akinomyoga commented Dec 9, 2024 •

edited

Loading

faithandbrave commented Dec 10, 2024

akinomyoga commented Dec 10, 2024

faithandbrave commented Dec 11, 2024

akinomyoga Dec 11, 2024

faithandbrave Dec 11, 2024

faithandbrave Dec 11, 2024

akinomyoga left a comment

faithandbrave commented Dec 11, 2024

faithandbrave commented Dec 11, 2024

akinomyoga commented Dec 11, 2024 •

edited

Loading

faithandbrave commented Dec 11, 2024

faithandbrave commented Dec 12, 2024

akinomyoga commented Dec 12, 2024 •

edited

Loading

faithandbrave commented Dec 12, 2024

akinomyoga commented Dec 12, 2024 •

edited

Loading

faithandbrave commented Dec 13, 2024

表示崩れを事前修正するMarkdown拡張を追加 #8

表示崩れを事前修正するMarkdown拡張を追加 #8

Conversation

faithandbrave commented Dec 5, 2024

faithandbrave commented Dec 5, 2024

faithandbrave commented Dec 5, 2024

faithandbrave commented Dec 5, 2024

akinomyoga commented Dec 9, 2024 • edited Loading

faithandbrave commented Dec 10, 2024

akinomyoga commented Dec 10, 2024

faithandbrave commented Dec 11, 2024

akinomyoga Dec 11, 2024

Choose a reason for hiding this comment

faithandbrave Dec 11, 2024

Choose a reason for hiding this comment

faithandbrave Dec 11, 2024

Choose a reason for hiding this comment

akinomyoga left a comment

Choose a reason for hiding this comment

faithandbrave commented Dec 11, 2024

faithandbrave commented Dec 11, 2024

akinomyoga commented Dec 11, 2024 • edited Loading

Footnotes

faithandbrave commented Dec 11, 2024

faithandbrave commented Dec 12, 2024

akinomyoga commented Dec 12, 2024 • edited Loading

faithandbrave commented Dec 12, 2024

akinomyoga commented Dec 12, 2024 • edited Loading

faithandbrave commented Dec 13, 2024

akinomyoga commented Dec 9, 2024 •

edited

Loading

akinomyoga commented Dec 11, 2024 •

edited

Loading

akinomyoga commented Dec 12, 2024 •

edited

Loading

akinomyoga commented Dec 12, 2024 •

edited

Loading