nikitalogos Jun 19 2022 at 17:52

Как я Markdown парсер выбирал

18 min

21K

JavaScript*HTML*Usability*Lifehacks for geeks

From sandbox

+54

Comments 29

rubero Jun 19 2022 at 18:09

Судя по npm, remarkable пару лет не обновлялся и в 5 раз менее популярен, чем markdown-it

InstaHeat Jun 19 2022 at 18:33

а почему не Pandoc?

k12th Jun 19 2022 at 21:26

решил остановиться на pure-JavaScript решениях для большей гибкости

nikitalogos Jun 20 2022 at 02:20

Не знал о таком (точнее слышал, но никогда не пользовался). Сейчас скачал себе на десктоп pandoc и прогнал через него тестовый файл вот такой командой

pandoc -f markdown -t html text_for_testing.md -o t.html

Я не знаю, насколько можно кастомизировать поведение pandoc-а, но из коробки он выдал такие ошибки:

перевод строки в текстовых блоках
вложенная цитата
лист в цитате
выделение цветом (==)

В целом неплохо (даже подсветку синтаксиса осилил - выделил переменные и т. п. css классами), но все же не идеальный результат

Ndochp Jun 26 2022 at 13:02

А вы уверены, что перевод строки в текстовых блоках (я так понимаю одиночный энтер не приводит к переключению на новую строку) это ошибка, а не требование формата? новая строка это двойная отбивка, одиночный энтер это просто пробельный символ во всех описаниях маркдауна, что я видел.

nikitalogos Jul 23 2022 at 15:00

Да, вы правы, по стандарту перевод строки - это двойная отбивка. Правда, использовать одиночный Enter все же удобнее. Статью поправил :)

petrov_engineer Jun 19 2022 at 19:51

Есть ещё нативные варианты, например, https://github.com/rsms/markdown-wasm

Если речь идёт о скорости, то почему их не рассматривать...

nikitalogos Jun 20 2022 at 02:46

Спасибо, не знал о таком! Попробовал.

Вот его live demo - https://rsms.me/markdown-wasm/

Тестировал на том же тестовом файле, что и все остальные парсеры

Что не работает:

перевод строки в текстовых блоках
выделение текста
1. нижнее подчеркивание (тег ) - кажется, он просто весь html игнорирует
2. выделение цветом (==)
3. подстрочный шрифт (распознается как зачеркивание)
4. надстрочный шрифт
html игнорируется, так что ни картинка, вставленная тегом <img>, ни <iframe> не рендерятся

Cудя по readme проекта, html можно включить в настройках. Но почему настройки нельзя покрутить в live demo - это хороший вопрос...

makar_crypt Jun 19 2022 at 22:15

для меня самое главное

1) через cntrl +v подхватывалась картинка

2) скопированный стиль из сайта при вставки сохранял стилистику

ни один из вашего топ 3 это не умеет делать - печаль

nikitalogos Jun 20 2022 at 02:31

Мне кажется, то, о чем вы говорите - задача редактора Markdown, а не парсера.
Редактор нужен для того, чтобы статью написать в Markdown, а парсер - для того чтобы отобразить Markdown в HTML страничку.

olku Jun 19 2022 at 23:36

Asciidoc не пробовали? Из коробки и в html, и в pdf.

nikitalogos Jun 20 2022 at 02:36

Спасибо за предложение! Попробовал)

Нашел вот такое демо https://asciidoclive.com/edit/scratch/1

Вставил тестовый текст (есть в публикации выше)

Результат не очень впечатляющий. Помимо стандартных проблем с переводом строки в текстовых блоках и вложенных цитат, есть ряд совсем "детских" проблем. На мой взгляд, этоn проект справляется даже хуже, чем антигерой данной статьи - MarkdownDeep...

olku Jun 20 2022 at 11:46

https://github.com/jichu4n/asciidoclive не обновлялся с 2016. Референсный процессор живет на https://github.com/asciidoctor/asciidoctor Есть плагин для IDE от авторов https://plugins.jetbrains.com/plugin/7391-asciidoc
Не, я не спорю - больше редакторов хороших и разных. Давний поклонник markdown, но влез в asciidoc и прилип. Для паблишинга показался гибче MD и значительно проще TEX. Проблем пока не поймал, пользуюсь плагином. Бросьте в личку кейс, пожалуйста, мейнтейнеры отвечали в течение нескольких часов.

nikitalogos Jun 20 2022 at 13:01

Обновил PyCharm, установил последнюю версию AsciiDoc. Запустил превьюшку. На первый взгляд ошибки те же, что и в https://asciidoclive.com/edit/scratch/1 :(

nin-jin Jun 20 2022 at 18:02

А MarkedText?

blinky-z Jun 21 2022 at 02:04

Asciidoc, к сожалению, не так лаконичен, прост и читабелен как Markdown. Например, об этом сказано даже в спеке CommonMark

tdemin Jun 20 2022 at 05:43

del, не дочитал пост до конца

-3

Pinkerton42 Jun 20 2022 at 06:06

Есть нативное готовое решение: https://content.nuxtjs.org/

Если коротко - это смесь из статически генерируемых страниц из {md, json, yml, etc} файлов в html и все это приправлено vue и nuxtjs. В последней версии даже появились markdown-компоненты

nikitalogos Jun 20 2022 at 12:36

Сам недавно заинтересовался про nuxtjs, планирую как-нибудь мигрироваться на него, когда руки дойдут... Классно, что там есть такая библиотека!

Я нашел ссылку на демку content-а на их странице на github https://stackblitz.com/github/nuxt/content/tree/main/examples/essentials/hello-world?file=app.vue

Попробовал прогнать через нее тестовый Markdown

Что не работает:

перевод строки в текстовых блоках
выделение текста
1. выделение цветом
2. подстрочный регистр
3. надстрочный регистр

В целом проблемы не критичные и с ними можно жить :)

Pinkerton42 Jun 20 2022 at 12:48

В md работает (в других парсерах не проверял)

1. Двойной пробел и перевод строки в конце дает перенос.

2.2 и 2.3 и даже с индексами индексов (вложенность)

nikitalogos Jun 20 2022 at 13:56

Да, понятно, что выделение текста можно победить через , и , но это уже raw html, и это накладывает небольшие неудобства.

Двойной пробел и правда работает! Причем во всех парсерах... Наверное, надо немного поправить статью

karambaso Jun 20 2022 at 09:54

но я решил остановиться на pure-JavaScript решениях для большей гибкости

Не надо вуалировать истину, которая состоит в том, что выбор был сделан с целью исключитть затраты на изучение других языков, ну а JS видимо уже был изучен, значит в его случае затраты минимальны.

Но в тексте я не увидел подробностей, которые можно было бы указать, если бы автор реально изучал исходный код парсеров. Только ссылки на документацию и её неполноту. При таком подходет выбор парсеров на JS ничем не оправдан кроме личного пристрастия автора.

Ну и нет стандартного для подорбного обзора сводного материала. Обычно это простейшая таблица, в которой рядом со столбцом с названиями парсеров были бы столбцы с их характеристиками. Вместо полезной для сравнения таблицы имеем пару субъективных "выводов" про скорость (кстати, почему-то здесь таблицу получилось сделать), и про плагины. Но даже эти выводы разбросаны по статье, а в итоговом "заключении" о них вообще ни слова, хотя о том, что автор собой доволен, в заключении слова есть.

Ну и немного о цели автора. Он заявляет, что хочет сделать сайт. Ну ладно, но почему на маркдауне? Просто потому, что ничего другого не знаем? HTML, вообще-то, очень простая штука, сильно проще JS. Видимо опять рулят привычки и нежелание изучать новое. В итоге - субъектив на субъективе. Плюс личные впечатления и самореклама.

-5

Klems Jun 21 2022 at 13:43

Ну а почему нет? Автор выбирал парсер для себя. Почему он не должен руководствоваться привычками? Что плохого в минимизации затрат и усилий? И статья называется не "какой парсер лучше выбрать", чтобы претендовать на объективность.

Если я знаю Java и захочу сделать сайт, то в первую очередь буду искать движки на Java (кстати, я так делал и нашел SparkJava)

Такой подход позволяет первоначально сильно сузить широту выбора. Иначе чем больше выбор - тем дольше выбирать.

EXL Jun 20 2022 at 13:20

А поделитесь пожалуйста своим набором тестовых md-файликов, которые вы прогоняете на различных парсерах.

nikitalogos Jun 20 2022 at 13:58

Тестовый текст приведен в статье под спойлером "Тестовый текст в формате Markdown"

nin-jin Jun 20 2022 at 19:18

Не хотите добавить в сравнение $mol_text?

Лицензия MIT, демо, дока, бенчмарк, отзывчивый всё ещё живой мейнтейнер.

Что не работает:

Перевод строки разрывает абзацы.
Нумерованные списки. Не сложно добавить в принципе.
Экранирование в блоках кода - просто используется отступ.
Подчёркивание, раскрашивание, суперскрипт, субскрипт. Не сложно добавить в принципе.
Экранирование - используется инлайн код.
Линия разреза. Не сложно добавить в принципе.
Сырой HTML. Видео и приложения вставляются так же как и картинки.

Приятные бонусы:

Фавиконки у ссылок.
Проверка ссылок на безопасность.
Виртуальный или ленивый рендеринг.
Быстрое копирование кода.
Номера строк в коде.
Подсветка найденного.

Логика работы простая: одним парсером разбивается на блоки, потом попадающие в видимую область блоки парсятся уже вторым парсером и рендерятся. Можно настроить любой аспект, конечно, но лучше просто прислать пул реквест.

SamoedR Jun 22 2022 at 09:51

А вы на hugo не смотрели? Тоже можно из md делать сайты

nikitalogos Jun 24 2022 at 15:23

Спасибо, посмотрел.

Hugo - это генератор статических сайтов, а я предпочитаю писать single page applications, так что это не то, что мне нужно. Он использует парсер goldmark, написанный на go, то есть он не работает в браузере.

Демки не нашел, но зато есть обзорная статья на markdownguide - https://www.markdownguide.org/tools/hugo/

Там нет проверки вложенных цитат, но в остальном hugo вроде поддерживает все, что нужно за исключением:

подсветки синтаксиса
подстрочного регистра
надстрочного регистра

Luchnik22 Jun 26 2022 at 12:39

Кстати, есть ещё неплохой https://mdxjs.com/
Уже со всеми готовыми пакетами для полноценного парсинга markdown

Show the best of all time