miraage Aug 2 2012 at 15:14

Хабрастатс

3 min

1.2K

PHP*Programming*

Recovery Mode

+23

Comments 56

tyomitch Aug 2 2012 at 15:26

проблема была в знаке минус, который почему-то шел закодированно как-то

Вместо минусов перед рейтингом стоит Unicode Character 'EN DASH' (U+2013)

miraage Aug 2 2012 at 15:29

Спасибо, намотал на ус.

k_d Aug 2 2012 at 15:35

▌▌▀(МоA8♠

k_d Aug 2 2012 at 15:35

извините, вырвалось

Anonym Aug 2 2012 at 16:01

Демо: habrastats.m.tom.ru
Мой дорогой сервер, давай, до свидания. Возможно, злобный хабраэффект тебя не победит.

kafeman Aug 2 2012 at 16:04

Зря, скрипт дырявый в плане безопасности, только для локалхоста. Не проверяется даже, является ли id топика вообще числом.

miraage Aug 2 2012 at 16:08

Вы уверены?
github.com/miraage/habrastats/blob/master/habraparser.php#L40

-1

kafeman Aug 2 2012 at 16:10

Я проверял версию, которую загрузил Anonym — как минимум XSS в чистом виде там есть, попробуйте ввести в качестве id <script>alert(1)</script>

kafeman Aug 2 2012 at 16:11

1487<script>alert(1)</script>95

Вот так, если точнее

Anonym Aug 2 2012 at 16:11

Попробовал. Ничего не произошло. Что я делаю не так?

kafeman Aug 2 2012 at 16:16

Странно, я проверял на вашем сервере — выскакивал alert и в коде содержался введенный id без фильтрации. Вы точно ничего не меняли? :-)

Anonym Aug 2 2012 at 16:17

Пробовал без изменений. В хроме алерта не было.
Сейчас на всякий случай добавил еще проверку, чтобы наверняка.

barmaley_exe Aug 2 2012 at 16:24

Хром хитрый — у него защита от XSS атак есть. Надо смотреть исходный код или в других браузерах.

Anonym Aug 2 2012 at 16:09

$id = intval(abs($id));
$dom->loadHTML(file_get_contents(sprintf('http://habrahabr.ru/post/%d/', $id)));

При беглом просмотре кода не нашел ничего подозрительного.

Dimoniusis Aug 3 2012 at 00:13

Логичнее делать abs ПОСЛЕ приведения к intval ;)

karter Aug 2 2012 at 17:00

Вот тут я два раза, это нормально?)

karter Aug 2 2012 at 17:01

Два раза в топе по плюсам (4 и 5)

Anonym Aug 2 2012 at 17:02

Это вопрос не ко мне, а к автору.
Уважаемый Miraage, это нормально?

karter Aug 2 2012 at 17:22

Да-да, исправился ниже :)

karter Aug 2 2012 at 17:02

Извините, вопрос не вам)

miraage Aug 2 2012 at 17:11

Разные комменты с одинаковым автором.
Записал в TODO.
Спасибо.

karter Aug 2 2012 at 17:14

Ага, ясно. Спасибо)

Sterhel Aug 3 2012 at 16:46

Читер!

sdevalex Aug 2 2012 at 18:06

У вас плохое условие на проверку кеша, заново запускает сбор для таких значений:
— 148795''
— 148795'''
— 148795''''
— 148795'''''

Если набросать маленький скрипт, то возможно и без хаброэффекта можно ваш сервер положить.

Anonym Aug 2 2012 at 18:11

Я особо не надеялся, что он вообще выживет.
Сейчас кэшируется всё как есть


proxy_cache_valid 200 301 302 304 20m;
proxy_cache_key "$request_method|$http_if_modified_since|$http_if_none_match|$host|$request_uri";

Так как URL для 148795'' и 148795''' разный, то и кэшируются они независимо.
Не подскажете, как сделать правильно?

sdevalex Aug 2 2012 at 18:53

На backend делайте примерно так…

if(...ID имеет лишние символы)
{
    header('location: ссылка с нормальным ID');
    exit(0);
}

Anonym Aug 3 2012 at 07:32

Лучше конечно бы средствами nginx это сделать, но пока сделал как вы написали.

sdevalex Aug 3 2012 at 16:44

Насколько я знаю, nginx так не умеет.

VBart Aug 4 2012 at 00:06

Вы шутите, сударь? Даже без привлечения встроенного Perl или Lua:

map $arg_id  $id_digits {
    "~(\d+)" $1;
}

if ($arg_id ~ "[^\d]") {
    return 302 http://example.com/app?id=$id_digits;
}

barmaley_exe Aug 2 2012 at 16:25

А я использовал JS. Писать на чём-либо вне браузера мне сразу расхотелось, ибо нужен приличный парсер, а в браузере уже всё готово — есть DOM (да ещё и jQuery на хабре используется).

Поэтому по-быстрому был написан скрипт, генерирующий статистику.
При желании это можно оформить в виде какого-нибудь букмарклета, только основательно подпилив — производительностью скрипт не блещет, так что его следует либо оптимизировать, либо модифицировать так, чтобы он не блокировал JS поток (Вряд ли тут помогут воркеры, т.к. вся нагрузка, на мой взгляд, идёт из взаимодействия с DOM, так что первый вариант, пожалуй, перспективнее).

miraage Aug 2 2012 at 16:31

Вы мне подали замечательную идею.
Надо будет написать userscript.
Я вообще забыл про их существование.

spmbt Aug 2 2012 at 18:25

Кстати, меня давно просили сделать какой-нибудь рейтинг комментариев для любой статьи на Хабре (в рамках юзерскрипта HabAjax) — habrajax.reformal.ru/proj/?ia=261505, но никаких конкретных предложений дизайна не было.

То, что вы придумываете сейчас — это, практически, тоже рейтинг комментариев 1-го уровня. Если придумается что-то, годящееся вообще как полезный инструмент, можно выполнить в виде плагина к HabrAjax. Если будет полезно вообще для ориентировки в комментариях, можно встроить в скрипт.

miraage Aug 2 2012 at 18:26

Посмотрю.

spmbt Aug 2 2012 at 18:31

И забыл добавить, что вариант с использованием jQuery из страниц Хабра в Хроме работать не будет, если делать так, как сделано у barmaley_exe. У меня оно без jQuery, что не сильно утяжеляет, т.к. есть .querySelector().

miraage Aug 2 2012 at 18:38

Я вообще не очень то и люблю js фреймворки.

barmaley_exe Aug 2 2012 at 18:50

Выпилить оттуда jQuery не составит никакого труда. Я использовал его лишь потому, что писать document.querySelectorAll, а потом делать из коллекции массив слишком утомительно.

spmbt Aug 2 2012 at 20:39

Хм,

dSA = function(q){return [].slice.call(document.querySelectorAll(q) );}

Ну, и для проверки, вставил в HabrAjax такую штуку:

tA = dSA('.post .title');
'test'.wcl(tA , tA.length );

Выводит настоящий массив заголовков аннотаций (если страница — Лента, Избранное или прочий список) и его длину.

barmaley_exe Aug 2 2012 at 20:50

dSA = function(q){return [].slice.call(document.querySelectorAll(q) );}

Аж на 71 символ длиннее, чем если использовать jQuery :-)

А ещё это не освобождает от необходимости конвертирования childNodes в массив тем же образом (хотя, быть может, хватило бы node.querySelector('>div.message'), но это тоже длинно, да и требует проверки)

P.S. Лучше тогда уж как-то так

dSA = function(q, c){return [].slice.call(document.querySelectorAll.call(c || document, q) );}

Что длиннее уже на 94 символа :-)

spmbt Aug 3 2012 at 01:30

dSA = function(q, c){return [].slice.call((c||document).querySelectorAll.call(q) );}

childNodes не очень хорошо, т.к. захватывает все текстовые ноды, их фильтровать потом… В общем, это решается такими мелкими функциями и получается микрооболочка. Наверное, именно так делают Zepto и прочие легковесные специализированные либы, лучше подходящие под скрипты без IE, чем jQuery.

barmaley_exe Aug 3 2012 at 17:04

Вы вызываете querySelectorAll с q в качестве this.
Вот поэтому лучше переиспользовать уже существующий код — меньше кода = меньше ошибок.

spmbt Aug 3 2012 at 20:57

Вы вызываете querySelectorAll с q в качестве this.

Да, чтобы вернуть его как массив. А что в этом особенного?

Вот поэтому лучше переиспользовать уже существующий код

Подразумевается jQuery?
Это зависит от степени понимания того, что вы делаете своим кодом. Хочется 100 раз проверенный селектор jQuery — ваше право, только вы знаете, что приведёт к цели быстрее. Но вообще, мнение, что мощная библиотека с большей вероятностью избавит от ошибок, не совсем верно. Чем мощнее библиотека, тем больше в ней ошибок. А JS — всегда более проверенный язык, чем некоторая библиотека на нём, и ошибки с версиями браузеров появляются реже, и на тех же библиотеках сказываются.

MrMig Aug 3 2012 at 02:21

Использовать jQuery только потому, что его использование «Аж на 71 символ короче»… Это как-то оооочень странно :)

barmaley_exe Aug 3 2012 at 17:01

Как по мне, так изобретать свой велосипед, когда доступа заботливо подключенная разработчиками Хабра мощная библиотека — вот что странно.
Впрочем, ежели Вам так нравится велосипедостроение с последующих хождением по граблям…

MrMig Aug 3 2012 at 17:33

Ну, querySelectorAll — это не велосипед и не грабли. К тому же, если оформлять js-based решение как юзерскрипт или экстеншн, то нужно будет подключать фреймворк отдельно.

barmaley_exe Aug 3 2012 at 17:56

— querySelectorAll'у требуется обвязка в виде конвертации результатов из коллекции в массив.
— Для выбора прямых наследников узла по селектору нужно либо итерировать childNodes (возможно, избавляясь от текстовых узлов), либо как-то извращаться с querySelectorAll (как именно — не очевидно на первый взгляд).
— node.querySelectorAll — слишком длинно (да, в консоли есть автокомплит, но он не всегда работает).

~~На стадии прототипирования~~ Когда всё, что требуется — несколько строк разметки статистики о топике, важно быстро получить рабочее решение, а не тратить сотни человекочасов, планируя и реализуя гибкую и масштабируемую архитектуру.

P.S. Все рассуждения были проведены в рамках моего решения.
P.P.S. Резюмируя всё вышесказанное, напомню ещё раз (или проясню, если это не очевидно), что инструменты я выбирал, стараясь максимизировать скорость написания скрипта. Ни о какой мнимой задаче последующей доработки скрипта речи, разумеется, не было.

MrMig Aug 3 2012 at 18:29

Так дополните ваше решение более юзабельной оболочкой — оберните его в юзерскрипт (принципы есть в статье), да добавьте хотя бы кнопку на странице, которая будет пересчитывать значения и писать их в алерт

barmaley_exe Aug 3 2012 at 18:43

Сомневаюсь, что это кому-либо нужно.

MrMig Aug 3 2012 at 18:47

Очевидно, инициатору хабрафуршета это нужно.

Вы же не поленились написать скриптец, так почему бы ему не приделать простейший UI? Всё же написать юзерскрипт проще и быстрее, чем экстеншен, зато устанавливается он практически так же.

К тому же, этот скилл может вам пригодиться для разработки аналогичных «микроинструментов многоразового использования»

skywatcher Aug 2 2012 at 18:39

Насчет бага: может это поможет: php.net/manual/en/function.urldecode.php?

-1

miraage Aug 2 2012 at 18:57

Написано же «Decodes any %## encoding in the given string. Plus symbols ('+') are decoded to a space character.»

miraage Aug 2 2012 at 18:58

А вот комментарии из ссылки я на заметочку возьму. Спасибо :)

cybd Aug 2 2012 at 19:10

Не отображает статистику для 100К поста habrastats.m.tom.ru/habrastats.php?id=100000, возможно ошибка о невозможности выделить память?

Anonym Aug 3 2012 at 08:50

А вот это мне совсем непонятно. Для 1М поста отображает, для 100001 тоже. Странный какой-то баг.

cybd Aug 3 2012 at 10:33

В логах что пишет?

Anonym Aug 3 2012 at 12:50

[Fri Aug 03 15:45:39 2012] [error] [client 91.221.x.x] PHP Fatal error:  Call to a member function getAttribute() on a non-object in /.../habraparser.php on line 107, referer: http://habrahabr.ru/post/148939/
[Fri Aug 03 15:45:39 2012] [error] [client 91.221.x.x] PHP Stack trace:, referer: http://habrahabr.ru/post/148939/
[Fri Aug 03 15:45:39 2012] [error] [client 91.221.x.x] PHP   1. {main}() /.../habrastats.php:0, referer: http://habrahabr.ru/post/148939/
[Fri Aug 03 15:45:39 2012] [error] [client 91.221.x.x] PHP   2. Habraparser->getOutput() /.../habrastats.php:19, referer: http://habrahabr.ru/post/148939/
[Fri Aug 03 15:45:39 2012] [error] [client 91.221.x.x] PHP   3. Habraparser->topQuestions() /.../habraparser.php:64, referer: http://habrahabr.ru/post/148939/

miraage Aug 3 2012 at 14:18

Посмотрю, спасибо.

Show the best of all time