Как-то давно написал
такой скрипт для парсинга ссылок с любого сайта. Там есть регулярка, кроме того, скрипт позволяет написать любую свою регулярку и выдрать с нужной страницы что-то ещё.
Ещё тогда же написал более
продвинутый парсер, чисто для ссылок, он раскрывает относительные ссылки, а из названия ссылок удаляет html теги (поэтому некоторые ссылки могут не иметь названия, если ссылка имеет вид картинки, например).
Оба скрипта определяют кодировку страницы и результат выводят в utf-8, конвертируя если требуется.
Сообщение от Diablo1909
А не лучше будет так ? ->
|
Ссылки бывают относительными и не только http/https