Особенности работы HTTP протокола. Протокол HTTP (HTTPS) — что это такое

Вашему вниманию предлагается описание основных аспектов протокола HTTP - сетевого протокола, с начала 90-х и по сей день позволяющего вашему браузеру загружать веб-страницы. Данная статья написана для тех, кто только начинает работать с компьютерными сетями и заниматься разработкой сетевых приложений, и кому пока что сложно самостоятельно читать официальные спецификации.

HTTP - широко распространённый протокол передачи данных, изначально предназначенный для передачи гипертекстовых документов (то есть документов, которые могут содержать ссылки, позволяющие организовать переход к другим документам).

Аббревиатура HTTP расшифровывается как HyperText Transfer Protocol , «протокол передачи гипертекста». В соответствии со спецификацией OSI , HTTP является протоколом прикладного (верхнего, 7-го) уровня. Актуальная на данный момент версия протокола, HTTP 1.1, описана в спецификации RFC 2616 .

Протокол HTTP предполагает использование клиент-серверной структуры передачи данных. Клиентское приложение формирует запрос и отправляет его на сервер, после чего серверное программное обеспечение обрабатывает данный запрос, формирует ответ и передаёт его обратно клиенту. После этого клиентское приложение может продолжить отправлять другие запросы, которые будут обработаны аналогичным образом.

Задача, которая традиционно решается с помощью протокола HTTP - обмен данными между пользовательским приложением, осуществляющим доступ к веб-ресурсам (обычно это веб-браузер) и веб-сервером. На данный момент именно благодаря протоколу HTTP обеспечивается работа Всемирной паутины.

Также HTTP часто используется как протокол передачи информации для других протоколов прикладного уровня, таких как SOAP, XML-RPC и WebDAV. В таком случае говорят, что протокол HTTP используется как «транспорт».

API многих программных продуктов также подразумевает использование HTTP для передачи данных - сами данные при этом могут иметь любой формат, например, XML или JSON.

Как правило, передача данных по протоколу HTTP осуществляется через TCP/IP-соединения. Серверное программное обеспечение при этом обычно использует TCP-порт 80 (и, если порт не указан явно, то обычно клиентское программное обеспечение по умолчанию использует именно 80-й порт для открываемых HTTP-соединений), хотя может использовать и любой другой.

Как отправить HTTP-запрос?

Самый простой способ разобраться с протоколом HTTP - это попробовать обратиться к какому-нибудь веб-ресурсу вручную. Представьте, что вы браузер, и у вас есть пользователь, который очень хочет прочитать статьи Анатолия Ализара.

Предположим, что он ввёл в адресной строке следующее:

Http://alizar.habrahabr.ru/

Соответственно вам, как веб-браузеру, теперь необходимо подключиться к веб-серверу по адресу alizar.habrahabr.ru.

Для этого вы можете воспользоваться любой подходящей утилитой командной строки. Например, telnet:

Telnet alizar.habrahabr.ru 80

Сразу уточню, что если вы вдруг передумаете, то нажмите Ctrl + «]», и затем ввод - это позволит вам закрыть HTTP-соединение. Помимо telnet можете попробовать nc (или ncat) - по вкусу.

После того, как вы подключитесь к серверу, нужно отправить HTTP-запрос. Это, кстати, очень легко - HTTP-запросы могут состоять всего из двух строчек.

Для того, чтобы сформировать HTTP-запрос, необходимо составить стартовую строку, а также задать по крайней мере один заголовок - это заголовок Host, который является обязательным, и должен присутствовать в каждом запросе. Дело в том, что преобразование доменного имени в IP-адрес осуществляется на стороне клиента, и, соответственно, когда вы открываете TCP-соединение, то удалённый сервер не обладает никакой информацией о том, какой именно адрес использовался для соединения: это мог быть, например, адрес alizar.habrahabr.ru, habrahabr.ru или m.habrahabr.ru - и во всех этих случаях ответ может отличаться. Однако фактически сетевое соединение во всех случаях открывается с узлом 212.24.43.44, и даже если первоначально при открытии соединения был задан не этот IP-адрес, а какое-либо доменное имя, то сервер об этом никак не информируется - и именно поэтому этот адрес необходимо передать в заголовке Host.

Стартовая (начальная) строка запроса для HTTP 1.1 составляется по следующей схеме:

Например (такая стартовая строка может указывать на то, что запрашивается главная страница сайта):

Ну и, конечно, не забывайте, что любая технология становится намного проще и понятнее тогда, когда вы фактически начинаете ей пользоваться.

Удачи и плодотворного обучения!

Теги: Добавить метки

Основной протокол для страниц в интернете — HTTP. Используется этот протокол каждый раз, когда вы заходите на новый сайт, когда на сайте отображается текст, картинка, когда вы нажимаете ссылки.

Весь интернет основывается на HTTP, пусть большая часть пользователей даже и не подозревают, насколько популярен в их привычной жизни HTTP.

HTTP — протокол, по которому передается гипертекст (HyperText Transfer Protocol).

На этом протоколе строится взаимодействие вашего браузера и сервера с информацией. Благодаря его простоте, браузер и сервер соединяются очень быстро. Но нам не обязательно вникать во все подробности работы протокола, мы объясним лишь базовый принцип его работы.

В Интернете можно пользоваться множеством протоколов, HTTP — лишь один многих, у которого собственные задачи с целями.

Все настолько просто, что вы уже знакомы с программным обеспечением, необходимым для работы с HTTP — это ваш браузер.

Независимо от названия браузера, к адресной строке всегда по умолчанию добавляется название протокола: «http://». Вы можете и не видеть эту надпись, если браузер ее скрывает. Но стоит только скопировать название сайта, вместе с ним в нужном месте вставится и протокол HTTP.

- Что значит приставка «http://» перед названием сайта?
- Это значит, что вы обращаетесь к ресурсу по HTTP протоколу.

Зачем создали протокол HTTP

С его помощью передают гипертекстовые документы, а проще говоря — страницы на нужных нам сайтах.

Принимает веб-страницы клиент (браузер), а отдаёт страницы сервер. Эта технология так и называется — клиент-серверная технология.

Благодаря HTTP стало возможно передавать веб-страницы в интернете. А что же содержится в самих страницах, которые пересылает нам сервер? Обыкновенный HTML-код, который поступает в браузер, которому остается только верно интерпретировать полученную информацию и показать вам готовый сайт.

Еще в 2006 году практически половина HTTP-трафика Северной Америки складывалась из потокового звука и видео.

Как работает HTTP

  1. Браузер отправляет запрос, запрашивая нужную страницу сервера.
  2. Сервер получает запрос и начинает искать страницу.
  3. Браузер получает ответ от сервера с результатами запроса:
    • Код запрашиваемой страницы и служебная информация — если страница найдена.
    • Код ошибки и служебная информация в случае сбоя.

Когда браузер дает запрос на файл, запрос содержит специальную команду HTTP. Если запрашиваемый файл и правда есть на сервере, файл отправляется. А вот принимающей странице уже стоит решить, показать файл на экране, сохранить на диск или сделать с результатом что-то еще.

Чтобы идентифицировать ресурсы в сети, протокол HTTP пользуется глобальными URI. Отличие HTTP от других протоколов — он не сохраняет свое состояние. То есть не сохраняется состояние между парой «запрос-ответ».

HTTP — это не единственный протокол, который используют в Интернете. Также используются:

  • FTP (File Transfer Protocol) — протокол передачи файлов.
  • POP (Post Office Protocol) и SMTP (Simple Mail Transport Protocol) — для обмена сообщениями электронной почты.
  • SHTTP (Secure Hypertext Transfer Protocol) — шифрованная разновидность HTTP. Информация, которая передается по этому протоколу, кодируется. Обычно безопасность важна в случае обмена конфиденциальными данными.

И другие протоколы, у которых есть одно хорошее свойство — все они работают незаметно для нас с вами.

Март 1991 года — Тим Бернерс-Ли предложил использовать HTTP.

Именно Бернерс-Ли разработал все первое, что связано с Интернетом: браузер, сервер, гиперссылки, первый сайт (info.cern.ch) Как выглядел первый сайт, можно увидеть по ссылке.

Версии HTTP со временем совершенствуются, популярной стала версия HTTP 1.1, которая позволяет на долгое время оставлять открытым соединение сервера с браузером, что сделало протокол более эффективным.

В 2015 году появился HTTP/2, который стал бинарным, изменились способы, которыми информацию разбивали на фрагменты.

Безопасность протокола HTTP

Сам HTTP не подразумевает шифрование информации. Но есть расширение для протокола, которое умеет упаковывать данные в протокол SSL или TLS.

HTTPS (S — Secure) — популярное решение, которое не позволяет перехватывать передаваемую информацию и защитить информацию от MITM- атак «man-in-the-middle» или атака посредника.

MITM по сути испорченный телефон, в котором информация подменяется намеренно. О подмене не знает ни клиент ни сервер.

Из чего состоит HTTP

Мы много упоминали, что сервер и клиент отправляют и получают запросы. Так что же содержится в этих запросах? Каждое сообщение HTTP состоит из трех частей:

  1. Стартовая строка, которая определяет тип сообщения.
  2. Заголовки, с помощью которых характеризуют тело сообщения.
  3. Тело сообщения, где содержатся уже нужные данные.

Благодаря особенностям HTTP, сумели создать поисковые машины, форумы, интернет-магазины. В интернет пришла коммерция, начали появляться интернет провайдеры и другие компании, деятельность которых проходит в сети Интернет. А все благодаря протоколу HTTP, с которым вы теперь хорошо знакомы.

В скором времени интернет перейдёт на протокол HTTP/2, который значительно оптимизирует работу сайтов, а весь мир перейдёт на новые стандарты работы в глобальной сети, новые стандарты безопасности и, в конечном счёте, стандарты скорости передачи информации. Всё это обеспечивается при помощи протокола HTTP/2 — улучшенной версии классического протокола http, на котором до сих пор работает практически весь мировой интернет. Описание нового алгоритма передачи данных в Сети.

Что это такое и зачем он нужен

HTTP, или HyperText Transfer Protocol, или протокол передачи гипертекста – набор правил и протоколов, по которым сегодня работает глобальная паутина. Он формирует правила для передачи графических файлов, текстовых сообщений, звуковых и мультимедийных файлов — иначе говоря, правила подачи визуального отображения информации в интернете. HTTP/2 – это новое поколение данных протоколов, ведь HTTP/1.1 служит с 1999 года, и с тех пор большинство современных сайтов уже не может довольствоваться поддержкой устаревшей технологии HTTP. Переход на новую версию не заставляет себя ждать.

Чем отличается http/2 от http

Разработка новой версии протокола связана с улучшением параметров производительности, защиты и простоты в эксплуатации. Всё это достигается за счёт уменьшения задержки обработки браузером основных производственных операций в интернете. При разработке помогают такие возможности как управление потоком, позволяющее контролировать скорость передачи данных, или как обработка ошибок.

При этом HTTP/2 — это лишь расширение для HTTP1, замены которого, пока что не планируется. Вторая версия протокола будет совместима с первой версией. Все преимущества новой версии со временем будут только дополнятся и улучшаться, регулярно будут вноситься изменения, HTTP/2 будет постоянно эволюционировать. Обновлённый протокол будет содержать алгоритм всех вариантов шифрования, доступных при старой версии, но со временем более подходящие варианты шифрования определённо будут открыты.

Следует понимать, что со времени появления HTTP1.1 прошло много времени, веб претерпел огромные изменения и необъятно расширился, поэтому необходимо залатать все те дыры, которые возникли за более чем десятилетний промежуток времени со времён разработки первой версии.

Возможности

Данный протокол серьёзно оптимизирует работу веб-сайтов за счёт нескольких преимуществ:

  • постоянные соединения : ранее для запроса любого отдельного URL требовалось создавать отдельные TCP-соединения, теперь существует одно соединение на все;
  • приоритеты потоков : можно устанавливать приоритетность на серверах — какие ресурсы для вас важнее;
  • сжимание заголовков : можно сжать размер HTTP-заголовка;
  • пуш-отправка данных : сервер способен отправлять вам те или иные данные ещё до запроса.

Мультиплексирование

Мультиплексирование — это метод в HTTP2 , при помощи которого возможно отправлять сразу несколько запросов, при этом ответы получаются асинхронно через единое соединение. Мультиплексирование — это сердце протокола http2. Оно позволяет вам одновременно посылать больше одного запроса, не запуская для каждого отдельное соединение.

При работе с http1, при загрузке странички, загружается HTML-страница, система видит, что ей нужны какие-то файлы: CSS, изображения, javasсriрt и т.п. Ваш браузер сначала прогружает страницу, а уже потом делает запрос на CSS. После этого запрашивается скрипт. Затем картинка и так далее. Вы можете работать только с одним из них по по очереди.

После отправки запроса система ждёт до тех пор, пока ответ не будет получен . Это не проблема браузера, но проблема самого протокола, так как браузеру необходимо ждать ответа не все эти запросы, а это занимает время. Поэтому одной из основных проблем в Интернете сегодня является медленность сети при контакте между сервером и непосредственно клиентом. Время при этом может составлять миллисекунды, что может и не особо много, но при сложении они в целом тормозят браузер — особенно учитывая то, что структура сайтов постоянно усложняется, а доступ в Интернет становится все более мобильным (с меньшей задержкой по сравнению с обычным интернетом).

HTTP / 2 позволяет отправлять сразу несколько запросов в одном и том же соединении, игнорируя всю эту последовательность. Все эти запросы проходят через Интернет на сервер параллельно. Сервер отвечает на каждый, а затем возвращает.

ВАЖНО: в HTTP/1.1 присутствует так так называемая конвейерная обработка, так же дающая возможность отправлять более одного запроса одновременно. Но она гораздо менее функциональна по сравнению с мультиплексированием.

Приоритетность

Возможность приоритизации — еще одно новшество в HTTP/2. Теперь каждому запросу может быть назначен приоритет . Существует два способа присвоения приоритета: по весу или на основе зависимостей.

При первой концепции каждому потоку присваивается вес. На основе этого веса сервер перераспределяет нагрузку меж потоками.

Второй и первичный подход HTTP/2 предполагает, что браузер сначала запрашивает сервер для возврата определенного контента на основе типа; к примеру, браузер может сначала запросить файлы CSS или JS, затем HTML, а затем изображения.

В HTTP/2 приоритезация не является обязательной, но предпочтительна, поскольку мультиплексирование не будет работать так, как предполагается. Загрузки могут быть даже медленнее , чем в HTTP/1.1. Ресурсы с наиболее низкими приоритетами будут монополизировать пропускную способность, что снижает производительность.

Что даёт приоритезация:

  • Более эфективная работа в сети.
  • Сокращение временных затрат.
  • Ускорение времени загрузки веб-страниц.
  • Оптимизация передачи данных между сервером-клиентом .

Сжатие заголовков

Сегодня веб-страницы — это в первую очередь сочетание огромного количества различных элементов: картинок, java-script, CSS и т.п. Каждый раз, когда браузер запрашивает один из таких элементов, он при этом отсылает соответствующий HTTP-заголовок. Сервер при этом присоединяет заголовок к запрошенным элементам. Это потребляет значительные ресурсы .

В HTTP/2 заголовки сжимаются . Это уменьшает объем обмена информацией между сервером и браузером. Вместо алгоритмов gziр/deflate используется HPACK, как самый удобный и простой подход к сжиманию заголовков. Это также уменьшает уязвимость от атак BREACH. Использование HPACK даёт множество преимуществ:.

  • Снятие дополнительной нагрузки и расхода ресурсов.
  • Сокращение индивидуального размера передающихся данных после сокращения заголовка.
  • Неуязвимость перед атаками безопасности .

Server push

HTTP/2 Server Push — это одна из функций повышения производительности, включенных в версию 2 протокола HTTP. Это позволяет веб-серверу заранее предоставлять информацию клиенту (ещё до запроса), которую он в будущем может запросить. HTTP/2 Server Push основан на том, что клиент, требующий ту или иную информацию, в будущем затребует другую информацию. Иначе говоря, идёт игра не опережение

Как работает Push на примере: Ваш браузер запрашивает веб-траницу (index.html в нашем примере), а сервер возвращает вам три объекта: index.html, а также два дополнительных объектоа: scripts.js и styles.css, которые хранятся в специальном кеше, зарезервированном для этой цели. Затем клиент анализирует index.html и понимает, что для загрузки страницы нужны три объекта: scripts.js, styles.css и image.jpg. Первые два уже находятся в кеше браузера, поскольку они были сохранены сервером, поэтому клиенту просто нужно запросить image.jpg на сервере, чтобы отобразить страницу.

Данная функция имеет многочисленные плюсы:

  • Ресурсы клиента сохраняются в кэше .
  • Сохраненные ресурсы могут повторно использоваться на иных веб-сайтах.
  • Клиент всегда может отказаться от своих ресурсов чтобы сохранить эффективность кэш-хранилища, или вообще отключить функцию push-сервера.

Протокол осуществляет мультиплексинг и приоритезацию потока встраиваемых данных , для того чтобы сделать передачу данных более эффективной и производительной, что очевидно если посмотреть на другие потоки запросов-ответов.

Ssl и шифрование

Переходя на HTTPS/2, вы автоматом переходите на HTTPS , то есть на защищённый режим работы в сети. При этом это единственный режим, в котором будет работать веб-браузер. HTTPS будет шифровать абсолютно весь интернет-трафик и потребует наличия сертификата (сегодня обычный DV-сертификат вы можете найти не потратив ни копейки, к примеру через WoSign SSL certificate, или через Lets Encrypt, хотя Google может прекратить доверие их сертификатам в любой момент, поэтому нужно внимательно следить за повесткой дня).

Бинарность

HTTP/2 – это бинарный протокол.Бинарные протоколы более эффективны для анализа и уменьшения кол-ва ошибок, чем текстовые протоколы, в которых люди пишут запросы вручную через TELNET. Бинарность ускоряет передачу данных и меньше нагружает клиента, делая реализацию задач гораздо проще.

Бинарность новой версии протокола необходима для того, чтобы упростить формирование пакетов, как и их распознавания. Дни HTTP/1.1 во многом стали сочтены потому, что стало понятно, что определять начало и конец пакета стало слишком времязатратно. Пользуясь преимуществами и новшествами данного протокола мы избегаем бесконечных повторений и записей одного и того же, оптимизируя таким образом собственную работу.

Помимо этого, теперь можно очень просто разделить часть связанную с самим протоколом и с пакетом данных, в отличие от устаревшего HTTP1, где это всё было спонтанно перемешано.

Итак, вот основные преимущества бинарного протокола :

  • Очень небольшие дополнительные расходы во время анализа данных .
  • Гораздо меньшая подверженность ошибкам, по сравнению с предыдущей версией протокола.
  • Большая лёгкость в освоении сетевого пространства.
  • Большая эффективность в применении сетевых ресурсов.
  • Ликвидация всех дыр в безопасности и шифровании и регулярных атак, которые были связаны с тем, что HTTP/1.1 базируется на текстовой основе.
  • Сами по себе уникальные возможности HTTP/2, такие как push, мультиплексинг, выстраивание приоритетов, управление потоками, а также оптимизация работы в сети.
  • Упрощение обработки команд и их реализации .
  • Ускорение передачи данных между клиентом и сервером.
  • Существенное снижение сетевых задержек и увеличение пропускной способности.

Поддержка браузерами

На сегодняшний день абсолютное большинство актуальных браузеров: как десктопных, так и мобильных, поддерживают технологию HTTP/2. Первыми из них стали такие гиганты, как Google Chrome и Mozzila Firefox, которые поддерживают данный протокол уже много лет. Позже, видимо следуя их примеру, компания Apple в 2014-м году добавила в свой браузер Сафари поддержку технологии. После этого уже и менее крупные браузеры стали работать в данном направлении. При этом браузер IE Explorer требует версии Windows не меньше 8, чтобы работать с данным протоколом.

Мобильные браузеры не отстают, и уже подключили протокол в большинство существующих платформ . Это касается Андроид-браузера, Хром для Андроида и iOS, Сафари, начиная с iOS 8 — данные мобильные браузеры уже поддерживают HTTP/2. При этом, с течением времени и прониканием технологии в повседневность, зона распространения также постоянно расширяется.

Поисковая оптимизация (SEO)

Безусловно, большинство тех, кто владеет или когда-то владел собственным ресурсом поймут, . Одним из важнейших факторов по которым сайты ранжируются для поисковиков — это средняя скорость, с которой сайты подгружаются.

Таким образом, ресурсы работающие по новой версии протокола HTTP, будут получать бонус в ранжировании как раз за счёт скорости прогрузки сайта, ведь . Ещё один плюс заключается в том, что при переходе на http2 вы автоматически переходите на HTTPS, и в итоге также получаете бонус в ранжировании поисковых систем также и использование HTTPS.

Оптимизация сайтов

Для предыдущей версии протокола использовались различные оптимизации — это было необходимо, чтобы обойти дыры и ограничения, существующие в HTTP/1. Некоторые из этих оптимизационных решений могут работать и в обновленной версии протокола, но от многих придётся отказаться, либо, как минимум, модифицировать. Хотя часть из них вообще попросту не потребуется, ведь новая версия протокола — это просто расширение старой версии, сайты в любом случае будут работать со всеми старыми оптимизациями. Вот на какие нужно обратить внимание:

  1. Объединение картинок в CSS-спрайты . В первой версии протокола эффективно объединять маленькие и средние изображения в один спрайт, т.к. требуется единственное соединение. Зато если картинка только одна — прогрузить спрайт придётся полностью. В HTTP2 благодаря мультиплексу есть возможность многочисленных запросов и удобнее загружать несколько маленьких картинок одновременно. Хотя иногда по прежнему рекомендуется объединять изображения в спрайт, чтобы улучшить качество сжатия и загрузочный объём.
  2. Возможность встраивания картинок в тело страницы при помощи data: URI . Это ещё одно распространённое решение проблемы с множественными запросами в старой версии протокола: картинки встраивались в CSS через data: URI. Размер файла при этом может заметно увеличиться, зато потребуется не так много соединений. В HTTP2 данный подход всё ещё может быть актуален, однако не послужит увеличению производительности.
  3. Объединение файлов JS и CSS в единый файл . Таким образом когда загружается страница, сразу загружаются таблицы стилей и код javascript. Помимо этого, браузер кэширует весь этот файл и даже минимальные изменения в коде потребуют перезагрузки всего файла. Мультиплексирование полностью решает данную проблему и избавляет от этого неудобства.
  4. Доменный шардинг . В старой версии http кол-во открытых соединений ограничено. Если необходимо загрузить множество ресурсов сразу, то часто можно прибегнуть к их получению с разных доменов.либо поддоменов основного домена. HTTP/2 создаёт возможность создавать столько ресурсов, сколько заблагорассудится, фактически избавляя от необходимости в данной функции, при этом доменный шардинг отрицательно сказывается на производительности из-за множества открытых TCP-соединений.

Как подключить

Для введения протокола в эксплуатацию не потребуется что-то менять в привычном рабочем пространстве: не потребуется менять ни URL страниц, ни делать редиректов, менять ссылки, делать разметок или прописывать какие-то дополнительные данные для защиты. При подключении HTTP2 к сайту просто понадобится включить HTTPS и провести все соответствующие процедуры, ничего более, таким образом будет включено шифрование и обеспечена защита сайта.

Для того чтобы проверить наличие поддержки в браузере протокола HTTP2 можно использовать специальные расширения для браузеров Mozzila Firefox и Google Chrome, а также использовать инструмент проверки скорость на веб-0сайте Айри.рф: после проверки должна загореться одна из плашек — если браузер поддерживает протокол HTTP2, то в итогах проверки появится зеленая плашка [НТTР/2.0]. Существуют и другие интернет-сервисы для проверки поддержки модернизированного протокола, один из них — это сервис от http2.pro.

Заключение

Новая эра, в которой будет доминировать HTTP/2 уже почти на носу: протокол уже поддерживается многими браузерами. Эпоха нового веб будет гораздо более быстрой, более безопасной и очень комфортной для использования, уже можно совершенно точно принять то, что http2 — это тот стандарт, по которому мы будем путешествовать в глобальной сети в ближайшем будущем.

6.1 Служба WWW

Служба WWW (World Wide Web) - предназначена для обмена гипертекстовой информацией.

Проект был предложен в 1989 году. В 1993 появился первый браузер.

WWW построена по схеме "клиент-сервер".

Браузер (Internet Explorer, Opera ...) является мультипротокольным клиентом и интерпретатором HTML. И как типичный интерпретатор, клиент в зависимости от команд (тегов) выполняет различные функции. В круг этих функций входит не только размещение текста на экране, но обмен информацией с сервером по мере анализа полученного HTML-текста, что наиболее наглядно происходит при отображении встроенных в текст графических образов.

Сервер HTTP (Apeche, IIS ...) обрабатывает запросы клиента на получение файла (в самом простом случае).

Взаимодействие клиент и сервера по протоколу HTTP.

В начале служба WWW базировалась на трех стандартах:

    CGI (Common Gateway Interface) - универсальный интерфейс шлюзов. Создан для взаимодействия HTTP - сервера с другими программами, установленными на сервере (например, СУБД).

6.2 Протокол HTTP

Первый документ (но не стандарт) - RFC1945 (Hypertext Transfer Protocol -- HTTP/1.0 T. Berners-Lee, R. Fielding, H. Frystyk May 1996)

Некоторые возможности программы:

    задание глубины сканирования сайта, и внешних ссылок

    задание типа файлов (расширение) для скачивания, например можно скачать только графику.

    выставить лимит по размеру файла.

    сканирование графических карт.

    задание расписания работы, встроенный Scheduler.

    задание название клиента, если есть ограничение для некоторых клиентов.

    задание количества одновременно скачиваемых файлов.

HTTP - это протокол передачи гипертекста между распределёнными системами. По сути, http является фундаментальным элементом современного Web-а. Как уважающие себя веб разработчики, мы должны знать о нём как можно больше.

Давайте взглянем на этот протокол через призму нашей профессии. В первой части пройдёмся по основам, посмотрим на запросы/ответы. В следующей статье разберём уже более детальные фишки, такие как кэширование, обработка подключения и аутентификация.

Также в этой статье я буду, в основном, ссылаться на стандарт RFC 2616 : Hypertext Transfer Protocol -- HTTP/1.1.

Основы HTTP

HTTP обеспечивает общение между множеством хостов и клиентов, а также поддерживает целый ряд сетевых настроек.

В основном, для общения используется TCP/IP, но это не единственный возможный вариант. По умолчанию, TCP/IP использует порт 80, но можно заюзать и другие.

Общение между хостом и клиентом происходит в два этапа: запрос и ответ. Клиент формирует HTTP запрос, в ответ на который сервер даёт ответ (сообщение). Чуть позже, мы более подробно рассмотрим эту схему работы.

Текущая версия протокола HTTP - 1.1, в которой были введены некоторые новые фишки. На мой взгляд, самые важные из них это: поддержка постоянно открытого соединения, новый механизм передачи данных chunked transfer encoding, новые заголовки для кэширования. Что-то из этого мы рассмотрим во второй части данной статьи.

URL

Сердцевиной веб-общения является запрос, который отправляется через Единый указатель ресурсов (URL). Я уверен, что вы уже знаете, что такое URL адрес, однако для полноты картины, решил всё-таки сказать пару слов. Структура URL очень проста и состоит из следующих компонентов:

Протокол может быть как http для обычных соединений, так и https для более безопасного обмена данными. Порт по умолчанию - 80. Далее следует путь к ресурсу на сервере и цепочка параметров.

Методы

С помощью URL, мы определяем точное название хоста, с которым хотим общаться, однако какое действие нам нужно совершить, можно сообщить только с помощью HTTP метода. Конечно же существует несколько видов действий, которые мы можем совершить. В HTTP реализованы самые нужные, подходящие под нужды большинства приложений.

Существующие методы:

GET : получить доступ к существующему ресурсу. В URL перечислена вся необходимая информация, чтобы сервер смог найти и вернуть в качестве ответа искомый ресурс.

POST : используется для создания нового ресурса. POST запрос обычно содержит в себе всю нужную информацию для создания нового ресурса.

PUT : обновить текущий ресурс. PUT запрос содержит обновляемые данные.

DELETE : служит для удаления существующего ресурса.

Данные методы самые популярные и чаще всего используются различными инструментами и фрэймворками. В некоторых случаях, PUT и DELETE запросы отправляются посредством отправки POST, в содержании которого указано действие, которое нужно совершить с ресурсом: создать, обновить или удалить.

Также HTTP поддерживает и другие методы:

HEAD : аналогичен GET. Разница в том, что при данном виде запроса не передаётся сообщение. Сервер получает только заголовки. Используется, к примеру, для того чтобы определить, был ли изменён ресурс.

TRACE : во время передачи запрос проходит через множество точек доступа и прокси серверов, каждый из которых вносит свою информацию: IP, DNS. С помощью данного метода, можно увидеть всю промежуточную информацию.

OPTIONS : используется для определения возможностей сервера, его параметров и конфигурации для конкретного ресурса.

Коды состояния

В ответ на запрос от клиента, сервер отправляет ответ, который содержит, в том числе, и код состояния. Данный код несёт в себе особый смысл для того, чтобы клиент мог отчётливей понять, как интерпретировать ответ:

1xx: Информационные сообщения

Набор этих кодов был введён в HTTP/1.1. Сервер может отправить запрос вида: Expect: 100-continue, что означает, что клиент ещё отправляет оставшуюся часть запроса. Клиенты, работающие с HTTP/1.0 игнорируют данные заголовки.

2xx: Сообщения об успехе

Если клиент получил код из серии 2xx, то запрос ушёл успешно. Самый распространённый вариант - это 200 OK. При GET запросе, сервер отправляет ответ в теле сообщения. Также существуют и другие возможные ответы:

  • 202 Accepted : запрос принят, но может не содержать ресурс в ответе. Это полезно для асинхронных запросов на стороне сервера. Сервер определяет, отправить ресурс или нет.
  • 204 No Content : в теле ответа нет сообщения.
  • 205 Reset Content : указание серверу о сбросе представления документа.
  • 206 Partial Content : ответ содержит только часть контента. В дополнительных заголовках определяется общая длина контента и другая инфа.

3xx: Перенаправление

Своеобразное сообщение клиенту о необходимости совершить ещё одно действие. Самый распространённый вариант применения: перенаправить клиент на другой адрес.

  • 301 Moved Permanently : ресурс теперь можно найти по другому URL адресу.
  • 303 See Other : ресурс временно можно найти по другому URL адресу. Заголовок Location содержит временный URL.
  • 304 Not Modified : сервер определяет, что ресурс не был изменён и клиенту нужно задействовать закэшированную версию ответа. Для проверки идентичности информации используется ETag (хэш Сущности - Enttity Tag);

4xx: Клиентские ошибки

Данный класс сообщений используется сервером, если он решил, что запрос был отправлен с ошибкой. Наиболее распространённый код: 404 Not Found. Это означает, что ресурс не найден на сервере. Другие возможные коды:

  • 400 Bad Request : вопрос был сформирован неверно.
  • 401 Unauthorized : для совершения запроса нужна аутентификация. Информация передаётся через заголовок Authorization.
  • 403 Forbidden : сервер не открыл доступ к ресурсу.
  • 405 Method Not Allowed : неверный HTTP метод был задействован для того, чтобы получить доступ к ресурсу.
  • 409 Conflict : сервер не может до конца обработать запрос, т.к. пытается изменить более новую версию ресурса. Это часто происходит при PUT запросах.

5xx: Ошибки сервера

Ряд кодов, которые используются для определения ошибки сервера при обработке запроса. Самый распространённый: 500 Internal Server Error. Другие варианты:

  • 501 Not Implemented : сервер не поддерживает запрашиваемую функциональность.
  • 503 Service Unavailable : это может случиться, если на сервере произошла ошибка или он перегружен. Обычно в этом случае, сервер не отвечает, а время, данное на ответ, истекает.

Форматы сообщений запроса/ответа

На следующем изображении вы можете увидеть схематично оформленный процесс отправки запроса клиентом, обработка и отправка ответа сервером.

Давайте посмотрим на структуру передаваемого сообщения через HTTP:

Message = *() CRLF [] = Request-Line | Status-Line = Field-Name ":" Field-Value

Между заголовком и телом сообщения должна обязательно присутствовать пустая строка. Заголовков может быть несколько:

Тело ответа может содержать полную информацию или её часть, если активирована соответствующая возможность (Transfer-Encoding: chunked). HTTP/1.1 также поддерживает заголовок Transfer-Encoding.

Общие заголовки

Вот несколько видов заголовков, которые используются как в запросах, так и в ответах:

General-header = Cache-Control | Connection | Date | Pragma | Trailer | Transfer-Encoding | Upgrade | Via | Warning

Что-то мы уже рассмотрели в этой статье, что-то подробней затронем во второй части.

Заголовок via используется в запросе типа TRACE, и обновляется всеми прокси-серверами.

Заголовок Pragma используется для перечисления собственных заголовков. К примеру, Pragma: no-cache - это то же самое, что Cache-Control: no-cache. Подробнее об этом поговорим во второй части.

Заголовок Date используется для хранения даты и времени запроса/ответа.

Заголовок Upgrade используется для изменения протокола.

Transfer-Encoding предназначается для разделения ответа на несколько фрагментов с помощью Transfer-Encoding: chunked. Это нововведение версии HTTP/1.1.

Заголовки сущностей

В заголовках сущностей передаётся мета-информация контента:

Entity-header = Allow | Content-Encoding | Content-Language | Content-Length | Content-Location | Content-MD5 | Content-Range | Content-Type | Expires | Last-Modified

Все заголовки с префиксом Content- предоставляют информацию о структуре, кодировке и размере тела сообщения.

Заголовок Expires содержит время и дату истечения сущности. Значение “never expires” означает время + 1 код с текущего момента. Last-Modified содержит время и дату последнего изменения сущности.

С помощью данных заголовков, можно задать нужную для ваших задач информацию.

Формат запроса

Запрос выглядит примерно так:

Request-Line = Method SP URI SP HTTP-Version CRLF Method = "OPTIONS" | "HEAD" | "GET" | "POST" | "PUT" | "DELETE" | "TRACE"

SP - это разделитель между токенами. Версия HTTP указывается в HTTP-Version. Реальный запрос выглядит так:

GET /articles/http-basics HTTP/1.1 Host: www.articles.com Connection: keep-alive Cache-Control: no-cache Pragma: no-cache Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8

Список возможных заголовков запроса:

Request-header = Accept | Accept-Charset | Accept-Encoding | Accept-Language | Authorization | Expect | From | Host | If-Match | If-Modified-Since | If-None-Match | If-Range | If-Unmodified-Since | Max-Forwards | Proxy-Authorization | Range | Referer | TE | User-Agent

В заголовке Accept определяется поддерживаемые mime типы, язык, кодировку символов. Заголовки From, Host, Referer и User-Agent содержат информацию о клиенте. Префиксы If- предназначены для создания условий. Если условие не прошло, то возникнет ошибка 304 Not Modified.

Формат ответа

Формат ответа отличается только статусом и рядом заголовков. Статус выглядит так:

Status-Line = HTTP-Version SP Status-Code SP Reason-Phrase CRLF

  • HTTP версия
  • Код статуса
  • Сообщение статуса, понятное для человека

Обычный статус выглядит примерно так:

HTTP/1.1 200 OK

Заголовки ответа могут быть следующими:

Response-header = Accept-Ranges | Age | ETag | Location | Proxy-Authenticate | Retry-After | Server | Vary | WWW-Authenticate

  • Age время в секундах, когда сообщение было создано на сервере.
  • ETag MD5 сущности для проверки изменений и модификаций ответа.
  • Location используется для перенаправления и содержит новый URL адрес.
  • Server определяет сервер, где было сформирован ответ.

Думаю, на сегодня теории достаточно. Теперь давайте взглянем на инструменты, которыми мы можем пользоваться для мониторинга HTTP сообщений.

Инструменты для определения HTTP трафика

Существует множество инструментов для мониторинга HTTP трафика. Вот несколько из них:

Наиболее часто используемый - это Chrome Developers Tools:

Если говорить об отладчике, можно воспользоваться Fiddler :

Для отслеживания HTTP трафика вам потребуется curl, tcpdump и tshark.

Библиотеки для работы с HTTP - jQuery AJAX

Поскольку jQuery очень популярен, в нём также есть инструментарий для обработки HTTP ответов при AJAX запросах. Информацию о jQuery.ajax(settings) можете найти на официальном сайте .

Передав объект настроек (settings), а также воспользовавшись функцией обратного вызова beforeSend, мы можем задать заголовки запроса, с помощью метода setRequestHeader().

$.ajax({ url: "http://www.articles.com/latest", type: "GET", beforeSend: function (jqXHR) { jqXHR.setRequestHeader("Accepts-Language", "en-US,en"); } });

Если хотите обработать статус запроса, то это можно сделать так:

$.ajax({ statusCode: { 404: function() { alert("page not found"); } } });

Итог

Вот такой вот он, тур по основам протокола HTTP. Во второй части будет ещё больше интересных фактов и примеров.