Рубрика: CTO

Какую базу использовать для высоконагруженного приложения?

База данных	CAP	QPS	Масштабирование	Оптимизация	In memory/Disk based	Область применения
Apache Cassandra	AP	До 1 000 000	Горизонтальное	Write	Disk based	Большие данные, IoT
Memcached	CP	До 1 000 000	Горизонтальное	Read	In memory	Кэширование, веб-приложения
Redis	CP	До 500 000+	Горизонтальное	Read/Write	In memory	Кэширование, сессии
Amazon DynamoDB	AP	До 500 000	Автоматическое горизонтальное	Read/Write	Disk based	Веб-приложения, мобильные приложения
ClickHouse	CP	До 300 000	Горизонтальное	Read/Write	Disk based	Аналитика, большие данные
Couchbase	AP	До 200 000	Горизонтальное	Read/Write	Hybrid	Веб-приложения, мобильные приложения
PostgreSQL	CA	До 150 000	Вертикальное, репликация	Read	Disk based	Транзакционные системы, ГИС
Oracle Database	CA	До 120 000	Вертикальное, RAC кластеры	Read/Write	Disk based	Корпоративные приложения, финансы
MongoDB	CP	До 100 000	Горизонтальное и вертикальное	Read/Write	Disk based	Веб-приложения, IoT
MySQL	CA	До 100 000	Вертикальное, репликация	Read	Disk based	Веб-сайты, CMS
Etcd	CP	До 80 000	Горизонтальное	Read	Disk based	Распределенные системы, конфигурации
Apache HBase	CP	До 30 000	Горизонтальное	Write	Disk based	Большие данные, аналитика
Microsoft Azure Cosmos DB	AP	Варьируется	Горизонтальное	Read/Write	Disk based	Глобально распределенные приложения
InfluxDB	CP	Варьируется	Горизонтальное	Read/Write	Disk based	IoT, мониторинг
PostGIS	CA	Варьируется	Вертикальное, репликация	Read	Disk based	ГИС, картография
Apache Spark SQL	CP	Варьируется	Горизонтальное	Read/Write	In memory	Аналитика больших данных
OpenSearch	AP	Варьируется	Горизонтальное	Read	Disk based	Поиск, логи
CouchDB	AP	Варьируется	Горизонтальное	Read/Write	Disk based	Веб-приложения, мобильные приложения
Firebird	CA	Варьируется	Вертикальное, репликация	Read/Write	Disk based	Встраиваемые системы, локальные приложения

Примечания:

«In memory» означает, что база данных хранит данные преимущественно в оперативной памяти для быстрого доступа.
«Disk based» означает, что база данных в основном хранит данные на диске.
«Hybrid» (как в случае с Couchbase) означает, что база данных использует как память, так и диск для оптимальной производительности.
Значения QPS являются приблизительными и могут варьироваться в зависимости от конфигурации и нагрузки.

2 февраля 2025

План проведения интервью по системному дизайну
Перевод репозитория https://leetcode.com/discuss/career/229177/My-System-Design-Template

1. Ожидания от функционала [5 мин]
- Варианты использования
- Сценарии, которые не будут охвачены
- Кто будет использовать
- Сколько пользователей будет
- Шаблоны использования
2. Оценки [5 мин]
- Пропускная способность (QPS для запросов на чтение и запись)
- Ожидаемая латентность системы (для запросов на чтение и запись)
- Соотношение чтения/записи
- Оценки трафика
- Запись (QPS, объем данных)
- Чтение (QPS, объем данных)
- Оценки хранилища
- Оценки памяти
- Какие данные мы хотим хранить в кэше, если используем его
- Сколько RAM и машин нам нужно для достижения этого
- Объем данных для хранения на диске/SSD
3. Цели проектирования [5 мин]
- Требования к латентности и пропускной способности
- Согласованность vs Доступность [Слабая/сильная/итоговая => согласованность | Отказоустойчивость/репликация => доступность]
4. Высокоуровневый дизайн [5-10 мин]
- API для сценариев чтения/записи критических компонентов
- Схема базы данных
- Базовый алгоритм
- Высокоуровневый дизайн для сценариев чтения/записи
5. Глубокое погружение [15-20 мин]

Масштабирование алгоритма

Масштабирование отдельных компонентов:
- Доступность, согласованность и масштабируемость для каждого компонента
- Паттерны согласованности и доступности
Рассмотрение следующих компонентов, их интеграции и пользы:

a) DNS

b) CDN [Push vs Pull]

c) Балансировщики нагрузки [Активный-Пассивный, Активный-Активный, Уровень 4, Уровень 7]

d) Обратный прокси

e) Масштабирование уровня приложений [Микросервисы, Обнаружение сервисов]

f) БД [RDBMS, NoSQL]
- RDBMS
- Мастер-слейв, Мастер-мастер, Федерация, Шардинг, Денормализация, Оптимизация SQL
- NoSQL
- Ключ-Значение, Широкая колонка, Граф, Документ
- Быстрый поиск:
  - RAM [Ограниченный размер] => Redis, Memcached
  - AP [Неограниченный размер] => Cassandra, RIAK, Voldemort
  - CP [Неограниченный размер] => HBase, MongoDB, Couchbase, DynamoDB
g) Кэши
- Клиентское кэширование, CDN кэширование, Кэширование веб-сервера, Кэширование базы данных, Кэширование приложений, Кэш на уровне запросов, Кэш на уровне объектов
- Политики вытеснения:
- Cache aside
- Write through
- Write behind
- Refresh ahead
h) Асинхронность
- Очереди сообщений
- Очереди задач
- Обратное давление
i) Коммуникация
- TCP
- UDP
- REST
- RPC
6. Обоснование [5 мин]
- Пропускная способность каждого уровня
- Латентность между каждым уровнем
- Обоснование общей латентности
1 февраля 2025
Числа, которые должен знать каждый разработчик
Времена доступа к памяти и хранилищам
- Обращение к кэшу L1: 0.5 нс
- Обращение к кэшу L2: 7 нс
- Обращение к основной памяти: 100 нс
- Чтение 1 МБ последовательно из основной памяти: 250,000 нс
- Произвольный доступ к жесткому диску: 10,000,000 нс
- Чтение 1 МБ последовательно с жесткого диска: 20,000,000 нс[3]
Эти цифры показывают, насколько критична оптимизация работы с памятью и дисками для производительности программ.

Сетевые задержки
- Пересылка 2 КБ по сети со скоростью 1 Гбит/с: 20,000 нс
- Передача сообщения туда/обратно в одном дата-центре: 500,000 нс
- Передача пакета из Калифорнии в Нидерланды и обратно: 150,000,000 нс[3]
Понимание сетевых задержек важно при разработке распределенных систем.

Другие важные числа
- Ошибка при предсказании условного перехода: 5 нс
- Открытие/закрытие мьютекса: 25 нс
- Сжатие 1 КБ быстрым алгоритмом: 3,000 нс[3]
Эти цифры помогают оценивать эффективность различных операций в коде.

Степени двойки

Разработчикам также полезно помнить степени двойки: 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024[31]. Они часто встречаются при работе с памятью, файловыми системами и другими аспектами разработки.

Коды ошибок HTTP
- 403: доступ запрещен
- 404: страница не найдена
- 500: внутренняя ошибка сервера
- 503: сервис недоступен[31]
1 февраля 2025
План проектирования системы (System Design Outline)
Перевод и адаптация этого репозитория https://github.com/jguamie/system-design/blob/master/notes/system-design-outline.md

Это рекомендуемый подход к решению задач проектирования систем. Не все эти темы будут актуальны для конкретной задачи.
1. Функциональные требования / Уточнения / Предположения (Functional Requirements / Clarifications / Assumptions)
2. Нефункциональные требования (Non-Functional Requirements)
  1. Согласованность vs Доступность (Consistency vs Availability)
  2. Задержка (Latency)
    
    Насколько быстрой должна быть эта система?
    
    Задержка, воспринимаемая пользователем (User-perceived latency)
    
    Задержка обработки данных (Data processing latency)
  3. Безопасность (Security)
    
    Потенциальные атаки? Как их следует смягчать?
  4. Конфиденциальность (Privacy)
    
    PII (Personally Identifiable Information — Персональные данные, позволяющие идентифицировать личность), PCI (Payment Card Industry — Индустрия платежных карт) или другие пользовательские данные
  5. Целостность данных (Data Integrity)
    
    Как восстановиться после повреждения или потери данных?
  6. Соотношение чтения:записи (Read:Write Ratio)
3. API (Application Programming Interface — Интерфейс программирования приложений)
  1. Публичные и/или внутренние API?
  2. Просты ли API для понимания?
  3. Как идентифицируются сущности?
4. Схемы хранения (Storage Schemas)
  1. SQL (Structured Query Language — Язык структурированных запросов) vs NoSQL (Not Only SQL — Не только SQL, обозначает нереляционные базы данных)
  2. Очереди сообщений (Message Queues)
5. Проектирование системы (System Design)
6. Масштабируемость (Scalability)
  1. Как масштабируется система? Учитывайте увеличение как объема данных, так и трафика.
  2. Каковы узкие места? Как их следует устранять?
  3. Каковы граничные случаи? Что может пойти не так? Предполагая, что они произойдут, как их следует решать?
  4. Как мы будем проводить стресс-тестирование этой системы?
  5. Балансировка нагрузки (Load Balancing)
  6. Автомасштабирование / Репликация (Auto-scaling / Replication)
  7. Кэширование (Caching)
  8. Партиционирование (Partitioning)
  9. Репликация (Replication)
  10. Непрерывность бизнеса и аварийное восстановление (BCDR — Business Continuity and Disaster Recovery)
  11. Интернационализация / Локализация (Internationalization / Localization)
    
    Как масштабироваться на несколько стран и языков? Не предполагайте, что в США используется только английский язык.
1 февраля 2025

Рубрика: CTO

Какую базу использовать для высоконагруженного приложения?

План проведения интервью по системному дизайну

1. Ожидания от функционала [5 мин]

2. Оценки [5 мин]

3. Цели проектирования [5 мин]

4. Высокоуровневый дизайн [5-10 мин]

5. Глубокое погружение [15-20 мин]

Масштабирование алгоритма

Масштабирование отдельных компонентов:

Рассмотрение следующих компонентов, их интеграции и пользы:

6. Обоснование [5 мин]

Числа, которые должен знать каждый разработчик

Времена доступа к памяти и хранилищам

Сетевые задержки

Другие важные числа

Степени двойки

Коды ошибок HTTP

План проектирования системы (System Design Outline)