Как тестировать LLM-фичи: пишем автоэвалы и гоняем их в CI
У нас в проде живёт бот, который отвечает на вопросы по документации продукта — обычный RAG. Первые месяца три мы катили его,…
Latest Testing & QA news from Tech News
У нас в проде живёт бот, который отвечает на вопросы по документации продукта — обычный RAG. Первые месяца три мы катили его,…
Even moderately sized data centers can have an outsized local impact.
The IPO market is back, and it’s not the same companies leading the charge. FAANG had a good run, but a new acronym is …
Our early testing has already shown that Siri AI knows when to shut up, and that's very much by design. In an interview with Mostly Human, Craig Feder…
Before modernizing legacy systems with AI, assess your verification capacity. Migration requires testing, observability, human judgment, and methodolo…
The impact AI is making on the world’s workforce is being felt across every industry, but perhaps nowhere more acutely The post “AI is dis…
Decart is launching Oasis 3, a real-time world model that generates photorealistic driving environments for autonomous vehicle testing, now available …
See how AI upskilling for finance helps testing teams adopt AI with practical training, governance, traceability, and measurable impact. The post AI U…
Рабочий AI-навык для разработки быстро обрастает правилами: ревью, риски, проверки, handoff, итоговый ответ. В статье рассказываю, как я перестал утяж…
The New York State legislature passed a one-year moratorium on new large data centers, the first statewide ban of its kind if Democratic Governor Kath…
Hyperscalers have come under scrutiny for their impact on water quality and availability.
3 июня 2026 года Эндрю Триджелл, один из авторов rsync (и создатель Samba), написал пост, перевод которого предлагается ниже. Поводом с…
Critics say Trump plan to test AI models is short-sighted, performative.
In the face of widespread backlash to the AI data center buildout throughout the US, Google is touting its efforts to minimize the environmental impac…
Microsoft on Tuesday took the wraps off Adaptive Spec-driven Scoring for Evaluation and Regression Testing, an open source framework for spinning up A…
Локальные LLM сейчас — это действительно мощный инструмент. Они уже вплотную приблизились к проприетарным моделям вроде Claude, особенно в задачах код…
История создания мультиагентной AI-системы, которая управляет корпоративной ИТ-инфраструктурой: следит за системами мониторинга, восстанавливает серви…
Claude Code у меня появился в марте 2025-го. Точную неделю не помню — в какой-то момент он у меня просто стал инструментом по умолчанию, и я с ним отр…
Крупнейшие ИИ-вендоры ведут агрессивную гонку контекстных окон: 128K токенов стали минимально необходимым стандартом, а некоторые модели заявляют и о …
Snyk has entered the AI-powered penetration testing market with a new product it says addresses the gap in how enterprises The post AI is shipping cod…
Here’s why Anthropic and OpenAI are on board with Illinois safety testing.
Месяц назад я писал про парадокс DeepSeek V4 Pro — модель проиграла собственному Flash и Qwen 3.6 Plus трёхнедельной давности. Сегодня прогнал свежий …
Meta is rolling out paid subscription plans for Instagram, Facebook, and WhatsApp worldwide, while also testing new AI, creator, and business-focused …
В прошлых статьях я писал про то, что нейросеть ускоряет конвейер, но не несёт ответственности. Что лояльность дирижёра — единственный мультипликатор.…
It's possible that AI was used to write parts of Pope Leo XIV's latest encyclical about AI's impact on humanity. An analysis by Linch Zhang posted on …
В книге *«Hard Things About Hard Things»* Бен Хорвитц формулирует одно из тех правил, которые звучат банально ровно до того момента, как ты пробуешь и…
Trump delays AI safety testing EO, claiming it would be an innovation “blocker.”
Meta has reportedly notified thousands of employees that they've been laid off as the company attempts to compensate for its hefty AI investments. In …
Мы все привыкли строить производство софта как конвейер. Продакт берёт идею, отдаёт аналитику. Аналитик пишет требования, отдаёт разработчику. Разрабо…
Both tools generate hypotheses; one goes on to analyze some of the data.