Мультимедійний сторітелінг за допомогою ШІ: добірка корисних сервісів

Анастасія Ткачук

Опубліковано: 25-02-2024

Розділи: Нові технології медіа.

0

Якщо 2023 був роком широкого знайомства з ШІ, то 2024 — рік його всебічного вивчення й інтеграції в найрізноманітніші сфери, зокрема в медіа. Сьогодні журналісти вже використовують можливості штучного інтелекту для створення новин, фактчекінгу, роботи з великими даними, репортажистики й розслідувань. Та це не весь його потенціал. Так The New York Times нещодавно повідомило, що збирає спеціальну команду, яка досліджуватиме можливості використання генеративного ШІ у їхній редакції.

Поруч з цим в журналістиці з’являється інша тенденція, що змінює акценти в виробництві контенту. За даними Інституту вивчення журналістики Reuters, медіакомпанії переймаються, що аудиторія втомилася від новинних повідомлень й уникає їх, тож підтримувати інтерес до складних подій, як війни, стає важче. Через це у 2024 році ЗМІ більше сфокусуються у цьому контексті на інших форматах: історіях, що надихають, пояснювальних статтях й журналістиці рішень.

Проте, зазвичай, щоб створити якісний мультимедійний матеріал з інтерактивними елементами й візуалізаціями, потрібно, окрім журналістів, залучити інших спеціалістів і загалом така робота може тривати доволі довго. Цю проблему частково вирішує розвиток індустрії штучного інтелекту. Нові інструменти на основі ШІ допомагають журналістам створювати мультимедійний контент швидше і легко адаптувати його під різні платформи й аудиторії. І що найголовніше, такі програми є доступними навіть для тих хто з технікою на «ви», адже не потребують особливих навичок. Щоб не бути голослівними, пропонуємо вам добірку сервісів на основі штучного інтелекту для етапів роботи над мультимедійною історією: створення тексту, добір ілюстрацій, робота з відео, розробка тесту.

Формування тексту

Якщо основою матеріалу є інтерв`ю в відео- або аудіоформаті, то перший крок — транскрибування, за вас відмінно виконає сервіс Pinpoint.

Pinpoint — це дослідницький інструмент від Google, розроблений спеціально для журналістів та науковців. В ньому можна працювати з двогодинними відео та аудіофайлами в форматах MP3, .WAV, .FLAC. і .WAV.. Готовий текст Pinpoint завантажить в PDF-файл з таймкодами й можливістю пошуку в документі.

Також він стане в пригоді, якщо ви готуєте масштабний матеріал, де використовуєте багато документів і файлів. Одна з головних функцій Pinpoint — зберігання й аналіз великих колекцій документів, в яких можна шукати інформацію за ключовими словами з точним збігом, близьким збігом та за походженням. Родзинка сервісу — він може знайти те, що ви шукаєте не лише у звичайний текстових документах, а й в електронних листах, зображеннях і транскрибованих аудіозаписах кількома мовами.

Pinpoint є цілком безкоштовним, але скористатися всіма функціями можуть лише журналісти й науковці. Для цього потрібно подати запит й отримати підтвердження, яке приходить через 24 години.

Тут детально розказують, як користуватися сервісом.

Бувають ситуації коли треба протранскрибувати лише кілька хвилин з чужого відео, наприклад офіційної пресконференції, для цитати чи коментаря. Якщо воно розміщене в YouTube, можна використати безкоштовне розширення Chrome Youtube videos summary with ChatGPT.

Інструмент автоматично транскрибує всі відео, які ви відкриєте. Вкладка з текстом з`явиться обабіч. Загалом він добре дає раду з розпізнаванням навіть складних слів, але не вміє розділяти речення й робить помилки в власних назвах, які раніше не чув на кшталт Bihus.Info.

Розширення працює на основі ChatGPT, тож щоб скористатися ним потрібно попередньо мати обліковий запис в ChatGPT/OpenAI.

Щоб протранскрибувати аудіо й відео англійською мовою гарним вибором будуть сервіси Descript — безкоштовно 1 година транскрибування на місяць та Otter.ai — безкоштовна транскрипція 3 файлів в пробній версії.

Створення ілюстрацій

Зараз існує безліч сервісів для генерації якісних зображень. Вони створюють від мистецьких картинок до цілком реалістичних ілюстрацій, тож можна сміливо ними користуватися для візуалізації різних текстів.

Один з найвідоміших і заразом найлегших для використання є інструмент OpenAI DALL-E 2. Він створює зображення з тексту. Це працює так: ви пишете ШІ, що хочете отримати, він пропонує вам чотири варіанти результату на кожен запит. Щоб роботи DALL-E 2 максимально відповідали вашим очікуванням, не економте слова й детально прописуйте свої запити (до 400 символів). Також цікава функція: сервіс може взяти ваше зображення й створити різні його варіації на основі оригіналу. Проте в DALL-E 2 ви не зможете згенерувати картинку з фотореалістичним обличчям реальних людей, зокрема, публічних осіб.

Сервіс не працює з місячними підписками, а натомість пропонує купувати кредити: 100 кредитів — це 100 запитів і 400 картинок. Найменше можна придбати 115 кредитів за 15 доларів.

Не можна говорити про генератори зображень, не згадавши про Midjourney. Він також створює зображення на основі тексту і пропонує 4 варіанти на кожен запит, проте серед інших сервісів його вирізняє особлива реалістичність ілюстрацій. Порівняно з DALL-E 2 в Midjourney є більше можливостей керувати процесом генерації, наприклад, якщо вам сподобався один з варіантів зображення, але він ще не ідеальний, ви можете попросити бота продовжити генерувати ілюстрації на його основі.

Місячні підписки на сервіс вартують від 10 доларів. Детальніше як користуватися Midjourney пише у цьому посібнику.

Але варто також зауважити, що не всі історії можуть бути проілюстровані згенерованими зображеннями. Якщо ідеться про теми пов’язані з війною чи політикою, то їх найчастіше варто подавати лише зі справжніми фото.

Робота з відео

Якщо ви плануєте поширювати свій матеріал іноземними мовами, але турбуєтесь про переозвучування відеофрагментів, то можете поекспериментувати й спробувати сервіс ElevenLabs. Він пропонує цілу бібліотеку реалістичних голосів згенерованих ШІ, які озвучать ваш текст з відповідними до змісту інтонаціями. Або ж можна клонувати власний голос, який говоритиме різними мовами. Поки що цей інструмент часто використовують для розваг (ось, наприклад, Леонардо ді Капріо спілкується іспанською, французькою, німецькою й гінді), та він має перспективи стати корисним в галузі створення й поширення інформації.

ElevenLabs має безкоштовну версію, яка дозволяє озвучувати 10 000 символів на місяць й платні плани від 5 доларів. За цим посиланням ви знайдете гайд із безпечного клонування голосу від розробників.

Розробка інтерактивного тесту

Коли матеріал пояснювальний чи пізнавальний, то в кінці можна запропонувати аудиторії пройти невеликий тест, аби дізнатися чи добре вони все запам’ятали. Згенерувати такий інтерактив на основі матеріалу можна в старому-доброму ChatGPT. Це вже спробували робити в TIME і їм вдалося. ШІ може помилятися у фактах або використовувати інформацію з інших джерел, які він опрацював, щоб так не трапилося важливо правильно сформувати запити. Журналісти TIME радять використовувати такий алгоритм роботи з ChatGPT:

  • Вибери з тексту найцікавіші, об’єктивні факти.
  • [Надайте текст до 2 000 слів]
  • Перетвори ці факти на прості запитання, які не будуть надто очевидними, але цікавими та доступними.
  • Створи чотири варіанти відповідей: одну правильну й три неправильних, але правдоподібних.
  • Надай інформативний контекст для правильної відповіді на основі оригінального тексту.

Анастасія Ткачук, студентка факультету журналістики ЛНУ ім. І. Франка

Comments are closed.