banner
Дом / Новости / К следующему году большая часть данных по обучению ИИ может стать синтетической
Новости

К следующему году большая часть данных по обучению ИИ может стать синтетической

Jun 09, 2023Jun 09, 2023

Синтетические данные позволяют обучать модели ИИ на большем наборе данных, чем это было бы возможно с использованием чисто органических данных.

Райан Моррисон

Согласно новому отчету Gartner, большая часть данных, используемых для обучения моделей машинного обучения, будет синтетической и автоматически генерируемой. В 2021 году только 1% всех данных по обучению ИИ были синтетическими, но аналитики предполагают, что к концу 2024 года этот показатель может достичь 60%. Управление и бдительность в отношении предвзятости необходимы, чтобы предотвратить те же проблемы с этими данными, что и органические данные, сказал Tech один из экспертов. Монитор.

Синтетические данные генерируются искусственным интеллектом, чтобы заполнить недостающие пробелы в реальной информации, такой как медицинские изображения или информация о конкретных моделях заболеваний. В новом исследовании тенденций в области науки о данных, опубликованном на этой неделе, Gartner прогнозирует, что к 2024 году более 60% всех данных обучения моделей ИИ будут синтетическими, что, по их словам, приведет к улучшению систем ИИ.

Этот переход от органических к синтетическим обучающим данным является частью более широкого перехода к ориентированному на данные искусственному интеллекту, например, используемому для создания больших языковых и базовых моделей. «Такие решения, как управление данными с использованием искусственного интеллекта, синтетические данные и технологии маркировки данных, направлены на решение многих проблем с данными, включая доступность, объем, конфиденциальность, безопасность, сложность и масштаб», — говорится в отчете Gartner.

Недавний отчет GlobalData показал, что стартапы, работающие с синтетическими данными, «переопределяют ландшафт генерации данных». Назвав это «главным ключом к будущему искусственного интеллекта», Киран Радж, руководитель практики революционных технологий в GlobalData, сказал, что стартапы вырываются из оков качества данных и регулирования. «Поскольку спрос на надежные, экономичные, быстрые и сохраняющие конфиденциальность данные продолжает расти, стартапы видят будущее, основанное на синтетических данных, открывая новую эру прогресса машинного обучения», — сказал Радж.

Он потенциально может оказать положительное воздействие на ряд секторов. В здравоохранении он уже используется для дополнения реальных данных о пациентах для обучения врачей, улучшения поиска лекарств и оптимизации систем. В секторе финансовых услуг это помогает снизить риски и выявить мошенничество. А в розничной торговле это улучшает прогнозирование спроса, персонализированный маркетинг и обнаружение мошенничества.

Другие ключевые тенденции, отмеченные Gartner, включают переход к периферийной обработке для искусственного интеллекта. Согласно отчету, обработка данных в момент их создания поможет организациям получать ценную информацию в режиме реального времени и выявлять новые закономерности. Это также облегчит соблюдение все более строгих требований к конфиденциальности данных. Организация прогнозирует, что к 2025 году более 55% анализа данных с помощью нейронных сетей будет происходить в периферийных системах.

Аналитики Gartner прогнозируют, что ответственному искусственному интеллекту будет уделяться больше внимания. Это включает в себя обеспечение того, чтобы технологии использовались как положительная сила, а не как угроза обществу. Это включает в себя обеспечение того, чтобы предприятия делали этический выбор при внедрении ИИ, который учитывает социальную ценность, риски, доверие, подотчетность и прозрачность. Это основные требования, составляющие многие правила ИИ, разрабатываемые по всему миру, в том числе в Великобритании.

Аналитики предупредили, что организациям следует принять «подход, пропорциональный риску» к инвестициям и развертыванию ИИ. Это включает в себя осторожность при применении решений и моделей, а также получение гарантий от поставщиков, подтверждающих, что они управляют собственными рисками и выполняют свои обязательства по соблюдению требований. Это поможет защитить их от финансовых потерь и судебных исков.

Некоторые фундаментальные модели и организации, занимающиеся генеративным искусственным интеллектом, предлагают определенную степень защиты от этих рисков. Adobe заявляет, что покроет расходы, связанные с исками об авторских правах в результате использования своей генеративной модели изображений Firefly с искусственным интеллектом. Это связано с тем, что компания уверена, что модель обучена исключительно на лицензированных и авторизованных данных, которые не будут создавать результаты, подозрительные на авторские права.

Питер Кренски, директор-аналитик Gartner, сказал: «Поскольку внедрение машинного обучения продолжает быстро расти во всех отраслях, данные развиваются от простого сосредоточения на прогнозных моделях к более демократизированной, динамичной и ориентированной на данные дисциплине. Сейчас это также подогревается ажиотажем вокруг генеративного ИИ. Наряду с появлением потенциальных рисков появляется и множество новых возможностей и вариантов использования для ученых, работающих с данными, и их организаций».