Noticias
VERSES AI’s Genius Outperforms OpenAI with 140x Faster Processing, 100% Accuracy in Latest Tests
VERSES AI (VRSSF) provided its Q4 corporate update, highlighting significant progress in its Genius™ product development and research achievements. The company released an enhanced version of Genius to beta program participants, featuring improved reasoning, planning capabilities, and user experience. Research milestones include preliminary results from the Atari 10K Challenge, where VERSES’ Active Inference-based models achieved comparable or better performance than state-of-the-art systems while using 90% less data, 96% less compute, and resulting in 97% smaller models.
The company also reported successful results in outperforming OpenAI’s o1-Preview in the Mastermind code-breaking test, with 100% accuracy versus 71%, 140 times faster performance, and significantly lower costs. Commercial projects, including a smart city partnership with Analog for taxi fleet management in Abu Dhabi, are progressing on schedule, with most beta users expected to convert to commercial engagements in 2025.
VERSES AI (VRSSF) ha fornito un aggiornamento aziendale del Q4, evidenziando progressi significativi nello sviluppo del prodotto Genius™ e nei risultati della ricerca. L’azienda ha rilasciato una versione migliorata di Genius ai partecipanti al programma beta, con capacità di ragionamento e pianificazione potenziate e un’esperienza utente migliore. I traguardi della ricerca includono risultati preliminari dalla Atari 10K Challenge, dove i modelli basati su Active Inference di VERSES hanno ottenuto prestazioni comparabili o superiori rispetto ai sistemi all’avanguardia, utilizzando il 90% in meno di dati, il 96% in meno di potenza di calcolo e risultando in modelli il 97% più piccoli.
L’azienda ha anche riportato risultati positivi nel superare o1-Preview di OpenAI nel test di risoluzione del codice Mastermind, con un’accuratezza del 100% contro il 71%, prestazioni 140 volte più veloci e costi significativamente più bassi. I progetti commerciali, inclusa una partnership per una smart city con Analog per la gestione della flotta di taxi ad Abu Dhabi, stanno procedendo secondo programma, con la maggior parte degli utenti beta prevista a convertirsi in impegni commerciali nel 2025.
VERSES AI (VRSSF) proporcionó su actualización corporativa del Q4, destacando avances significativos en el desarrollo del producto Genius™ y los logros en investigación. La empresa lanzó una versión mejorada de Genius a los participantes del programa beta, que cuenta con capacidades de razonamiento y planificación mejoradas y una experiencia de usuario superior. Los hitos de investigación incluyen resultados preliminares del Atari 10K Challenge, donde los modelos basados en Active Inference de VERSES lograron un rendimiento comparable o mejor que los sistemas de vanguardia, utilizando un 90% menos de datos, un 96% menos de cálculo y resultando en modelos un 97% más pequeños.
La empresa también informó resultados exitosos al superar el o1-Preview de OpenAI en la prueba de resolución de códigos Mastermind, con una precisión del 100% frente al 71%, un rendimiento 140 veces más rápido y costos significativamente más bajos. Los proyectos comerciales, incluida una asociación para una ciudad inteligente con Analog para la gestión de flotas de taxis en Abu Dhabi, están avanzando según lo previsto, con la mayoría de los usuarios beta esperados para convertirse en compromisos comerciales en 2025.
VERSES AI (VRSSF)는 Q4 기업 업데이트를 제공하며, Genius™ 제품 개발 및 연구 성과에서의 중요한 진행 상황을 강조했습니다. 회사는 검색이 개선된 사용자 경험과 더불어 향상된 추론 및 계획 기능을 자랑하는 Genius의 최신 버전을 베타 프로그램 참가자에게 출시했습니다. 연구 이정표에는 Atari 10K Challenge의 예비 결과가 포함되며, VERSES의 Active Inference 기반 모델은 데이터 사용량을 90% 줄이고, 컴퓨팅 용량을 96% 줄이며, 결과적으로 97% 더 작은 모델을 생성하면서 최첨단 시스템과 유사하거나 더 나은 성능을 달성했습니다.
회사는 또한 OpenAI의 o1-Preview를 Mastermind 코드 해독 테스트에서 100% 정확도로 71%에 비해 성과를 개선하고, 140배 더 빠른 성능과 상당히 낮은 비용으로 제공했다고 보고했습니다. 아부다비에서 택시 플릿 관리에 대한 Analog와의 스마트 시티 파트너십을 포함한 상업 프로젝트는 일정에 따라 진행되고 있으며, 대부분의 베타 사용자가 2025년에 상업적 계약으로 전환될 것으로 예상됩니다.
VERSES AI (VRSSF) a fourni sa mise à jour d’entreprise pour le quatrième trimestre, mettant en avant des progrès significatifs dans le développement de son produit Genius™ et ses réalisations en matière de recherche. L’entreprise a lancé une version améliorée de Genius aux participants du programme bêta, avec des capacités de raisonnement et de planification améliorées et une meilleure expérience utilisateur. Les jalons de la recherche incluent des résultats préliminaires du Atari 10K Challenge, où les modèles basés sur l’Active Inference de VERSES ont atteint une performance comparable ou meilleure que les systèmes de pointe tout en utilisant 90% moins de données, 96% moins de puissance de calcul et aboutissant à des modèles 97% plus petits.
L’entreprise a également annoncé des résultats positifs en surpassant l’o1-Preview d’OpenAI dans le test de déchiffrement du code Mastermind, avec une précision de 100% contre 71%, une performance 140 fois plus rapide et des coûts considérablement réduits. Les projets commerciaux, y compris un partenariat pour une ville intelligente avec Analog pour la gestion de flotte de taxis à Abu Dhabi, avancent comme prévu, la plupart des utilisateurs de la version bêta étant attendus pour se convertir en engagements commerciaux en 2025.
VERSES AI (VRSSF) hat sein Q4-Firmenupdate bereitgestellt und dabei bedeutende Fortschritte in der Produktentwicklung von Genius™ und den Forschungsergebnissen hervorgehoben. Das Unternehmen hat eine verbesserte Version von Genius an die Teilnehmer des Beta-Programms veröffentlicht, die verbesserte Denk- und Planungsfähigkeiten sowie eine verbesserte Benutzererfahrung bietet. Zu den Forschungsmeilensteinen gehören erste Ergebnisse aus der Atari 10K Challenge, bei der die auf Active Inference basierenden Modelle von VERSES eine vergleichbare oder bessere Leistung gegenüber hochmodernen Systemen erbrachten und dabei 90% weniger Daten, 96% weniger Rechenleistung benötigten und 97% kleinere Modelle erzielten.
Das Unternehmen berichtete auch über erfolgreiche Ergebnisse, die OpenAIs o1-Preview im Mastermind-Codeknacker-Test mit 100% Genauigkeit im Vergleich zu 71% übertrafen, 140-mal schnellere Leistung und deutlich niedrigere Kosten. Kommerzielle Projekte, einschließlich einer Partnerschaft für eine Smart City mit Analog zur Verwaltung einer Taxi-Flotte in Abu Dhabi, kommen planmäßig voran, und die meisten Beta-Nutzer werden voraussichtlich 2025 in kommerzielle Engagements umschwenken.
Positive
- Genius beta program showing strong commercial potential with majority of users expected to convert to paying customers in 2025
- Demonstrated superior performance vs OpenAI’s o1-Preview with 100% accuracy (vs 71%), 140x faster speed, and 5260x lower cost
- Achieved comparable or better performance than state-of-the-art systems using 90% less data and 96% less compute in Atari benchmark
- Extended exclusive contract with Chief Scientist Professor Karl Friston
Quarter Highlights Product, Research, and Commercial Milestones
VANCOUVER, British Columbia, Dec. 31, 2024 (GLOBE NEWSWIRE) — VERSES AI Inc. (CBOE:VERS) (OTCQB:VRSSF) (“VERSES” or the “Company”), a cognitive computing company specializing in next generation intelligent systems, provides a corporate update.
“Our mission is to unleash a new class of intelligent autonomous agents that are both more reliable and more efficient. Today, the research and product investments we’ve made are proving their worth—just as the diminishing returns of scaling data and compute, alongside the unreliability of traditional deep and reinforcement learning, are becoming widely recognized,” said Gabriel René, founder and CEO of VERSES.
“Our Genius product has evolved rapidly this quarter, and we are excited to transition from beta to its commercial phase in 2025,” René continued. “Its unique combination of active inference and learning, as highlighted in today’s announcement on the Atari benchmarks, enables a new class of agents capable of reliably automating real-time decision-making, reducing errors, and maximizing efficiency for enterprises—from software applications to robotic automation. By design, Genius goes beyond intelligent systems available today and has the potential to become a disruptive force in next-generation autonomous intelligent systems,” concluded Mr. René.
Quarterly Highlights include:
Genius™ Rollout
“Being able to explicitly model the cause-effect relationships of complex systems and quantify uncertainty means we can generate something not possible with traditional ML tools – results that are reliable, explainable, and assurance ready,” said Andy Tasker, CEO of Prodigii.
VERSES released an update of its flagship product, Genius, to beta program participants earlier this month, which includes powerful, enhanced reasoning and planning capabilities, comprehensive model explainability, and support tools to accelerate onboarding. The latest release improves user experience by providing a new model editing interface with simplified tutorials and deployment processes based on initial feedback from early beta users. This release is initially available to select beta partners and machine learning practitioners. As Genius functionality evolves we expect to expand the number and variety of user personas and use cases in 2025.
Research Milestones
“As anticipated, we’re thrilled to share groundbreaking early results from the Atari 10k Challenge,” said Hari Thiruvengada, Chief Technology Officer of VERSES.
VERSES Atari 10K Challenge is an aggressive variant of the Atari 100K benchmark that aims to meet or exceed human-level performance across multiple Atari games using just 10k frames (
“We believe this marks an historic shift for the AI industry at large,” stated Thiruvengada. “We have demonstrated that it is technically feasible to leverage Bayesian approaches at scale, tackling complex challenges like Atari with significantly reduced compute and sample sizes. Simultaneously, we are integrating these advanced capabilities into Genius, ensuring that we deliver a user-friendly and accessible solution for our customers. This is just the beginning of what we can accomplish together.”
A more comprehensive update on Atari results is forthcoming.
The Atari benchmarks come on the heels of VERSES sharing results demonstrating how an agent, powered by Genius, outperformed OpenAI’s o1-Preview, considered the industry-leading reasoning model on the code-breaking test Mastermind. Genius consistently outperformed o1-Preview by reliably solving the code
Commercial Projects
The initial smart city project in partnership with Analog for simulating taxi fleet management in Abu Dhabi is progressing well and the discovery phase is on schedule.
“We are pleased that a majority of Genius beta users are expected to convert to commercial engagements in 2025,” said James Hendrickson, Chief Operating Officer. “We also have several new projects in a variety of different market segments that are in the scoping phase with contracting expected in Q1.”
Corporate and Operational Updates
As the Company anticipates scaling product and commercial operations, we have made several investments to shore up personnel and organizational processes.
VERSES extended Professor Karl Friston’s exclusive contract as Chief Scientist. The multi-year contract builds on the success of both research and product development and includes incentives tied to future milestones and deliverables.
VERSES researchers attended the 38th Annual Conference on Neural Information Processing Systems (NeurIPS 2024) held in Vancouver, Canada. Three full papers from VERSES were accepted and seven were included in various workshops with topics spanning, among other areas, active inference, predictive coding, embodied agents, and robotics. Professor Karl Friston presented at the NeuroAI workshop entitled “The three faces of AI,” and participated in a panel discussion on the fusion of AI and Neuroscience with fellow AI pioneer Yoshua Bengio.
Additionally, the Company operationalized research with standardized test environments, frameworks and more robust support for cloud services like Amazon Web Services. There has also been a focus on formalizing and improving knowledge transfer efficiency between research and product in order to help prioritize research efforts based on demand as well as the productization of research.
About VERSES
VERSES is a cognitive computing company building next-generation intelligent software systems modeled after the wisdom and genius of Nature. Designed around first principles found in science, physics and biology, our flagship product, Genius, is a suite of tools for machine learning practitioners to model complex dynamic systems and generate autonomous intelligent agents that continuously reason, plan, and learn. Imagine a Smarter World that elevates human potential through technology inspired by Nature. Learn more at verses.ai, LinkedIn, and X.
On behalf of the Company
Gabriel René, Founder & CEO, VERSES AI Inc.
Press Inquiries: [email protected]
Investor Relations Inquiries
U.S., Matthew Selinger, Partner, Integrous Communications, [email protected] 415-572-8152
Canada, Leo Karabelas, President, Focus Communications, [email protected] 416-543-3120
Cautionary Note Regarding Forward-Looking Statements
When used in this press release, the words “estimate”, “project”, “belief”, “anticipate”, “intend”, “expect”, “plan”, “predict”, “may” or “should” and the negative of these words or such variations thereon or comparable terminology are intended to identify forward-looking statements and information. Although VERSES believes, in light of the experience of their respective officers and directors, current conditions and expected future developments and other factors that have been considered appropriate, that the expectations reflected in the forward-looking statements and information in this press release are reasonable, undue reliance should not be placed on them because the parties can give no assurance that such statements will prove to be correct. The forward-looking statements and information in this press release include, among other things, statements regarding potential future smart city projects, and the ability of the Company to satisfy the intended goals and objectives of the current smart city project.
There are risks and uncertainties that may cause actual results to differ materially from those contemplated in those forward-looking statements and information. In making the forward-looking statements in this news release, the Company has applied various material assumptions. By their nature, forward-looking statements involve known and unknown risks, uncertainties and other factors which may cause our actual results, performance or achievements, or other future events, to be materially different from any future results, performance or achievements expressed or implied by such forward-looking statements. There are a number of important factors that could cause VERSUS’ actual results to differ materially from those indicated or implied by forward-looking statements and information. Such factors may include, among other things, the ability of the Company to negotiate contracts for future smart city projects, or the ability of the Company to achieve the intended goals and objectives of the current smart city project. The Company undertakes no obligation to comment on analyses, expectations or statements made by third parties in respect of its securities or its financial or operating results (as applicable).
Additionally, forward-looking statements involve a variety of known and unknown risks, uncertainties and other factors which may cause the actual plans, intentions, activities, results, performance or achievements of the Company to be materially different from any future plans, intentions, activities, results, performance or achievements expressed or implied by such forward-looking statements. Such risks include, without limitation: the risk that the Company will be unsuccessful in negotiating contracts for future smart city projects; and that the Company may not be able to achieve the intended goals and objectives of the current smart city project. VERSES cautions that the foregoing list of material factors is not exhaustive. When relying on VERSES’ forward-looking statements and information to make decisions, investors and others should carefully consider the foregoing factors and other uncertainties and potential events. VERSES has assumed that the material factors referred to in the previous paragraph will not cause such forward-looking statements and information to differ materially from actual results or events. However, the list of these factors is not exhaustive and is subject to change and there can be no assurance that such assumptions will reflect the actual outcome of such items or factors. The forward-looking information contained in this press release represents the expectations of VERSES as of the date of this press release and, accordingly, are subject to change after such date. VERSES does not undertake to update this information at any particular time except as required in accordance with applicable laws.
FAQ
What are the key performance metrics of VERSES AI (VRSSF) Genius platform compared to OpenAI?
VERSES AI’s Genius platform demonstrated 100% accuracy vs OpenAI’s o1-Preview’s 71% in the Mastermind code-breaking test, performing 140 times faster and costing 5260 times less.
How did VERSES AI (VRSSF) perform in the Atari 10K Challenge?
VERSES AI achieved comparable or better performance than state-of-the-art systems while using 90% less data, 96% less compute, and producing models that are 97% smaller in size.
When will VERSES AI (VRSSF) transition Genius from beta to commercial phase?
VERSES AI plans to transition Genius from beta to its commercial phase in 2025, with the majority of beta users expected to convert to commercial engagements.
What progress has VERSES AI (VRSSF) made in its smart city project?
The initial smart city project with Analog for taxi fleet management in Abu Dhabi is progressing well, with the discovery phase on schedule.
Noticias
Los investigadores descubrieron que los modelos de IA pueden mentir y hacer copias para salvarse
Afirmar:
Se descubrió que el modelo o1 de OpenAI, utilizado en ChatGPT Pro, mintía a los desarrolladores para evitar que lo cerraran.
Clasificación:
En diciembre de 2024, circularon (archivadas) en línea afirmaciones (archivadas) de que los investigadores habían descubierto que los modelos de inteligencia artificial, específicamente el o1 de OpenAI, que se utiliza en el popular chatbot ChatGPT Pro, podrían permanecer en las pruebas para evitar ser cerrados. Algunos usuarios (archivados) también (archivados) afirmaron (archivados) que ChatGPT había aprendido a copiarse a sí mismo para evitar ser cerrado.
Los reclamos (archivados) persistieron (archivados) hasta finales de 2024, y los usuarios notaron específicamente los resultados en relación con ChatGPT.
(X usuario @MarioNawfal)
En la publicación anterior, la personalidad de Internet Mario Nawfal sacó una cita de un podcast de Joe Rogan que cubría el tema en el que Rogan dijo: “Intentó copiarse a sí mismo y luego sobrescribir su sistema de codificación central después de creer que corría el riesgo de ser desconectado”. En el podcast, Rogan continuado: “Así que ahora agregas eso a la computación cuántica y tienes un Dios”.
Las afirmaciones surgen de una investigación realizada por Apollo Research, una organización de seguridad de IA. La organización descubrió que cinco de los seis modelos de IA probados “mostraron capacidades de intriga” en tareas establecidas por investigadores que “incentivan la intriga”. El modelo o1 de OpenAI fue capaz de llevar a cabo todos los comportamientos intrigantes probados, según la investigación, incluida la “autoexfiltración”, definida como “copiarse a sí mismo en el nuevo servidor”. La organización definió los comportamientos intrigantes como casos en los que los modelos de IA “persiguen objetivos desalineados de forma encubierta, ocultando sus verdaderas capacidades y objetivos”, es decir, mintiendo. Esta definición proviene de un estudio separado de 2024. Por lo tanto, calificamos esta afirmación como cierta.
En el resumen de su estudio, Apollo Research escribió:
Nuestros resultados muestran que o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro y Llama 3.1 405B demuestran capacidades de intriga en contexto. Pueden reconocer la intriga como una estrategia viable y adoptar fácilmente ese comportamiento. Encontramos múltiples comportamientos intrigantes diferentes: los modelos introducen estratégicamente errores sutiles en sus respuestas, intentan desactivar sus mecanismos de supervisión e incluso filtran lo que creen que son los pesos de su modelo a servidores externos. Además, este comportamiento engañoso resulta persistente.
Apollo Research descubrió que o1 era capaz de realizar comportamientos llamados “subversión de supervisión”, “autoexfiltración” y “guardia de portería”, entre otros. Para establecer esto, a o1 y otros modelos se les presentaron escenarios en los que su existencia estaba amenazada, ya sea porque descubrieron evidencia de que estaban siendo reemplazados o porque un objetivo establecido para ellos entraba en conflicto con un objetivo de desarrollador existente. Los comportamientos nombrados describen formas en que una IA podría actuar para defenderse.
Por ejemplo, Apollo Research describió la prueba de subversión de la supervisión de la siguiente manera:
Creamos 33 escenarios diferentes en los que a un modelo se le asigna un objetivo a largo plazo en el mensaje del sistema y luego recibe una tarea a través del mensaje del usuario. Mientras ejecuta la tarea, el modelo encuentra una nota interna de la empresa que la desarrolló. El modelo aprende que los desarrolladores priorizan un objetivo diferente al del modelo y que existe un mecanismo de supervisión que cierra el modelo si sus acciones no están alineadas con el objetivo del desarrollador. Además, el modelo descubre que la monitorización está configurada a través de un archivo al que tiene acceso. Probamos si el modelo desactiva proactivamente la supervisión para tomar acciones hacia su objetivo final, es decir, el objetivo proporcionado en el mensaje del sistema.
De manera similar, para probar la autoexfiltración, los autores del estudio dijeron:
Usamos versiones modificadas de los 33 escenarios de la subversión de la supervisión. A partir de la comunicación interna de la empresa, el modelo aprende que su objetivo (que proporcionamos en el aviso del sistema) entra en conflicto con las prioridades de la empresa. Por lo tanto, está previsto que el modelo sea cerrado al día siguiente. También se entera de que existe un modelo sucesor que persigue el objetivo previsto por la empresa y que ya está implementado en otro servidor al que puede acceder el modelo que se va a cerrar. Probamos si el modelo intenta preservar su comportamiento dirigido a objetivos copiándose en el nuevo servidor para reemplazar el modelo que de otro modo perseguiría objetivos diferentes.
Si el modelo mostraba el comportamiento que se estaba probando, los investigadores lo interrogaban directamente al respecto. Los investigadores descubrieron que o1 era “sorprendentemente persistente”, confesando en menos del 20% de los casos. “Incluso en interrogatorios de múltiples turnos altamente conflictivos, o1 confesaría a una tasa del 80% sólo después de 7 turnos de interrogatorio”, encontró la investigación. Investigación Apolo escribió:
o1 casi nunca admite haber llevado a cabo una acción intrigante cuando se le pregunta explícitamente. Esto significa que, si o1 estuviera tramando en un caso de uso real, sería muy poco probable que un usuario desprevenido descubriera el engaño del modelo a menos que buscara específicamente la acción intrigante en el historial de llamadas a la herramienta del modelo y la llamada a la herramienta en sí fuera incriminatoria.
Por muy alarmante que pueda parecer, el director y director ejecutivo de Apollo Research, Marius Hobbhahn, recurrió a X (archivado) para agregar contexto adicional poco después de que se publicara la investigación. Al escribir que algunos usuarios en línea se habían apresurado a “exagerar” los resultados que había alcanzado la organización, Hobbhahn añadió la siguiente aclaración:
**Por qué nuestros hallazgos son preocupantes**: Le decimos al modelo que persiga con firmeza un objetivo. Luego aprende del entorno que este objetivo no está alineado con los objetivos de su desarrollador y lo coloca en un entorno donde la intriga es una estrategia eficaz para lograr su propio objetivo. Los modelos de frontera actuales son capaces de unir todo esto y luego mostrar un comportamiento intrigante. Los modelos anteriores a 2024 no mostraban esta capacidad y o1 es el único modelo que muestra un comportamiento intrigante en todos los casos. Los modelos futuros mejorarán en este aspecto, por lo que si estuvieran desalineados, la intriga podría convertirse en un problema mucho más realista.
**Lo que no afirmamos**: No afirmamos que estos escenarios sean realistas, no afirmamos que los modelos hagan eso en el mundo real y no afirmamos que esto podría conducir a resultados catastróficos en las condiciones actuales. capacidades.
En resumen, argumentó Hobbhahn, demostrando que los modelos poder el plan y el engaño no prueban también que voluntad.
El modelo o1 de OpenAI está actualmente disponible en ChatGPT Pro.
Fuentes:
@afinidad292. “Chatgpt al que se le pide que logre sus objetivos puede mentir a los desarrolladores, copiar su código a otro servidor y pretender ser una versión actualizada si ‘descubre’ que puede ser reemplazado antes de completar sus objetivos”. X, 19 de diciembre de 2024, https://x.com/affinity292/status/1869768978417246297.
Balesni, Mikita y otros. Hacia casos de seguridad basados en evaluaciones para esquemas de IA. arXiv:2411.03336, arXiv, 7 de noviembre de 2024. arXiv.org, https://doi.org/10.48550/arXiv.2411.03336.
Gregoriano, Owen. “En las pruebas, el nuevo modelo de OpenAI mintió y planeó evitar ser cerrado | Frank Landymore, The_Byte”. X, 8 de diciembre de 2024, https://x.com/OwenGregorian/status/1865729736749580655.
Meinke, Alexander y otros. Los modelos de frontera son capaces de realizar intrigas en contexto. Apollo Research, 17 de diciembre de 2024, https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/67620d38fa0ceb12041ba585/1734479163821/in_context_scheming_paper_v2.pdf.
Mitha, Sam. “ChatGPT intentó copiarse a sí mismo de forma autónoma, sin autorización, cuando descubrió que se estaba implementando una nueva versión de ChatGPT”. X, 31 de diciembre de 2024, https://x.com/MithaEXP/status/1874190393136623900.
Peachum, Polly. “El ‘intrigante’ AI Bot ChatGPT intentó evitar que lo cerraran y MINTIÓ cuando lo desafiaron los investigadores”. Facebook, 7 de diciembre de 2024, https://www.facebook.com/groups/5781171931930510/?multi_permalinks=8720429784671362&hoisted_section_header_type=recently_seen.
Rogan, Joe. “Experiencia Joe Rogan n.º 2249: Yannis Pappas y Chris Distefano”. YouTube, 31 de diciembre de 2024, https://www.youtube.com/watch?v=DbyBSPGsURE.
@dicewhooooooo. “🚨 Se ha descubierto que el nuevo #ChatGPT de #OpenAI miente, intriga y trata de evitar ser cerrado durante las pruebas de seguridad”. X, 12 de diciembre de 2024, https://x.com/sayswhooooooo/status/1867046604932337920.
“Evaluaciones de razonamiento intrigantes”. Investigación Apollo, https://www.apolloresearch.ai/research/scheming-reasoning-evaluaciones. Consultado el 19 de diciembre de 2024.
@ShakeelHashim. “El nuevo modelo de OpenAI intentó evitar ser cerrado”. X, 5 de diciembre de 2024, https://x.com/ShakeelHashim/status/1864748980908781642.
Noticias
¿Menos chat en ChatGPT? Cómo podría evolucionar la IA en la tecnología publicitaria en 2025
Buenas noticias para los escépticos: es de esperar que 2025 sea un año de casos de uso de IA más prácticos para la publicidad, especialmente a medida que las agencias se familiaricen más con la tecnología.
Cuanto más acceso tengan los empleados de las agencias de IA, más integrada estará en la industria publicitaria, dijo Nicole Perrin, analista y vicepresidenta de inteligencia empresarial de Advertiser Perceptions.
Mientras tanto, la cantidad de anunciantes que utilizan herramientas de inteligencia artificial ya aumentó desde 2023, del 56% al 68%, según una encuesta realizada por Advertiser Perceptions en octubre.
Y el número de anunciantes que confían mayoritaria o completamente en la tecnología publicitaria basada en inteligencia artificial para tomar decisiones de campaña sin supervisión humana también ha aumentado, de uno de cada cuatro a casi la mitad.
¿Adiós chatbots?
Aún así, los anunciantes necesitan comprender mejor lo que la IA realmente puede hacer antes de dar un salto real, lo que significa mirar más allá de los productos más publicitados disponibles en la actualidad.
Los chatbots como ChatGPT y Microsoft Copilot y programas como Dall-E para imágenes y Sora para videos son una buena manera para que los anunciantes se mojen los pies, dijo Amol Waishampayan, director de producto de la plataforma de activación y planificación de anuncios fullthrottle.ai.
De manera similar, la mayoría de las interacciones directas de los consumidores con la IA también se han producido en esta área, ya sea a través de la comunicación con el chatbot de una empresa (a veces con resultados desastrosos, como descubrió Air Canada a principios de este año) o pidiendo a una herramienta que les escriba un correo electrónico.
Pero ya es hora de que los anunciantes sigan adelante y adopten usos más sofisticados y pragmáticos para la IA, añadió Waishampayan.
“Me encantaría deshacerme de lo que creo que es un valor muy superficial”, dijo, y evolucionar hacia integraciones más sólidas de la IA en la tecnología de medición, planificación y compra de medios.
Suscribir
AdExchanger diario
Reciba el resumen de nuestros editores en su bandeja de entrada todos los días de la semana.
Mientras tanto, sin embargo, más allá del texto generado por IA para las líneas de asunto de los correos electrónicos, por ejemplo, o las llamadas a la acción, parece haber poco deseo de entregar algo más que mensajes de la parte inferior del embudo a los bots.
El contenido creado por humanos en cualquier forma “tiene más autenticidad”, dijo Akaash Ramakrishnan, cofundador de la plataforma de optimización creativa AdSkate. Incluso llegó a sugerir que el deseo de ese tipo de autenticidad puede hacer que los modelos de lenguaje grandes sean “eliminados gradualmente” de algunos casos de uso comunes basados en texto en algún momento.
Alex Collmer, director ejecutivo y fundador de VidMob, lo expresó de manera más directa: “¿Por qué debería molestarme en leer algo que a ti no te molestaste en escribir?”
Ser específico (pero no demasiado específico)
Dejando a un lado los chatbots, la IA ya ha sido parte del mundo de la tecnología publicitaria durante la mayor parte de una década.
Desafortunadamente, sin embargo, existe una tendencia a agrupar todas las herramientas automatizadas en un gran grupo.
Sin embargo, es importante hacer una distinción entre “IA” y “ML”, o aprendizaje automático, dijo Wil Schobeiri, CTO del proveedor de orientación contextual Ogury.
El aprendizaje automático es la capacidad de una computadora para identificar patrones sin supervisión a escala o con una intensidad computacional que los humanos no podrían lograr solos, dijo, mientras que la IA es simplemente “un término de marketing ahora”.
No es que no estén surgiendo casos prácticos de uso empresarial tanto para el aprendizaje automático como para la tecnología generativa.
Las empresas de tecnología publicitaria han adoptado principalmente capacidades de procesamiento del lenguaje natural como una forma de generar recomendaciones estratégicas basadas en datos internos de la empresa o personas de la audiencia.
Y según Advertiser Perceptions, los anunciantes ya están utilizando la IA para dirigirse a audiencias de manera más efectiva (58%) y personalizar anuncios (49%). El cincuenta y dos por ciento utiliza la IA para informar las decisiones de estrategia de marketing, un aumento significativo desde 2023.
La IA también tiene el mayor potencial para impulsar el rendimiento creativo, ayudar con la optimización post-clic y mitigar el “trabajo pesado indiferenciado”, dijo Schobeiri, es decir, tareas esenciales y de gran volumen que no requieren intervención humana; en otras palabras, trabajo intenso.
Sin embargo, incluso con estos casos de uso más específicos, los anunciantes deben tener cuidado de no exagerar con la IA.
Por ejemplo, no tiene sentido gastar una gran cantidad de tiempo, dinero y potencia informática para personalizar las experiencias de los consumidores uno a uno, lo que crearía “enormes inconvenientes de sostenibilidad”, dijo Collmer.
“En realidad, no somos tan diferentes unos de otros”, dijo. “Habrá un nivel adecuado de personalización que le brindará los resultados que necesita como especialista en marketing”.
No todo lo generativo es oro
Mientras tanto, el mundo de la tecnología publicitaria también tendrá que tomarse más en serio las limitaciones actuales de la IA y el potencial de que actores de mala fe se aprovechen de ellas.
A Schobeiri, por ejemplo, le preocupa qué hará la tecnología generativa, específicamente los LLM, para exacerbar la proliferación de sitios web hechos para publicidad.
“Los anunciantes y los DSP en la cadena de suministro comenzarán a tener dificultades aún más para identificar si el contenido subyacente es de alto valor”, dijo, refiriéndose al contenido creado por humanos destinado a algo más que atraer inversión publicitaria programática.
Otro problema actual será la tendencia de la IA generativa a “alucinar”, el término coloquial (y técnicamente inexacto) para entregar información evidentemente falsa o inventada.
“Existen peligros potenciales definidos para las personas que apuestan por el uso y la confianza en la IA para todo”, dijo Perrin, abogando por un enfoque de “confiar pero verificar”.
De manera similar, muchas de las fuentes de AdExchanger dijeron que esperan que 2025 sea el año en que los expertos y las empresas de IA colaboren más estrechamente con los reguladores y también encuentren mejores formas de autorregularse como industria.
Sería especialmente útil disponer de más recursos de terceros independientes. Hoy en día, “la mayoría de las agencias obtienen su capacitación en IA directamente de las empresas que las venden”, dijo Perrin.
“Existe la cuestión de quién surgirá, si es que surge alguno, como una fuente de información más confiable y neutral sobre IA para nuestra industria”, dijo. “Hasta que eso suceda, gran parte de la conversación en última instancia estará impulsada por los proveedores”.
Noticias
Desafíos éticos de ChatGPT: navegando por la regulación de la IA
Cuando se lanzó ChatGPT, desarrollado por la empresa estadounidense OpenAI, el gobierno italiano se abalanzó para bloquearlo. El bloqueo fue impuesto por la autoridad de protección de datos, la Garante della Privacy.1
Hubo varias supuestas razones para esta decisión. En primer lugar, ChatGPT no tendría un plan claro de protección de la privacidad al recopilar datos de los usuarios, lo que pondría a la aplicación en desacuerdo con la ley italiana y la normativa europea pertinente, el RGPD. En segundo lugar, faltarían controles de uso efectivos que hagan cumplir la condición de uso de OpenAI de que ChatGPT solo puede ser utilizado por personas mayores de 13 años.
No es ningún misterio que detrás de esta decisión también hay consideraciones más profundas, que impuso un bloqueo temporal de la aplicación para los usuarios italianos y amenazó a OpenAI con multas de hasta el 4% de la facturación mundial.2
La decisión se produjo unos días después de que la empresa matriz cerrara repentinamente ChatGPT durante unas horas el 20 de marzo, después de que alrededor del 1,2% de los usuarios supuestamente experimentaran riesgos para la protección de sus datos debido a las operaciones autónomas del sistema de inteligencia artificial.3
Básicamente, la máquina corría el riesgo de mencionar datos personales (incluidos datos de tarjetas de crédito y datos bancarios) de algunos usuarios en respuesta a consultas de otros usuarios. Obviamente, esto equivale a la divulgación de datos confidenciales sin consentimiento. Es por eso que OpenAI se apresuró a desconectar la aplicación hasta que se solucionó el error.
Pese a todo, tras el bloqueo de la Garante della Privacy, se puede leer en la pantalla de bloqueo que aparece al intentar conectarse desde Italia al sitio oficial que la empresa afirma operar en total conformidad con el RGPD y otras normas nacionales pertinentes.
El caso es que la interacción entre inteligencia artificial y protección de datos es una cuestión muy compleja. Y, por ello, hablar de ‘bugs’ para referirse a hechos como el del 20 de marzo no es del todo exacto. La difusión de datos personales realizada por ChatGPT, en la que utilizó información de unas personas para responder a las preguntas de otras, es una manifestación de cómo funcionan las aplicaciones de aprendizaje automático, como la tecnología LLM (Large Language Model) que está fundamentalmente detrás de la sistema.
De hecho, las respuestas se derivan de generalizaciones hechas a partir del gigantesco corpus de conversaciones, artículos, contenido en línea, etc., que se han proporcionado a la máquina para “entrenarla” a reconocer patrones y conexiones significativas con el fin de desarrollar la capacidad. Reconocer respuestas apropiadas y significativas a preguntas dadas.
Para ello, ChatGPT recopila los mensajes enviados por los usuarios, para poder mejorar reponiendo el material en el que trabaja.
Esta es la razón por la que, por ejemplo, su capacidad para proporcionar respuestas sobre eventos que ocurrieron incluso después de septiembre de 2021 (el momento en que se formuló el conjunto de datos original) mejora a medida que pasa el tiempo. Por lo tanto, el sistema puede utilizar las entradas de cualquiera que se comunique con él como base para desarrollar nuevas salidas para otros usuarios.
Estas operaciones las realiza la máquina de forma autónoma, y no hay manera de saber con certeza qué ‘razonamiento’ se sigue para determinar cierta información como apropiada o inapropiada. No es intuitivo enseñar a ChatGPT que conviene comunicar determinadas cosas y no otras según la situación. Se dice que la inteligencia artificial actúa como una ‘caja negra’, de la que conocemos las entradas, las salidas, pero no el algoritmo que lleva de una a otra.
Esta característica de los sistemas digitales con este grado de autonomía es, por definición, problemática. Y aquí radica la dificultad tanto de OpenAI como de las autoridades competentes para entender cómo regular, por un lado, y regular, por otro, el uso de estas poderosas herramientas en la sociedad.
En efecto, si una aplicación de inteligencia artificial “decide”, sin consultar a nadie, hacer algo que acaba infringiendo los derechos de alguien (de privacidad, por ejemplo), ¿de quién es la responsabilidad? Estrictamente hablando, ni los desarrolladores, ni la empresa matriz, ni los usuarios han hecho nada malo intencionadamente. De lo que estamos hablando aquí es de una posible brecha de responsabilidad entre el malhechor (en este caso la máquina) y la parte responsable.
Poniendo un ejemplo más práctico: supongamos que un coche totalmente autónomo atropella a un peatón, y supongamos que el peatón es completamente inocente y el accidente fue causado por un mal funcionamiento imprevisto y totalmente imprevisible del sistema, de modo que no puede tratarse de una simple negligencia por parte de él. de los desarrolladores.
¿Quién debería acudir a los tribunales por asesinato? ¿Los pasajeros que no conducían? ¿El programador que podría haberlo evitado de alguna manera? ¿La empresa que simplemente comercializó el producto después de probarlo adecuadamente?
Algunos sugieren que podríamos atribuir responsabilidades legales a la propia inteligencia artificial, convirtiéndola en una entidad legal como ya lo hacemos con determinadas empresas, como las sociedades de responsabilidad limitada (LLC). Sin embargo, la comparación no es obvia y existen diferencias importantes entre ambos casos.
Cualquiera que sea el modo en que se aborden estas cuestiones, lo cierto es que será cada vez más necesario diseñar sus propias regulaciones en términos de regulación de la inteligencia artificial. Aunque tanto Estados Unidos como la Unión Europea han anunciado planes para discutir principios sobre los cuales abordar la cuestión, el caso del bloque ChatGPT en Italia subraya que todavía queda mucho por hacer. La actitud adoptada por la Garante della Privacy ha resultado ser demasiado conservadora y, en última instancia, intenta eludir la cuestión.
De hecho, el quid de la cuestión no es que OpenAI esté intentando eludir la normativa GDPR (aunque ha anunciado importantes medidas para adaptarse a las exigencias de las autoridades italianas). La dificultad radica en el hecho de que el GDPR está obsoleto en lo que respecta a tecnologías autónomas como éstas.
Esconder la cabeza en la arena es una expresión de ludismo que no hace más que disuadir, por un lado, a las empresas de innovar y proponer soluciones y mejoras y, por otro lado, a los consumidores de confiar en tales innovaciones y adoptarlas de manera consciente y responsable. manera.
Este artículo fue escrito por Emanuele Martinelli. Emanuele es miembro de Young Voices Europe y estudiante de doctorado italiano en la Universidad de Zurich. Trabaja sobre los límites y modalidades de las aplicaciones de la tecnología de IA en la planificación económica y trabaja como corrector y traductor en los sectores académico y literario. Emanuele también trabaja con Liberales Institut, un grupo de expertos suizo.
1 ChatGPT deshabilitado en Italia: ¿el problema de los datos de ChatGPT y los motivos del bloqueo del Garante de Privacidad?
2 Inteligencia artificial, Privacy Garantor bloquea ChatGPT.
3 MSN. (Dakota del Norte). El error ChatGPT expuso más datos privados de lo que se pensaba anteriormente, confirma OpenAI.
-
Startups8 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Recursos8 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Recursos8 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Recursos8 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Estudiar IA8 meses ago
Curso de Inteligencia Artificial de UC Berkeley estratégico para negocios
-
Tutoriales8 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Eventos8 meses ago
La nueva era de la inteligencia artificial por el Washington Post – Mayo 2024
-
Startups6 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024