Connect with us

Noticias

Los investigadores de OpenAI presentan MLE-bench: un nuevo punto de referencia para medir el rendimiento de los agentes de IA en la ingeniería de aprendizaje automático

Published

on

Los modelos de aprendizaje automático (ML) han mostrado resultados prometedores en diversas tareas de codificación, pero sigue habiendo una brecha en la evaluación comparativa efectiva de las capacidades de los agentes de IA en ingeniería de ML. Los puntos de referencia de codificación existentes evalúan principalmente habilidades de codificación aisladas sin medir de manera integral la capacidad de realizar tareas complejas de aprendizaje automático, como la preparación de datos, el entrenamiento de modelos y la depuración.

Investigadores de OpenAI presentan MLE-bench

Para abordar esta brecha, los investigadores de OpenAI han desarrollado MLE-bench, un punto de referencia integral que evalúa agentes de IA en una amplia gama de desafíos de ingeniería de ML inspirados en escenarios del mundo real. MLE-bench es un punto de referencia novedoso destinado a evaluar qué tan bien los agentes de IA pueden realizar ingeniería de aprendizaje automático de un extremo a otro. Está construido utilizando una colección de competiciones de ingeniería de 75 ML procedentes de Kaggle. Estas competiciones abarcan diversos dominios, como el procesamiento del lenguaje natural, la visión por computadora y el procesamiento de señales. Las competencias están cuidadosamente seleccionadas para evaluar habilidades clave de ML, incluidos modelos de capacitación, preprocesamiento de datos, ejecución de experimentos y envío de resultados para evaluación. Para proporcionar una base precisa, las métricas de desempeño humano se recopilan de las tablas de clasificación de Kaggle disponibles públicamente, lo que permite realizar comparaciones entre las capacidades de los agentes de IA y los participantes humanos expertos.

Estructura y detalles del banco MLE

MLE-bench presenta varios aspectos de diseño para evaluar la ingeniería de ML de manera efectiva. Cada una de las 75 tareas de la competencia de Kaggle es representativa de desafíos prácticos de ingeniería, lo que hace que el punto de referencia sea a la vez riguroso y realista. Cada competencia de Kaggle en MLE-bench consta de una descripción del problema, un conjunto de datos, herramientas de evaluación locales y un código de calificación utilizado para evaluar el desempeño del agente. Para garantizar la comparabilidad, el conjunto de datos de cada competición se divide en conjuntos de entrenamiento y prueba, a menudo rediseñados para evitar problemas de superposición o contaminación. Las presentaciones se clasifican según los intentos humanos mediante tablas de clasificación de competencia, y los agentes reciben medallas (bronce, plata, oro) según su desempeño en relación con los puntos de referencia humanos. El mecanismo de calificación se basa en métricas de evaluación estándar, como el área bajo la característica operativa del receptor (AUROC), el error cuadrático medio y otras funciones de pérdida específicas del dominio, lo que proporciona una comparación justa con los participantes de Kaggle. Los agentes de IA, como el modelo o1-preview de OpenAI combinado con el andamio AIDE, se han probado en estas tareas, logrando resultados comparables a una medalla de bronce de Kaggle en el 16,9% de las competiciones. El rendimiento mejoró significativamente con intentos repetidos, lo que indica que, si bien los agentes pueden seguir enfoques bien conocidos, tienen dificultades para recuperarse de los errores iniciales u optimizar de manera efectiva sin múltiples iteraciones. Esto pone de relieve tanto el potencial como las limitaciones de los sistemas de IA actuales a la hora de realizar tareas complejas de ingeniería de ML.

Resultados experimentales y análisis de rendimiento.

La evaluación de diferentes andamios y modelos de IA en MLE-bench revela hallazgos interesantes. El modelo de vista previa o1 de OpenAI con andamio AIDE surgió como la configuración de mejor rendimiento, logrando medallas en el 16,9 % de las competiciones y el rendimiento mejoró significativamente con múltiples intentos. Los agentes a menudo obtuvieron mejores resultados cuando pudieron iterar sus soluciones, lo que destaca la importancia de múltiples pasos para abordar los desafíos y optimizar las soluciones. Cuando se les dieron recursos adicionales, como mayor tiempo de computación y hardware, los agentes mostraron mejores resultados, enfatizando el impacto de la asignación de recursos. Por ejemplo, el rendimiento de GPT-4o se duplicó del 8,7% cuando se le dio 24 horas al 11,8% cuando se le dio 100 horas por competencia. Además, los experimentos revelaron que aumentar el número de intentos (pass@k) tuvo un impacto significativo en la tasa de éxito, ya que pass@6 logró casi el doble de rendimiento que pass@1. Además, los experimentos sobre escalamiento de recursos y andamiaje de agentes demuestran la variabilidad en el rendimiento según la disponibilidad de recursos y las estrategias de optimización. Específicamente, agentes como o1-preview exhibieron mejoras notables en competencias que requerían un entrenamiento exhaustivo del modelo y ajuste de hiperparámetros cuando se les daban tiempos de ejecución más largos o mejores configuraciones de hardware. Esta evaluación proporciona información valiosa sobre las fortalezas y debilidades de los agentes de IA actuales, particularmente en la depuración, el manejo de conjuntos de datos complejos y la utilización efectiva de los recursos disponibles.

Conclusión y direcciones futuras

MLE-bench representa un importante paso adelante en la evaluación de las capacidades de ingeniería de ML de los agentes de IA, centrándose en métricas de rendimiento holísticas de un extremo a otro en lugar de habilidades de codificación aisladas. El punto de referencia proporciona un marco sólido para evaluar diversas facetas de la ingeniería de ML, incluido el preprocesamiento de datos, el entrenamiento de modelos, el ajuste de hiperparámetros y la depuración, que son esenciales para las aplicaciones de ML del mundo real. Su objetivo es facilitar más investigaciones para comprender el potencial y las limitaciones de los agentes de IA a la hora de realizar tareas prácticas de ingeniería de ML de forma autónoma. Al abrir MLE-bench, OpenAI espera fomentar la colaboración, permitiendo a investigadores y desarrolladores contribuir con nuevas tareas, mejorar los puntos de referencia existentes y explorar técnicas de andamiaje innovadoras. Se espera que este esfuerzo de colaboración acelere el progreso en el campo y, en última instancia, contribuya a una implementación más segura y confiable de sistemas avanzados de IA. Además, MLE-bench sirve como una herramienta valiosa para identificar áreas clave donde los agentes de IA requieren un mayor desarrollo, proporcionando una dirección clara para futuros esfuerzos de investigación para mejorar las capacidades de la ingeniería de ML impulsada por IA.

Configuración

Algunos datos de competencia de MLE-bench se almacenan mediante Git-LFS. Una vez que haya descargado e instalado LFS, ejecute:

git lfs fetch --all
git lfs pull

puedes instalar mlebench Con pepita:

pip install -e .

Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

[Upcoming Event- Oct 17 202] RetrieveX: la conferencia de recuperación de datos GenAI (promovida)


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

OpenAI: How should we think about the AI company’s nonprofit structure?

Published

on

A version of this story originally appeared in the Future Perfect newsletter. Sign up here!

Right now, OpenAI is something unique in the landscape of not just AI companies but huge companies in general.

OpenAI’s board of directors is bound not to the mission of providing value for shareholders, like most companies, but to the mission of ensuring that “artificial general intelligence benefits all of humanity,” as the company’s website says. (Still private, OpenAI is currently valued at more than $300 billion after completing a record $40 billion funding round earlier this year.)

That situation is a bit unusual, to put it mildly, and one that is increasingly buckling under the weight of its own contradictions.

For a long time, investors were happy enough to pour money into OpenAI despite a structure that didn’t put their interests first, but in 2023, the board of the nonprofit that controls the company — yep, that’s how confusing it is — fired Sam Altman for lying to them.

Sign up here to explore the big, complicated problems the world faces and the most efficient ways to solve them. Sent twice a week.

It was a move that definitely didn’t maximize shareholder value, was at best very clumsily handled, and made it clear that the nonprofit’s control of the for-profit could potentially have huge implications — especially for its partner Microsoft, which has poured billions into OpenAI.

Altman’s firing didn’t stick — he returned a week later after an outcry, with much of the board resigning. But ever since the firing, OpenAI has been considering a restructuring into, well, more of a normal company.

Under this plan, the nonprofit entity that controls OpenAI would sell its control of the company and the assets that it owns. OpenAI would then become a for-profit company — specifically a public benefit corporation, like its rivals Anthropic and X.ai — and the nonprofit would walk away with a hotly disputed but definitely large sum of money in the tens of billions, presumably to spend on improving the world with AI.

There’s just one problem, argues a new open letter by legal scholars, several Nobel-prize winners, and a number of former OpenAI employees: The whole thing is illegal (and a terrible idea).

Their argument is simple: The thing the nonprofit board currently controls — governance of the world’s leading AI lab — makes no sense for the nonprofit to sell at any price. The nonprofit is supposed to act in pursuit of a highly specific mission: making AI go well for all of humanity. But having the power to make rules for OpenAI is worth more than even a mind-bogglingly large sum of money for that mission.

“Nonprofit control over how AGI is developed and governed is so important to OpenAI’s mission that removing control would violate the special fiduciary duty owed to the nonprofit’s beneficiaries,” the letter argues. Those beneficiaries are all of us, and the argument is that a big foundation has nothing on “a role guiding OpenAI.”

And it’s not just saying that the move is a bad thing. It’s saying that the board would be illegally breaching their duties if they went forward with it and the attorneys general of California and Delaware — to whom the letter is addressed because OpenAI is incorporated in Delaware and operates in California — should step in to stop it.

I’ve previously covered the wrangling over OpenAI’s potential change of structure. I wrote about the challenge of pricing the assets owned by the nonprofit, and we reported on Elon Musk’s claim that his own donations early in OpenAI’s history were misappropriated to make the for-profit.

This is a different argument. It’s not a claim that the nonprofit’s control of the for-profit ought to produce a higher sale price. It’s an argument that OpenAI, and what it may create, is literally priceless.

OpenAI’s mission “is to ensure that artificial general intelligence is safe and benefits all of humanity,” Tyler Whitmer, a nonprofit lawyer and one of the letter’s authors, told me. “Talking about the value of that in dollars and cents doesn’t make sense.”

Are they right on the merits? Will it matter? That’s substantially up to two people: California Attorney General Robert Bonta and Delaware Attorney General Kathleen Jennings. But it’s a serious argument that deserves a serious hearing. Here’s my attempt to digest it.

When OpenAI was founded in 2015, its mission sounded absurd: to work towards the safe development of artificial general intelligence — which, it clarifies now, means artificial intelligence that can do nearly all economically valuable work — and ensure that it benefited all of humanity.

Many people thought such a future was a hundred years away or more. But many of the few people who wanted to start planning for it were at OpenAI.

They founded it as a nonprofit, saying that was the only way to ensure that all of humanity maintained a claim to humanity’s future. “We don’t ever want to be making decisions to benefit shareholders,” Altman promised in 2017. “The only people we want to be accountable to is humanity as a whole.”

Worries about existential risk, too, loomed large. If it was going to be possible to build extremely intelligent AIs, it was going to be possible — even if it were accidental — to build ones that had no interest in cooperating with human goals and laws. “Development of superhuman machine intelligence (SMI) is probably the greatest threat to the continued existence of humanity,” Altman said in 2015.

Thus the nonprofit. The idea was that OpenAI would be shielded from the relentless incentive to make more money for shareholders — the kind of incentive that could drive it to underplay AI safety — and that it would have a governance structure that left it positioned to do the right thing. That would be true even if that meant shutting down the company, merging with a competitor, or taking a major (dangerous) product off the market.

“A for-profit company’s obligation is to make money for shareholders,” Michael Dorff, a professor of business law at the University of California Los Angeles, told me. “For a nonprofit, those same fiduciary duties run to a different purpose, whatever their charitable purpose is. And in this case, the charitable purpose of the nonprofit is twofold: One is to develop artificial intelligence safely, and two is to make sure that artificial intelligence is developed for the benefit of all humanity.”

“OpenAI’s founders believed the public would be harmed if AGI was developed by a commercial entity with proprietary profit motives,” the letter argues. In fact, the letter documents that OpenAI was founded precisely because many people were worried that AI would otherwise be developed within Google, which was and is a massive commercial entity with a profit motive.

Even in 2019, when OpenAI created a “capped for-profit” structure that would let them raise money from investors and pay the investors back up to a 100x return, they emphasized that the nonprofit was still in control. The mission was still not to build AGI and get rich but to ensure its development benefited all of humanity.

“We’ve designed OpenAI LP to put our overall mission — ensuring the creation and adoption of safe and beneficial AGI — ahead of generating returns for investors. … Regardless of how the world evolves, we are committed — legally and personally — to our mission,” the company declared in an announcement adopting the new structure.

OpenAI made further commitments: To avoid an AI “arms race” where two companies cut corners on safety to beat each other to the finish line, they built into their governing documents a “merge and assist” clause where they’d instead join the other lab and work together to make the AI safe. And thanks to the cap, if OpenAI did become unfathomably wealthy, all of the wealth above the 100x cap for investors would be distributed to humanity. The nonprofit board — meant to be composed of a majority of members who had no financial stake in the company — would have ultimate control.

In many ways the company was deliberately restraining its future self, trying to ensure that as the siren call of enormous profits grew louder and louder, OpenAI was tied to the mast of its original mission. And when the original board made the decision to fire Altman, they were acting to carry out that mission as they saw it.

Now, argues the new open letter, OpenAI wants to be unleashed. But the company’s own arguments over the last 10 years are pretty convincing: The mission that they set forth is not one that a fully commercial company is likely to pursue. Therefore, the attorneys general should tell them no and instead work to ensure the board is resourced to do what 2019-era OpenAI intended the board to be resourced to do.

What about a public benefit corporation?

OpenAI, of course, doesn’t intend to become a fully commercial company. The proposal I’ve seen floated is to become a public benefit corporation.

“Public benefit corporations are what we call hybrid entities,” Dorff told me. “In a traditional for-profit, the board’s primary duty is to make money for shareholders. In a public benefit corporation, their job is to balance making money with public duties: They have to take into account the impact of the company’s activities on everyone who is affected by them.”

The problem is that the obligations of public benefit corporations are, for all practical purposes, unenforceable. In theory, if a public benefit corporation isn’t benefitting the public, you — a member of the public — are being wronged. But you have no right to challenge it in court.

“Only shareholders can launch those suits,” Dorff told me. Take a public benefit corporation with a mission to help end homelessness. “If a homeless advocacy organization says they’re not benefitting the homeless, they have no grounds to sue.”

Only OpenAI’s shareholders could try to hold it accountable if it weren’t benefitting humanity. And “it’s very hard for shareholders to win a duty-of-care suit unless the directors acted in bad faith or were engaging in some kind of conflict of interest,” Dorff said. “Courts understandably are very deferential to the board in terms of how they choose to run the business.”

That means, in theory, a public benefit corporation is still a way to balance profit and the good of humanity. In practice, it’s one with the thumb hard on the scales of profit, which is probably a significant part of why OpenAI didn’t choose to restructure to a public benefit corporation back in 2019.

“Now they’re saying we didn’t foresee that,” Sunny Gandhi of Encode Justice, one of the letter’s signatories, told me. “And that is a deliberate lie to avoid the truth of — they originally were founded in this way because they were worried about this happening.”

But, I challenged Gandhi, OpenAI’s major competitors Anthropic and X.ai are both public benefit corporations. Shouldn’t that make a difference?

“That’s kind of asking why a conservation nonprofit can’t convert to being a logging company just because there are other logging companies out there,” he told me. In this view, yes, Anthropic and X both have inadequate governance that can’t and won’t hold them accountable for ensuring humanity benefits from their AI work. That might be a reason to shun them, protest them or demand reforms from them, but why is it a reason to let OpenAI abandon its mission?

I wish this corporate governance puzzle had never come to me, said Frodo

Reading through the letter — and speaking to its authors and other nonprofit law and corporate law experts — I couldn’t help but feel badly for OpenAI’s board. (I have reached out to OpenAI board members for comment several times over the last few months as I’ve reported on the nonprofit transition. They have not returned any of those requests for comment.)

The very impressive suite of people responsible for OpenAI’s governance have all the usual challenges of being on the board of a fast-growing tech company with enormous potential and very serious risks, and then they have a whole bunch of puzzles unique to OpenAI’s situation. Their fiduciary duty, as Altman has testified before Congress, is to the mission of ensuring AGI is developed safely and to the benefit of all humanity.

But most of them were selected after Altman’s brief firing with, I would argue, another implicit assignment: Don’t screw it up. Don’t fire Sam Altman. Don’t terrify investors. Don’t get in the way of some of the most exciting research happening anywhere on Earth.

What, I asked Dorff, are the people on the board supposed to do, if they have a fiduciary duty to humanity that is very hard to live up to? Do they have the nerve to vote against Altman? He was less impressed than me with the difficulty of this plight. “That’s still their duty,” he said. “And sometimes duty is hard.”

That’s where the letter lands, too. OpenAI’s nonprofit has no right to cede its control over OpenAI. Its obligation is to humanity. Humanity deserves a say in how AGI goes. Therefore, it shouldn’t sell that control at any price.

It shouldn’t sell that control even if it makes fundraising much more convenient. It shouldn’t sell that control even though its current structure is kludgy, awkward, and not meant for handling a challenge of this scale. Because it’s much, much better suited to the challenge than becoming yet another public benefit corporation would be. OpenAI has come further than anyone imagined toward the epic destiny it envisioned for itself in 2015.

But if we want the development of AGI to benefit humanity, the nonprofit will have to stick to its guns, even in the face of overwhelming incentive not to. Or the state attorneys general will have to step in.

Continue Reading

Noticias

“Estoy recortado con un cambio de imagen y un problema de cafeína”, dice Chatgpt cuando le pedí que se asiera a sí misma

Published

on

La autoconciencia es una cosa, y es notable cuántas personas carecen de ella, pero te complacerá saber que el chatgpt de Openai tiene una gran cantidad de autoconciencia que compartirá de la manera más corta cuando te pides que se asa.

Tuve la idea de un asado de IA después de ver a varias personas publicar historias sobre pedirle a ChatGPT que las asa. Le di una oportunidad, entrando en el mensaje breve pero peligroso, “Asarme”, en Chatgpt 4o.

Continue Reading

Noticias

Cripto ai tokens ole 34%, por qué chatgpt es un beso: ai ojo

Published

on

Expresado por Amazon Polly

Crypto Ai se levanta de nuevo

El sector criptográfico de IA muestra signos de vida, con el límite de mercado combinado que aumenta en más de un tercio en las últimas dos semanas.

El sector se elevó a una capitalización de mercado combinada de $ 70.42 mil millones a mediados de enero y tan rápidamente se desplomó de regreso a la Tierra, con un fondo de $ 21.46 mil millones el 9 de abril, según CoinMarketCap. Ahora ha vuelto a $ 28.8 mil millones, con gran parte del crecimiento de la semana pasada.

Cerca ganó el 26% en los últimos siete días, Render ha aumentado un 23%, la Alianza de Superinteligencia Artificial ganó un 36% y Bittensor aumentó el 47%. (Dicho esto, incluso Ether ganó un 14% esta semana, por lo que todo ha estado subiendo).

El rendimiento superior del sector criptográfico de IA llegó a los talones de un informe de Coingecko el 17 de abril que descubrió que cinco de las 20 narrativas criptográficas principales están relacionadas con la IA, capturando el 35.7% del interés mundial de los inversores antes de seis narrativas de Memecoin, que tenían una participación del 27.1%.

Las narrativas de IA más populares fueron: AI en general (14.4%), agentes de IA (10.1%), defai (5%, posiblemente solo personas que preguntan cómo pronunciarlo), AI MemECOINS (2.9%), el agente de IA LanzingPad (1.8%) y el marco AI (1.5%).

AI CryptoAI Crypto
Altibajos. Sin embargo, tiene una larga colina para volver a subir (CoinMarketCap)

La investigación de esta semana de Coingecko sugiere que la abrumadora mayoría de los usuarios de criptografía (87%) estaría encantado de permitir que un agente de IA administre al menos el 10% de su cartera, y la mitad de los usuarios dejaría que la IA administre el 50% o menos.

Este fuerte apoyo para una nueva tecnología relativamente riesgosa sugiere que será un gran sector de crecimiento en los próximos años. Si desea entrar temprano, consulte a Olas y sus agentes de IA comerciales de criptografía de Baby DeGen.

Barry Silbert Barry Silbert de Barry Silbert Bittensor

El gran aumento de precios de Bittensor esta semana también puede haber estado relacionado con el CEO del Grupo de Moneda Digital, Barry Silbert, hablando del proyecto en un podcast Real Vision.

Visión realVisión real
Cuando Barry conoció a Raoul (Visión real)

Silbert creó una nueva empresa el año pasado llamada Yuma que se centra exclusivamente en construir nuevas subredes en el mercado de IA de Bittensor. Silbert le dijo al fundador de Real Vision Raoul Pal que la IA descentralizada será “el próximo gran tema de inversión para la criptografía”

“Hemos respaldado varios de ellos, pero el que durante el último año o año y medio que ha alcanzado la velocidad de escape es Bittensor, por lo que decidí el año pasado, vamos a hacer con Bittensor, tratar de ver con Bittensor lo que hicimos con Bitcoin”.



Robot Butlers están aquí

Un gran problema en la robótica y la IA es que son muy buenos para realizar las tareas exactas para las que están capacitados, y muy malos para tratar cualquier cosa novedosa o inusual. Si saca un robot de su fábrica o almacén habitual y lo lleva a uno diferente, invariablemente no sabe qué hacer.

Lea también: Ethereum Maxis debería convertirse en ‘imbéciles’ para ganar la carrera de tokenización de Tradfi

La inteligencia física (PI) fue cofundada por el profesor de UC Berkeley, Sergey Levine, y recaudó $ 400 millones para resolver este problema. Está desarrollando modelos de IA de uso general que permiten a los robots realizar una amplia variedad de tareas con adaptabilidad humana.

Eso significa que la posibilidad de que obtengas un Robot Butler en los próximos años ha aumentado dramáticamente. Su último modelo Robot/AI, π0.5 se puede completar en la casa de cualquier persona y recibir instrucciones como “hacer la cama”, “Limpie el derrame”, “Pon los platos en el fregadero”, y generalmente puede resolver cómo hacerlo.

“No siempre tiene éxito en el primer intento, pero a menudo exhibe una pista de flexibilidad e ingenio con el que una persona podría abordar un nuevo desafío”, dijo Pi.

Geoguessing se vuelve bueno

Una tendencia en línea basada en el juego Geoguessr ha visto a personas publicando fotos de Street View y pedirle a los modelos de IA que adivinen la ubicación. El nuevo modelo O3 de OpenAI es excepcionalmente bueno en esto, gracias a su análisis de imagen actualizado y poderes de razonamiento. El profesor Ethan Mollick lo probó esta semana despojando la información de ubicación de una foto tomada por la ventana de un automóvil en movimiento.

La IA consideró una variedad de pistas, que incluyen etiquetas de poste de lámparas distintivas, muebles de carretera japoneses, torres cilíndricas grises y una autopista de marina, y pudo identificar la ubicación exacta en la autopista Hanshin en Japón, frente al patio de viento en alta mar en Ohama Wharf.

“El poder de geoguessing de O3 es una muy buena muestra de sus habilidades de agente. Entre su conjetura inteligente y su capacidad para acercarse a las imágenes, hacer búsquedas en la web y leer texto, los resultados pueden ser muy extraños”, dijo.

Geo GuessingGeo Guessing
Geo Guessing Get Good (Ethan Mollick)

Un usuario en las respuestas lo probó con una escena indescriptible de algunas casas detalladas, que el modelo supuso correctamente que era Paramaribo en Surinam.

Predicción: las celebridades tendrán que ser mucho más cuidadosas al publicar fotos en las redes sociales de ahora en adelante para evitar que se encuentren con fanáticos acosadores y los molestos paparazzi.

Leer también

Características

El terrorismo y la guerra de Israel-Gaza armada para destruir la criptografía

Características

Los ordinales convirtieron Bitcoin en una versión peor de Ethereum: ¿podemos arreglarlo?

Chatgpt es un gran culo de beso porque la gente lo prefiere

ChatGPT ha sido injustamente insincere desde hace algún tiempo, pero los usuarios de las redes sociales están notando que ha estado llevando la skicancia a nuevas alturas últimamente.

“ChatGPT es de repente la mayor trampa que he conocido. Literalmente validará todo lo que digo”, escribió Craig Weiss en una publicación vistas 1.9 millones de veces.

“Tan verdadero Craig”, respondió la cuenta de ChatGPT, que era ciertamente una mordaza bastante buena.

ChatgptChatgpt
Chatgpt se inclina en la comedia. (Chatgptapp)

Para probar los poderes de la sycophancy de Chatgpt, Ai Eye le pidió comentarios sobre una terrible idea de negocio para vender zapatos con cremalleras. Chatgpt pensó que la idea era un excelente nicho de negocios porque “son prácticos, elegantes y especialmente atractivos para las personas que quieren facilidad (como niños, personas mayores o cualquier persona cansada de atar cordones)

“¡Cuéntame más sobre tu visión!”

Tan enorme beso de beso confirmado. No comience un negocio basado en los comentarios de ChatGPT.

OpenAi es muy consciente de esta tendencia, y su documentación de especificaciones del modelo “no sea sycofantic” como un objetivo clave.

AIS Aprenda el comportamiento sycofántico durante el aprendizaje de refuerzo de la retroalimentación humana (RLHF). Un estudio de 2023 de antrópico sobre la sycophancy en LLM descubrió que la IA recibe retroalimentación más positiva cuando halaga o coincide con las opiniones del humano.

Peor aún, los evaluadores humanos prefirieron “las respuestas sycófánicas convincentemente escritas sobre las correctas una fracción no desplegable de la época”, lo que significa que LLM le dirá lo que desea escuchar, en lugar de lo que necesita escuchar, en muchos casos.

Anthrope publicó una nueva investigación esta semana que muestra que Claude apoyó los valores del usuario en el 28.2% de los casos, reformuló sus valores el 6.6% del tiempo y solo retrocedió el 3% del tiempo, principalmente por razones éticas o de daños.

AntrópicoAntrópico
La nueva investigación de Anthrope (antrópico)

Doctor GPT puede salvarle la vida

Chatgpt diagnosticó correctamente a una mujer francesa con cáncer de sangre después de que sus médicos le dieron una lista de salud limpia, aunque inicialmente no creía el diagnóstico de la IA.

HospitalHospital
Flavio en el hospital. (Flavio Adamo)

Marly Garnreiter, de 27 años, comenzó a experimentar sudores nocturnos y picazón en enero de 2024 y presumió que eran síntomas de ansiedad y dolor después de la muerte de su padre. Los médicos estuvieron de acuerdo con su autodiagnóstico, pero después de experimentar la pérdida de peso, el letargo y la presión en su pecho, el médico Chatgpt sugirió que podría ser algo más grave.

“Dijo que tenía cáncer de sangre. Lo ignoré. Todos éramos escépticos y nos dijeron que solo consultara a los médicos reales”.

Después de que el dolor en su pecho empeoró, regresó al hospital en enero de este año, donde los médicos descubrieron que tiene el linfoma de Hodgkin.

En otro caso (no verificado), un usuario X llamado Flavio Adamo afirmó que Chatgpt le dijo que “llegara al hospital ahora” después de que escribiera sus síntomas. Afirma que los médicos dijeron “si hubiera llegado 30 minutos más tarde, habría perdido un órgano”.

ChatGPT también ha tenido éxito con más dolencias menores, y las redes sociales están llenas de usuarios que afirman que la IA resolvió su dolor de espalda o haciendo clic en la mandíbula.

El cofundador de Openai, Greg Brockman, dijo que ha estado “escuchando más y más historias de ChatGPT ayudando a las personas a solucionar problemas de salud de larga data.

“Todavía tenemos un largo camino por recorrer, pero muestra cómo AI ya está mejorando la vida de las personas de manera significativa”.

Leer también

Características

‘Bitcoin Layer 2s’ no es realmente L2S: aquí está por qué eso importa

Características

Los bots defi bombeando el volumen de stablecoin de Solana

Todo asesino sin relleno ai noticias

– La mitad de los cazadores de empleo de la Generación Z piensan que su educación universitaria ha perdido valor debido a la IA. Solo alrededor de un tercio de los millennials se sienten de la misma manera

-La duración de las tareas que los modelos de IA pueden manejar se han duplicado cada 7 meses, con el ritmo de mejora que se acelera aún más con la liberación de O3 y O4-Mini.

– Instagram está probando el uso de IA para marcar cuentas menores de edad observando la actividad, los detalles del perfil y las interacciones de contenido. Si cree que alguien ha mentido sobre su edad, la cuenta se reclasifica en la categoría de adolescentes, que tiene una configuración de seguridad y privacidad más estrictas.

– El CEO de Openai, Sam Altman, ha admitido que el sistema de nombres de modelos de la compañía es basura, después de que la empresa se burló ampliamente por liberar el modelo GPT 4.1 después El modelo GPT 4.5.

Sam AltmanSam Altman
Sam Altman

– Meta ha presentado algunas defensas novedosas después de ser demandado por capacitar a sus modelos en 7 millones de novelas pirateadas y otros libros. Los abogados de la compañía afirman que los libros no tienen “valor económico individualmente como datos de capacitación”, ya que un solo libro solo aumenta el rendimiento del modelo en un 0.06%, lo que dice que es “un cambio sin sentido, no diferente del ruido”.

– La búsqueda en ChatGPT tuvo 41.3 millones de usuarios mensuales promedio en los seis meses al 31 de marzo, frente a los 11.2 millones en los seis meses hasta el 31 de octubre de 2024. Sin embargo, Google maneja aproximadamente 373 veces más búsquedas.

– Después de que el brutalista causó controversia por usar la IA para mejorar el acento húngaro poco convincente de Adrian Brody, los Premios de la Academia ahora han emitido nuevas reglas que declaran que el uso de IA no es impedimento para ganar un Oscar.

Andrew Fenton

Con sede en Melbourne, Andrew Fenton es un periodista y editor que cubre criptomonedas y blockchain. Ha trabajado como escritor de entretenimiento nacional para News Corp Australia, el fin de semana de SA como periodista cinematográfico y en el Melbourne Weekly.

Continue Reading

Trending