Adobe Premiere Pro 引入AI提升对话音质；Stable Diffusion：AI图像生成简介

在这里插入图片描述

🦉 AI新闻

🚀 Adobe Premiere Pro 引入AI提升对话音质

摘要：Adobe公司最近发布了一项更新，为其视频编辑软件Premiere Pro（22.4版本）新增了一个名为Enhance Speech的功能，通过AI技术自动调节对话的质量和清晰度，以减少背景噪音并改善音质。此次更新还包括其他AI驱动的音频工具，如交互式淡入淡出处理和音频类别标记，进一步优化视频音频编辑效果。这些功能均在设备上运行，利用CPU和GPU，以确保应用程序的速度和性能。此外，新版还支持将视频导出至Tiktok平台，旨在提高用户编辑视频的效率。

🚀 联发科芯片优化支持谷歌大语言模型Gemini

摘要：联发科宣布其天玑9300和8300芯片已针对谷歌的Gemini Nano大语言模型进行优化，旨在为开发人员和OEM提供将生成式AI功能更新至用户设备的能力。此外，联发科与谷歌计划发布可在天玑9300和8300上运行的APK，以便部署Gemini Nano应用。谷歌此前将Bard AI聊天机器人更名为Gemini，并推出针对Android用户的专用应用，而iPhone用户可通过Google应用使用其功能。Gemini Pro为标准版本，而更强大的Gemini Ultra则需通过订阅Google One AI Premium计划获得。

🚀 陶哲轩谈AI在数学中的应用前景

摘要：著名数学家陶哲轩在Quantamagazine的访谈中讨论了人工智能(AI)对数学领域的影响。他预测，数学将经历文化转变，接受由AI生成的证明。陶哲轩表示，AI不仅能辅助解决数学问题，还使业余数学家能做出贡献，推动数学的协作和跨学科研究。他个人也是ChatGPT的早期用户，通过AI工具辅助研究和教学。陶哲轩希望AI的发展能简化复杂证明，提高研究效率，并期待AI工具在生成数学证明方面的进步。

🚀 英伟达CEO偏爱Perplexity AI 聊天机器人

摘要：英伟达CEO黄仁勋在接受Wired访谈时透露，相较于ChatGPT或Bard等聊天工具，他更青睐于较不为人知的Perplexity AI，并且几乎日常使用它及ChatGPT。黄仁勋主要利用这些聊天机器人进行研究，尤其是在计算机辅助药物发现领域。Perplexity AI以其查询便捷性和深入话题探讨能力吸引了黄。英伟达也参与了其B轮融资，支持Perplexity开发。此外，黄仁勋还谈及了“AI工厂”及与台积电高管的交流等内容。

🚀 谷歌发布全新AI视频模型 VideoPrism

摘要：谷歌推出的通用视觉编码器VideoPrism，通过在3600万高质量视频字幕对和5.82亿视频剪辑数据集上的训练，实现了在33项视频理解基准测试中刷新30项SOTA记录。VideoPrism设计理念是通过两阶段训练，整合视频中的多维度信号（如语义、外观、运动和时空信息），有效处理视频分类、定位、检索、字幕和问答等广泛的视频理解任务。该模型不仅能精准理解和生成视频内容的描述，还在科学领域的视频分析任务中表现出色，显示出强大的泛化能力。

🗼 AI知识

🔥 Stable Diffusion：AI图像生成简介

稳定扩散（Stable Diffusion）模型是一种人工智能图像生成模型，它能够通过文字描述来生成引人注目的视觉图像。该模型由多个组件和模型构成，包括文本编码器、图像信息生成器和图像解码器。首先，文本编码器将输入的文本转化为表示每个单词/标记的数字化向量。然后，图像信息生成器通过多个步骤逐渐生成图像信息，这一过程发生在图像信息空间（或称潜在空间）中，而不是像素空间。最后，图像解码器利用生成的信息来绘制最终的像素图像。稳定扩散模型通过扩散过程生成图像，即通过逐步添加相关信息来逐渐生成高质量的图像。该模型还可以结合文本输入，以控制生成的图像类型。此外，为了加速图像生成过程，稳定扩散模型将扩散过程应用于图像的压缩版本，而不是直接应用于像素图像本身。最后，模型还利用变换语言模型来将文本信息融入图像生成过程中。

🔥 300天里，我帮你踩遍了AIGC创业的各种坑

三个关于人工智能的“反常识的陷阱”：第一个是“你学习了很多提示词，不等于你就能用它来创业”，提示词工程师的发展出现了漏洞，提示词的使用受到了外部平台规则的限制。第二个是“AI暂时还不是一套端到端的解决方案，而是一个前缀很长的定制工具”，AI产品的落地需要具体的细分和前缀拆分来实现。第三个是“To C看着很热闹，但To B才是AIGC的用武之地”，即AI产品的真实目的是为了挣钱，而不是单纯的好奇心或娱乐。

更多AI工具，参考国内AiBard123，Github-AiBard123