乌鸦AI日报:快手、百度地图上线苹果Vision Pro,Runway Gen 3可生成3D巨幅字幕效果

乌鸦AI日报

快手推出苹果Vision Pro版本应用,可以多开屏幕和页面,实现“边刷视频边评论”。百度地图也上线了“百度地图时光机”的Vision Pro应用,用户可体验360度全景地图。

Runway最新推出的Gen-3Alpha视频生成模型在保真度、一致性和动作表现方面有重大改进,不仅生成稳定光影,还展现强大想象力,内测博主展示了3D巨幅字幕效果。

过去的一天,国内外AI行业还有哪些热点值得关注呢?让乌鸦君带你一起看看吧。

/ 01 / 大模型

1)Meta最新发布的LLM Compiler,实现77%自动调优效率

Meta发布开源模型LLM Compiler通过优化编译器设计,实现了77%的自动调优效率,显著提高代码编译的速度和效率;该模型在反汇编任务中表现突出,成功率达45%,为逆向工程和旧代码维护提供了强大工具;该模型在庞大的LLVM-IR和汇编代码库上训练,增强了对编译器中间表示和汇编语言的理解。

2)智谱称国产大模型GLM-4-9B性能超过了谷歌Gemma

针对谷歌新发布的Gemma-2开源模型,国内大模型独角兽智谱 AI 向媒体展示一份数据称,提供的各项评测对比中,近1个月前发布开源的国产大模型GLM-4-9B似乎更具有优势。具体来说,在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B-Chat版本均表现出较高的性能。

3)面壁智能助力全国首个司法审判垂直领域大模型诞生

面壁智能宣布,全国首个司法审判垂直领域大模型于深圳诞生,深圳市中级人民法院上线运行人工智能辅助审判系统,能够精确诊断案情,解决AI在司法领域的应用难题。深圳法院人工智能辅助审判系统具有全流程AI赋能、材料入口要素化、首创树状提示词工程、权威知识服务体系、裁判思维链路标准化等亮点。

4)荣耀与字节豆包大模型达成合作

火山引擎宣布荣耀与字节豆包大模型达成合作。火山引擎首先为其提供了包含语音识别、角色扮演等多款模型在内的豆包大模型家族,构建荣耀垂直模型落地应用的基础能力。在智慧办公领域,豆包大模型可帮助荣耀为用户提供基于文档理解的互动问答、会议纪要以及辅助创作等功能。

5)Runway Gen 3可生成电影片头3D巨幅字幕效果

Runway最新推出的Gen-3Alpha视频生成模型在保真度、一致性和动作表现方面有重大改进,不仅生成稳定光影,还展现强大想象力。内测博主展示了3D巨幅字幕效果,Gen3即将对所有人开放使用。

6)GPTPdf:使用类似GPT-4o的多模态LLM分析PDF文件

开源项目“GPTpdf”在Github爆火,它使用了类似GPT-4o的VLLM模型解析PDF文件并转换为Markdown格式。该项目代码简洁高效,只有293行,却能完美解析排版、数学公式、表格、图片、图表等各种内容。费用每页平均成本为0.013美元。

图片1.png

/ 02 / AI应用

1)苹果或正在将Apple智能引入Vision Pro

科技记者Mark Gurman最新报道,苹果的人工智能套件“Apple智能”即将登陆Vision Pro头显,不过相关功能预计在明年才能推出。Vision Pro具有16GB内存来支持Apple智能运行,并且其操作系统visionOS本质上也是iPadOS的变体,因此Gurman认为,为头显适配Apple智能的难度不会很大。

2)快手、百度地图时光机上线苹果Vision Pro头显

快手官方宣布,推出苹果Vision Pro版本应用,可以多开屏幕和页面,实现“边刷视频、边浏览个人主页、边开启评论面板”。百度地图也上线了“百度地图时光机”的Vision Pro应用,用户可以在应用中体验360度全景地图,用户视野向下,可查看当前地图的时间及地点信息,“双手合十”可切换眼前场景。

3)百度:近八成考生用AI填报志愿

百度官方发布的数据显示,仅6月25日一天,就有超过1000万用户使用了百度AI志愿助手,辅助填报志愿。据悉,高考结束后,全国有超1300万考生陆续进入高考填报志愿环节。此外,夸克App也推出了智能选志愿服务,靠谱AI推出了国内首款多个大语言模型加持的志愿填报AI工具。

4)字节跳动发布豆包MarsCo智能开发工具

字节跳动发布了基于豆包大模型打造的智能开发工具豆包MarsCode,面向国内开发者免费开放。MarsCode包括编程助手和Cloud IDE两种产品形态,支持超过100种主流编程语言,可在需求开发、修复Bug、开源项目学习三个场景中实现项目问答、代码补全、单测生成等功能。

5)热门AI搜索工具Perplexity被指引用错误信息

AI搜索工具Perplexity被曝引用错误的AI生成垃圾信息,这些信息来自LinkedIn文章。初创公司GPTZero发现Perplexity链接的来源中有越来越多是AI生成的,甚至会使用这些来源中的过时和不正确信息。

6)奥迪微软强强联手:约200万辆汽车即将接入ChatGPT

奥迪计划从今年7月起为约200万辆汽车接入ChatGPT技术,以提升车辆的语音控制功能。配备模块化信息娱乐系统(MIB3)的奥迪车型将通过ChatGPT,允许车主在驾驶时使用自然语言查询信息。新车型如Q6 e-tron以及未来搭载E3 1.2电子架构的车型,将接入ChatGPT,扩展奥迪助手的功能。

7)知乎AI搜索功能正式产品化:发布AI产品“知乎直答”

知乎发布最新的AI产品“知乎直答”。“发现·AI搜索”则是基于“知海图AI”大模型能力,推出的一款集新搜索、实时问答和追问功能于一体的尝鲜版AI搜索功能。知乎官方也预告,接下来“知乎直答”将逐步推进App开发和多模态能力的引入。

8)CharacterAI推出新语音功能,可以给AI角色“打电话”

Character.AI推出了能与AI角色进行实时语音通话的功能,支持多种语言包括英语、西班牙语、和中文等;这项功能通过超过300万用户的测试,确保了通话体验的自然流畅性,与真人聊天无明显差异;Character.AI还增强了AI角色的现实感,用户可以选择或创建超过100万种独特的声音。

/ 03 / 投融资情报

1)AI文档搜索公司Hebbia完成近1亿美元B轮融资,估值达8亿美金

据TechCrunch报道,三位知情人士透露,一家研发生成式AI搜索大型文档工具的初创公司Hebbia,近日已完成由Andreessen Horowitz(a16z)领投的近1亿美元B轮融资。

2)吴恩达计划为其AI基金继续筹集1.2亿美元

吴恩达计划为其AI基金筹集超过1.2亿美元,展现了他在人工智能领域的持续投入和影响力。这一举动也反映了人工智能行业的发展趋势和潜在泡沫风险。

3)OpenAI据悉聘请Zapier原首席营收官担任销售战略负责人

据报道,知情人士称,OpenAI正在扩展其企业软件业务,担任企业软件提供商Zapier首席营收官两年多的Giancarlo Lionetti已加入OpenAI,担任销售战略负责人。

/ 04 / AI基础设施

1)软银孙正义计划筹措1000亿美元成立AI芯片企业

根据今年2月的媒体报道,软银正在制定一项计划将约1000亿美元投入到AI相关芯片中的计划,该项目被命名为是“伊邪那岐”。上周,当某股东问及“伊邪那岐”时,孙正义表示,他将致力于取得成果,并将努力实现自己设定的目标,但没有详细说明。

2)微软AI负责人:未来知识生产成本将降到边际成本为零

微软AI首席执行官穆斯塔法·苏莱曼示,对于许多开放网络上的内容,默认的社会契约是允许这种使用的。现有知识产权法在某种程度上有宽松性,在AI时代这种宽松性面临挑战。苏莱曼认为,信息经济学即将发生根本性的变化,“因为我们将把知识的生产成本降低到边际成本为零”。

3)加速视频生成新方法PAB:可实时生成视频,每秒21.6帧

这篇文章介绍了新加坡国立大学和普渡大学研究人员成功提出的PAB技术,实现了基于扩散式转换的视频生成的实时处理。该技术通过减少冗余的关注计算,实现了高达21.6帧每秒的生成速度,加速了10.6倍,同时适用于多个热门的DiT视频生成模型。

图片2.png

4)首个多模态视频竞技场Video-MME发布

首个多模态LLM视频分析综合评估基准Video-MME发布。在其基准考试中,Gemini 1.5 Pro一路遥遥领先,在全新的、更复杂的多模态考试中大获全胜,全面超越了GPT-4o。

5)Sam Altman:AGI或在十年内实现全球GDP翻倍

OpenAI CEO Sam Altman认为AGI可能会使全球GDP翻倍,同时他还声称“这对我来说是合理的,肯定与其他技术革命一致。我们确实认为这将是一个巨大的生产力驱动因素,甚至在早期阶段,我们已经看到人们用它来极大地改进产品和服务”。


格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论