【#阿里版GPT-4o免费开放,自由指令修图,人人都是P图大师#】
科技圈深夜放大招!6月27日,阿里正式推出其对标GPT-4o的杀手级应用——多模态统一理解与生成模型 #Qwen VLo#。它不仅能“看懂”世界,更能基于理解进行高质量的再创造。目前预览版已上线Qwen Chat,所有人均可免费使用!
与以往模型相比,Qwen VLo解决了“语义不一致”的核心痛点。它采用一种“渐进式生成”方式,在创作中不断优化调整,如同人类画师般精细打磨,确保了对原图关键特征的保留和指令的精准遵循。
其最核心的变革在于,它将专业P图软件的功能,变成了人人可用的自然语言指令。你可以开启一场“连续对话式P图”:先让它“生成一个可爱的柴犬”,然后“背景改成草原”,再“给它戴上写着‘QwenVLo’的红帽子和黑墨镜”,接着“变成吉卜力风格”,最后“把它放进水晶球里”。整个过程行云流水,一句话“指哪改哪”,实现了前所未有的自由编辑能力。
Qwen VLo的强大不止于此。它还能处理更复杂的专业任务:
多任务指令:能一步到位地响应“修改物体+修改文字+更换背景”这类包含多个操作的复杂指令,可直接用于海报创作。
视觉感知任务:过去需要专业工具才能完成的“物体检测”、“图像分割”、“边缘检测”等任务,现在只需一句文字指令即可生成对应的标注图。
多语言支持:无缝支持中、英文等多种语言,打破了全球用户的交流壁垒。
根据官方信息,多图输入理解(如“把这些洗浴用品放到篮子里”)和动态长宽比图像生成等更强大的功能也即将上线。Qwen VLo标志着AI P图已从“按键时代”迈入“对话时代”,创作的门槛被彻底拉平。
重点关注:
核心技术对比:Qwen VLo采用“渐进式生成”机制,像人类画师一样创作,解决了传统AI模型易出现的语义漂移、细节丢失问题,在理解和生成准确性上实现飞跃。
功能细节:其“开放指令编辑”功能极其强大,不仅支持连续对话式修图(如增减元素、改变画风),还能通过自然语言完成物体检测、图像分割等专业级视觉感知任务。
重大意义:它将专业、复杂的多步骤图像处理流程,转变为单一、简单的自然语言指令,实现了“一句话P图”,极大地降低了高质量内容创作的门槛。目前模型已免费开放预览。
#QwenVLo##一句话P图##阿里AI##人工智能[超话]##ChatGPT[超话]##AI探索计划#
