剑桥,质量。(美联社)——互联网上所说的一切都只是人性教育的开始。科技公司现在正在利用一个更古老的知识宝库:图书馆。
哈佛大学将于周四向人工智能研究人员发布近100万本早在15世纪出版的书籍,涉及254种语言。波士顿公共图书馆收藏的大量旧报纸和政府文件也将很快到来。
对于那些正在打官司的科技公司来说,打开有几百年历史的地窖可能是一笔数据财富,因为这些公司的创意作品在未经他们同意的情况下被挖掘出来,用于训练人工智能聊天机器人。
微软副总法律顾问伯顿·戴维斯(Burton Davis)表示:“从公共领域的数据入手是一个审慎的决定,因为与目前仍受版权保护的内容相比,公共领域的数据争议较小。”
戴维斯说,图书馆还拥有“大量有趣的文化、历史和语言数据”,这些数据在过去几十年的在线学习中缺失了。
在微软和ChatGPT制造商OpenAI的“无限制礼物”的支持下,哈佛大学的机构数据计划(Institutional Data Initiative)正在与世界各地的图书馆合作,研究如何让它们的历史馆藏以一种有利于图书馆和它们所服务的社区的方式为人工智能做好准备。
哈佛大学法学院图书馆创新实验室的研究负责人阿里斯塔娜·斯库塔斯说:“我们正试图将当前人工智能的一些权力转移回这些机构。”“图书馆员一直是数据和信息的管理者。”
哈佛大学最新发布的数据集“机构图书1.0”包含了超过3.94亿页的扫描论文。早期的作品之一是15世纪的韩国画家的关于种植花卉和树木的作品。馆藏最集中的是19世纪的作品,涉及文学、哲学、法律和农业等主题,所有这些作品都经过几代图书管理员的精心保存和整理。
对于试图提高系统准确性和可靠性的人工智能开发人员来说,这将是一个福音。
“人工智能训练中使用的许多数据并非来自原始来源,”数据倡议的执行董事格雷格·莱珀特(Greg Leppert)说,他也是哈佛大学伯克曼·克莱因互联网与社会中心(Berkman Klein Center for Internet & Society)的首席技术专家。他说,这些藏书“可以追溯到实际收藏这些书籍的机构扫描的实物副本”。
在ChatGPT引发商业人工智能狂热之前,大多数人工智能研究人员并没有过多考虑他们从维基百科、社交媒体、有时甚至是盗版书库中提取的文本段落的来源。计算机科学家称之为符号的数据单位,每个符号可以代表一个单词的一部分。
哈佛大学新的人工智能训练集估计有2420亿个代币,这个数字对人类来说很难理解,但它仍然只是最先进的人工智能系统中输入的一小部分。例如,Facebook母公司Meta表示,其最新版本的人工智能大型语言模型经过了从文本、图像和视频中提取的30多万亿个代币的训练。
此外,Meta还在与喜剧演员莎拉•西尔弗曼(Sarah Silverman)和其他出版作家的诉讼作斗争,他们指控该公司从盗版作品的“影子图书馆”窃取他们的作品。
现在,有一些保留意见,真正的图书馆站起来了。
OpenAI今年向一些研究机构捐赠了5000万美元,其中包括牛津大学拥有400年历史的博德利图书馆(Bodleian Library),该图书馆正在对稀有文本进行数字化,并利用人工智能帮助转录。
波士顿公共图书馆是美国最大的图书馆之一,其数字和在线服务主管杰西卡·查普尔(Jessica Chapel)说,当该公司第一次与波士顿公共图书馆接触时,该图书馆明确表示,它数字化的任何信息都将面向所有人。
“OpenAI对大量的训练数据很感兴趣。我们对大量的数字对象感兴趣。所以这只是一种情况,事情是一致的,”查普尔说。
数字化是昂贵的。例如,波士顿图书馆扫描和整理数十份新英格兰地区的法语报纸是一项艰苦的工作,这些报纸在19世纪末和20世纪初被魁北克的加拿大移民社区广泛阅读。既然这些文本可以作为训练数据使用,它就可以为图书管理员想要做的项目提供资金。
查普尔说:“我们一直很清楚,‘嘿,我们是一家公共图书馆。“我们的藏品是供公众使用的,作为这个项目的一部分,我们数字化的任何东西都将公之于众。”
早在2006年,另一家科技巨头b谷歌就已经开始将哈佛大学的藏书数字化。b谷歌的一个有争议的项目是创建一个包含2000多万册图书的可搜索在线图书馆。
谷歌花了数年时间从作者到它的在线图书库,其中包括许多较新的和有版权的作品。2016年,美国最高法院维持了下级法院驳回版权侵权指控的裁决,最终解决了这一问题。
现在,谷歌第一次与哈佛大学合作,从谷歌图书中检索公共领域的书籍,并为向人工智能开发者发布这些书籍扫清了道路。美国的版权保护,对录音的保护时间更长。
所有这些对下一代人工智能工具有多大用处还有待观察,因为这些数据将于周四在hug Face平台上共享,该平台上有数据集和开源人工智能模型,任何人都可以下载。
与典型的人工智能数据源相比,藏书在语言上更加多样化。尽管欧洲语言仍占主导地位,尤其是德语、法语、意大利语、西班牙语和拉丁语,但英文书的数量还不到一半。
莱珀特说,一本沉浸在19世纪思想中的藏书,对于科技行业打造能够像人类一样进行规划和推理的人工智能代理的努力来说,也可能“非常关键”。
“在大学里,你有很多关于什么是理性的教育,”Leppert说。“你有很多关于如何运行流程和如何运行分析的科学信息。”
与此同时,也有大量过时的数据,从被揭穿的科学和医学理论到种族主义叙事。
哈佛大学图书馆创新实验室(Library Innovation Lab)协调员克里斯蒂·穆克(Kristi Mukk)说:“当你处理如此庞大的数据集时,会遇到一些关于有害内容和语言的棘手问题。”穆克说,该计划试图提供指导,以减轻使用数据的风险,“帮助他们做出明智的决定,负责任地使用人工智能。”
————
美联社和OpenAI允许OpenAI访问美联社的部分文本档案。
转载请注明出处: iNCAP英凯教育
本文的链接地址: http://news.incaponline.cn/post-9419.html
本文最后发布于2025年06月13日15:30
,已经过了0天没有更新,若内容或图片失效,请留言反馈
-
《BBC严格》2025年的正式阵容终于确定了,但缺少一个重要的名字
《舞动奇迹》2025年的职业舞者阵容已经确定,尽管几个月来一直在猜测,但没有人被裁掉。然而,也有消息证实乔瓦尼·佩尼斯不会回归,尽管他在去年赢得意大利版的《生活奇迹》后希望能回归。他的复出很可能会得到评委ShirleyBallas和AntonDuBeke的支持,他们一直与这位意大利舞者保持着密切的关系。粉丝们最喜欢的乔瓦尼在他的明星舞伴阿曼达·阿宾顿对...
2025/04/21
-
卡拉奇:宣布2025年中级考试日期
听文章卡拉奇2025年年度中级考试的第一阶段将于5月5日(周一)开始,预计将有超过12.65万名学生参加各种科学和家政学小组的考试。据卡拉奇中级教育委员会(BI...
2025/05/07
-
巴基斯坦团结的考验
伊斯兰堡:在巴哈尔甘袭击事件加剧了地区紧张局势之后,巴基斯坦政治领导层呼吁建立一个明确而统一的战线,敦促各党派在这个利害攸关的时刻和解,团结一致。在新德里突然决定撕破关键的水资源、贸易和签证条约之后,巴基斯坦政界的主要声音认为此举是下意识的反应,并呼吁政府超越党派分歧,制定一个强有力的、统一的全国应对方案——呼吁全国发出一个声音。在谴责袭击造成人员伤亡的同时...
2025/04/24
-
加拿大公司绕过联合国机构向美国申请深海采矿许可证
一家加拿大公司周二宣布,其美国子公司向美国国家海洋和大气管理局(NationalOceanicandAtmosphericAdministration)提交了海底采矿申请,此举绕过了管理深海国际水域的联合国机构,引发了公愤。总部位于温哥华的MetalsCompany表示,该公司正在申请两份勘探许可证和一份商业回收许可证,这是一家公司首次申请在海底进...
2025/05/07
-
‘;这几乎就像一种狂热”:特朗普是如何在联邦选举中赢得卡尼的
马克•卡尼(MarkCarney)做了一件不可思议的事。这位职业官僚只有一个多月的从政经验,但他把一蹶不振的自由党从悬崖边上拉了回来,并在周一晚上赢得了加拿大近史上最不寻常的选举。当选票开始涌入时,你不会从自由党总部——兰斯顿公园的TD广场——的人群规模中看出这一点。周一晚上10点15分左右,当各大媒体预测卡尼将获胜时,聚集在竞技场地板上的人群爆发出热烈的...
2025/05/03
-
沙特阿拉伯“沉睡王子”:谁是瓦利德·本·哈立德王子?
听文章沙特阿拉伯的“沉睡王子”阿尔瓦利德·本·哈立德·本·塔拉勒王子于2025年4月18日年满36岁,在2005年的一场车祸导致他严重脑损伤近20年后,他仍处于...
2025/04/23
-
胡塞叛军称,美国空袭造成也门首都12人死亡
阿拉伯联合酋长国迪拜(美联社)——周一早间,美国对也门首都的空袭造成12人死亡,34人受伤。这些死亡是针对反政府武装的最新行动。美军中央司令部拒绝回答有关空袭的问题,也拒绝讨论空袭造成的平民伤亡。胡塞武装称这次袭击袭击了萨那Shuub区的Farwa社区市场。这一地区此前曾是美国人的目标。胡塞的al-Masirah卫星新闻频道播放的视频显示,该地区的车辆和建筑...
2025/04/22
-
特朗普政府要求最高法院剥夺对35万委内瑞拉移民的法律保护
华盛顿(美联社)——特朗普政府周四要求最高法院取消对35万委内瑞拉人的临时法律保护,这可能使他们面临被驱逐出境的风险。司法部要求最高法院暂停旧金山一名联邦法官的裁决,该裁决维持了委内瑞拉人的临时保护身份,否则该身份将于上个月到期。联邦上诉法院早些时候驳回了政府的请求。唐纳德·特朗普总统的政府已经采取积极行动,取消了允许移民留在美国的各种保护措施,包括终止对6...
2025/05/06
-
巴基斯坦人民党的法里亚尔说,运河阻碍了国家团结的胜利
卡拉奇:巴基斯坦人民党高级领导人法里亚尔·塔尔普尔宣布暂停新运河工程,并召集共同利益委员会(CCI)会议,这是民族团结、宪法至上和信德省人民斗争的胜利。塔普尔在一份声明中说:“今天是巴基斯坦联邦统一、宪法至上和农民权利的胜利之日。”她指出,比拉瓦尔·布托·扎尔达里有原则的领导和信德省人民的和平抗议证明,当立场公正、意图纯粹时,政府不得不听取人民的意见。塔尔布...
2025/04/30
-
布什拉的临时保释金延长至6月11日
伊斯兰堡:周一,反恐法庭将前总理伊姆兰·汗的妻子布什拉·比比的临时保释金延长至6月11日,这两起案件与11月26日的抗议活动有关。ATC法官AbualHasnatMuhammadzulqarain听取了BushraBibi的保释请求。她的律师提出申请,要求免除个人露面。法院指示布什拉参加调查,并将听证会延期至6月11日。与此同时,中央特别法官Shah...
2025/05/08