Wu Shizhong谈论了数据集的构建:合法性的监督是第一道防线,我们不会失去它

Wu Shizhong谈论了数据集的构建:合法性的监督是第一道防线,我们不会失去它

“目前,全球人工智能正在加速从知觉智能到认知智能的过渡。作为中心载体,大型模型的能力限制几乎是完整的大型模型。它确定重要的任务之一是“持续加强高质量的人工智能数据集的高质量数据,在该数字数据中开始构建高质量的数据。深圳的管理措施强调了公共数据分类的促进,并有序地促进层次结构,并扩大了高质量的公共培训数据资源。y来自公共网络数据集和用户生成的内容,但属性和所有权问题不清楚。例如,培训数据可能包含新的未经授权的章节或内部公司文件,即使开发人员遵循合理的使用原则,他们也会面临对版权的要求。未经违反数据安全法的用户同意,使用了一些社交网络数据。在国外有一个很棒的模特,该模型被监管机构违法,并罚款了数亿人民币,以非法收集用户搜索历史记录。吴西森强调说:“法律法规不是形式主义,它们是建立数据集并且不能丢失的第一道防线。”第二个是数据内容可靠性的风险。大型模型的输出质量直接取决于培训数据,但实际上,数据集有三种类型的问题,包括广告,混乱的代码,虚假新闻和低质量噪声。不正确的错误作为历史或科学代表。它包括有价值的区域,种族,宗教和偏差。这些问题直接影响模型输出的精度和平等。不能忽略数据供应链的风险,并且必须向隐藏的操纵风险提供高度注意力。 dathis Collection包括该集合和标签的多个链接。漏洞是供应商,标签,云平台的分包等产生的攻击门户。在测试过程中,我们发现在已发布的数据集中注入少量的样本,大型模型可以指导它们获取虚假信息。此外,一些不良供应商在标记时会故意插入错误,这将导致LModels在严格且风险的情况下(例如医学和化学工程)做出错误的决定。 Wu Shizhong还说,随着数据集的增加,主权也有风险,包括使用开源源E国外数据集。此外,还有道德风险。如果数据本身是合法和满足的,但是对使用情况没有限制,那么深层伪造和欺诈性操纵可能会导致问题。例如,包含生物学特性的面部照片和视听夹可能会在大型模型中使用后会导致技术滥用,并会损害脆弱的未成年人和群体。不仅如此,如果数据集在多个模型中共享,那么如果滥用随着时间的推移没有阻止,则风险在模型之间扩展。为了面对先前的挑战,吴·乌阿旺(Wu Uathong)认为,努力必须在四个方面是Maderjos:第一个是改善层次结构和分类的数据安全系统,阐明使用范围和使用规则,并建立推荐的数据目录并交叉数据安全性评估机制。其次,它将在整个过程中改善技术保护,并改善质量控制和抗抑制性控制AB通过存储区块链证据,检测机密信息的检测,人类计算机发音的注释,“数据砂盒”和其他媒体。第三,它促进了政府,公司和科学研究机构的协调,以建立演示和审查,开放数据开放,合规定位和安全认证的系统。此外,它鼓励了安全和上级行业的生态,结合了技术安全和价值取向,提倡数据的伦理并做出回应,并促进了由整个社会保护的数据安全文化的形成。访谈和写作:Nandu n视频记者Guiyang的Huang Lingling
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:previouS内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注