2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)
哥伦比亚工程公司的计算机科学家发明了FontCode,这是一种通过不知不觉地改变或扰乱文本中字体形状将隐藏信息嵌入普通文本的新方法。FontCode创建字体扰动,使用它们对消息进行编码,以后可以对其进行解码以恢复消息。该方法适用于大多数字体,与隐藏嵌入信息的其他文本和文档方法不同,它适用于大多数文档类型,甚至在文档打印在纸上或转换为其他文件类型时保留隐藏信息。该论文将于8月12日至16日在不列颠哥伦比亚省温哥华的SIGGRAPH展出。
“虽然间谍活动有明显的应用,但我们认为FontCode对于希望防止文件篡改或保护版权的公司有更多的实际用途,对于想要嵌入QR码和其他元数据的零售商和艺术家而不改变文件的外观或布局“计算机科学副教授和该论文的资深作者郑昌喜说。
Zheng与他的学生Chang Xiao(博士生)和Cheng Zhang MS'17(现为加州大学欧文分校的博士生)一起创建了FontCode 文本可以将文本,元数据,URL或数字签名嵌入到文本文档或图像中的隐写方法,无论是数字存储还是打印在纸上。它适用于常见的字体系列,如Times Roman,Helvetica和Calibri,并且与大多数文字处理程序兼容,包括Word和FrameMaker,以及图像编辑和绘图程序,如Photoshop和Illustrator。由于每个字母都可能被扰乱,因此秘密传送的信息量仅受常规文本长度的限制。信息使用微小的字体扰动进行编码 - 改变笔划宽度,调整上升和下降的高度,或者收紧或松开衬线和o,p和b等字母的曲线。
“将任何字母,标点符号或符号改为略有不同的形式,可以让你改变文件的含义,”该论文的第一作者肖说。“这些隐藏的信息,虽然对人类不可见,但是机器可读,就像条形码和QR码可以立即被计算机读取一样。但是,与条形码和QR码不同,FontCode不会破坏印刷材料的视觉美感,存在可以保密。“
使用FontCode隐藏的数据可能非常难以检测。即使攻击者检测到两个文本之间的字体变化 - 考虑到扰动的微妙性,这种变化也很不可能 - 扫描公司内部的每个文件都是不切实际的。
此外,FontCode不仅可以嵌入,还可以加密消息。虽然扰动存储在码本中的编号位置,但它们的位置不是固定的。想要通过加密文档进行通信的人会同意私钥,该私钥指定码本中扰动的特定位置或顺序。
“加密只是一个备用级别的保护,以防攻击者可以检测到使用字体更改来传达秘密信息,”郑说。“很难看到这些变化,因此它们很难被发现 - 这使得FontCode成为一种非常强大的技术,可以使数据超越现有的防御。”
FontCode不是第一种在文本中隐藏消息的技术程序,用于隐藏PDF和Word文件中的消息或调整空白大小以表示0或1 - 但研究人员表示,它是第一个独立于文档的程序。即使文档或带有文本的图像(PNG,JPG)被打印或转换为其他文件类型,也要保留秘密信息。这意味着可以将FrameMaker或Word文件转换为PDF,或者将JPEG转换为PNG,所有这些都不会丢失秘密信息。
要使用FontCode,您将提供秘密消息和运营商文本文档。FontCode将秘密消息转换为位串(ASCII或Unicode),然后转换为整数序列。每个整数分配给常规文本中的五个字母的块,其中每个字母的编号的码本位置总和为整数。
恢复隐藏的消息是相反的过程。从数字文件或用智能手机拍摄的照片,FontCode将每个被扰动的字母与码本中的原始扰动相匹配,以重建原始消息。
使用卷积神经网络(CNN)完成匹配。识别矢量绘制的字体(例如存储为PDF或由Illustrator等程序创建的字体)很简单,因为形状和路径定义是计算机可读的。然而,对于PNG,IMG和其他光栅化(或像素)字体来说,这是一个不同的故事,其中光线变化,相机视角不同,或噪声或模糊可能会掩盖字母的一部分并妨碍识别。
虽然CNN受过训练以考虑到这种扭曲,但仍会发生识别错误,研究人员面临的一个关键挑战是确保在面对此类错误时始终能够恢复信息。冗余是恢复丢失信息的一种显而易见的方法,但它不适用于文本,因为冗余的字母和符号很容易被发现。
相反,研究人员转向了具有1700年历史的中国剩余定理,该定理在被几个不同的除数分割后,从其余数中识别出一个未知数。该定理已被用于重建其他领域的缺失信息 ; 在FontCode中,研究人员使用它来恢复原始信息,即使并非所有字母都被正确识别。
“想象一下有三个未知的变量,”郑说。“使用三个线性方程式,你应该能够求解所有三个方程式。如果你将方程式的数量从三个增加到五个,只要你知道五个方程式中的任何三个,就可以解决三个未知数。”
使用中国剩余理论,研究人员证明即使25%的字母扰动未被识别,他们也可以恢复信息。从理论上讲,错误率可能高于25%。
已向Columbia Technology Ventures申请专利的作者计划将FontCode扩展到其他语言和字符集,包括中文。
“我们对FontCode的广泛应用感到兴奋,”郑说,“从文档管理软件到隐形二维码,再到保护法律文件.WordCode可能会改变游戏规则。”
2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)