近日,一本名为《畅销书密码》(The Bestseller Code)的图书在英国出版。该书作者阿彻尔曾供职于企鹅图书出版社,在那期间她亲眼目睹了丹·布朗的《达·芬奇密码》卖出8000万册的奇迹。那时她就一直在想是什么“魔法”让这本书成为销售传奇?单靠市场营销恐怕难以做到这一点。难道是单纯的运气吗?后来她遇到了斯坦福文学实验室创始人之一乔克斯,也是该书的另一位作者,在乔克斯看来,“关于畅销书,计算机能分析出人们无法直接看到的信息。”
《畅销书密码》
四年间,阿彻尔和乔克斯将过去30年出版的5000部虚构作品标题交给计算机消化,并教给计算机“阅读”:知道一句话从哪里开始又从哪里结束,分辨出对话的部分,勾画出情节。然后他们用一种“机器分类算法”计算出畅销书中最为常见的元素。
这些元素包括:
1.年轻强大又叛逆的女英雄,比如《火车上的女孩》、《消失的爱人》和《龙文身的女孩》。
2.没有性描写,只有“亲密”而已。
3.经常出现“需要”这个词。
4.很多缩写体。
5.惊叹号并不是很多。
6.关于狗的很多,关于猫的很少。
令人惊讶的是,性描写虽然也会让书大卖,但只是在色情作品市场中,而且情况往往不像大家想象的那样。以《五十度灰》为例,虽然它的营销衍生品奇奇怪怪,但是小说的主题除了21%的“亲密关系”之外,第二大主题便是亲密对话,但多数是柏拉图式的对话以及很感性的对话。
除了这些,这本书还列出了畅销书所具有的其他2793个元素。据称这个算法预测“现象级畅销书”的准确率达到80%。
当然,这只是畅销书算法的一种。在美国,很多传统的出版商已经开始雇佣数据工程师,他们用数据分析代替了读者的直觉和充满希望的想法。
原本出版业要依靠销量来判断读者的需求,而现在的电子阅读改变了这一切。理论上说,出版社可以清楚知道读者是从头到尾读完了一本书,还是只读了20页就放弃了;还能知道读者在何时何地阅读;在有些阅读软件中,人们绑定了社交网络,那么还可以获取更多读者信息。但问题是掌握这些信息的公司,例如苹果和亚马逊是不会和出版社分享的。
为了解决这个“不能分享”的问题,一家伦敦的创业公司提供了一种方案,出版社可以通过他们将电子书在出版前就免费发送给目标读者,然后获取阅读页数、阅读时间和地点等信息。结果发现,大部分小说还没读完一半就被读者放弃了。
在书业有20年经验、美国柯提斯·布朗出版集团部门负责人盖勒,近日在TED的演讲中也讲到畅销书所包含的特质:它们都有一个精心设计的故事,能够将读者从熟悉的地方带进一个新鲜的场域,还要包含一个高于故事本身的主题。他以《房间》为例(这部作品改编的同名电影获得了第88届奥斯卡最佳影片提名),“这部作品的成功并不仅仅在于讲述了一对母子在封闭空间中相处多年的故事,而在于它展现了最纯粹的母爱。”
还有一种想法是用大数据来决定写什么书。一家在美国加州的传媒公司用大数据挖掘那些读者想要阅读、但还并不存在的非虚构题材,然后再雇人来创作。这家公司的CEO称他们每个月会收集6000万份读者数据。例如他们会研究用户在亚马逊网站上的搜索记录,找到那些人们经常输入却没有搜索结果的关键词。在他们研究的结果中,有些主题是比较容易想到的:例如《医用大麻药房:大麻的医用和食用》,还有些比较难以想到,例如《感统失调患者每天适用的小游戏》。
而这家公司会热心出版一些类似《桥本氏甲状腺炎患者的四周康复计划》的古怪图书,目标读者是那些“自身免疫病”患者。他们的作者会根据大数据分析得出的大纲进行写作,这样写作的速度会变快,而一本书从写作到上市一般控制在九周时间内,因为那些搜索这些信息的用户“正等着”这本书。每种书保证卖出1500册,他们就能够开始盈利。
当然,对于出版业的大数据应用一直存在质疑的声音。尽管有各种各样的畅销书算法,一位波士顿的出版人认为图书和冰箱这类商品不同之处在于,“有时你会拿起一本事先并不了解的书,从中发现那些原本自己可能根本没想到会喜欢的东西。所以大数据可能会限制我们的品味和可能性。”而《连线》杂志也称,这些算法可能会挽救出版业,但却毁了小说本身。